Linux kernel内存碎片防治技术

栏目: 服务器 · Linux · 发布时间: 6年前

内容简介：Linux kernel组织管理物理内存的方式是buddy system（伙伴系统），而物理内存碎片正式buddy system的弱点之一，为了预防以及解决碎片问题，kernel采取了一些实用技术，这里将对这些技术进行总结归纳。从buddy申请内存页，如果找不到合适的页，则会进行两步调整内存的工作，compact和reclaim。前者是为了整合碎片，以得到更大的连续内存；后者是回收不一定必须占用内存的缓冲内存。这里重点了解comact，整个流程大致如下：并不是所有申请不到内存的场景都会compact，首先要

Linux kernel组织管理物理内存的方式是buddy system（伙伴系统），而物理内存碎片正式buddy system的弱点之一，为了预防以及解决碎片问题，kernel采取了一些实用技术，这里将对这些技术进行总结归纳。

1 低内存时整合碎片

从buddy申请内存页，如果找不到合适的页，则会进行两步调整内存的工作，compact和reclaim。前者是为了整合碎片，以得到更大的连续内存；后者是回收不一定必须占用内存的缓冲内存。这里重点了解comact，整个流程大致如下：

__alloc_pages_nodemask
    -> __alloc_pages_slowpath
        -> __alloc_pages_direct_compact
            -> try_to_compact_pages
                -> compact_zone_order
                    -> compact_zone
                        -> isolate_migratepages
                        -> migrate_pages
                        -> release_freepages

并不是所有申请不到内存的场景都会compact，首先要满足order大于0，并且gfp_mask携带__GFP_FS和__GFP_IO；另外，需要zone的剩余内存情况满足一定条件，kernel称之为“碎片指数”（fragmentation index），这个值在0~1000之间，默认碎片指数大于500时才能进行compact，可以通过proc文件extfrag_threshold来调整这个默认值。fragmentation index通过fragmentation_index函数来计算：

/*
  * Index is between 0 and 1000
  *
  * 0 => allocation would fail due to lack of memory
  * 1000 => allocation would fail due to fragmentation
  */
return 1000 - div_u64( (1000+(div_u64(info->free_pages * 1000ULL, requested))), info->free_blocks_total)

在整合内存碎片的过程中，碎片页只会在本zone的内部移动，将位于zone低地址的页尽量移到zone的末端。申请新的页面位置通过compaction_alloc函数实现。

移动过程又分为同步和异步，内存申请失败后第一次compact将会使用异步，后续reclaim之后将会使用同步。同步过程只移动当面未被使用的页，异步过程将遍历并等待所有MOVABLE的页使用完成后进行移动。

2 按可移动性组织页

按照可移动性将内存页分为以下三个类型：

UNMOVABLE：在内存中位置固定，不能随意移动。kernel分配的内存基本属于这个类型；
RECLAIMABLE：不能移动，但可以删除回收。例如文件映射内存；
MOVABLE：可以随意移动，用户空间的内存基本属于这个类型。

申请内存时，根据可移动性，首先在指定类型的空闲页中申请内存，每个zone的空闲内存组织方式如下：

struct zone {
......
struct free_area    free_area[MAX_ORDER];
......
}
struct free_area {
struct list_head free_list[MIGRATE_TYPES];
unsigned long nr_free;
};

当在指定类型的free_area申请不到内存时，可以从备用类型挪用，挪用之后的内存就会释放到新指定的类型列表中，kernel把这个过程称为“盗用”。

备用类型优先级列表如下定义：

static int fallbacks[MIGRATE_TYPES][4] = {
[MIGRATE_UNMOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE,     MIGRATE_RESERVE },
[MIGRATE_RECLAIMABLE] = { MIGRATE_UNMOVABLE,   MIGRATE_MOVABLE,     MIGRATE_RESERVE },
#ifdef CONFIG_CMA
[MIGRATE_MOVABLE] = { MIGRATE_CMA,         MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_RESERVE },
[MIGRATE_CMA] = { MIGRATE_RESERVE }, /* Never used */
#else
[MIGRATE_MOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE,   MIGRATE_RESERVE },
#endif
[MIGRATE_RESERVE] = { MIGRATE_RESERVE }, /* Never used */
#ifdef CONFIG_MEMORY_ISOLATION
[MIGRATE_ISOLATE] = { MIGRATE_RESERVE }, /* Never used */
#endif
};

值得注意的是并不是所有场景都适合按可移动性组织页，当内存大小不足以分配到各种类型时，就不适合启用可移动性。有个全局变量来表示是否启用，在内存初始化时设置：

void __ref build_all_zonelists(pg_data_t *pgdat, struct zone *zone)
{
......
if (vm_total_pages < (pageblock_nr_pages * MIGRATE_TYPES))
 page_group_by_mobility_disabled = 1;
else
 page_group_by_mobility_disabled = 0;
......
}

如果page_group_by_mobility_disabled，则所有内存都是不可移动的。其中有个参数决定了每个内存区域至少拥有的页，pageblock_nr_pages，它的定义如下：

#define pageblock_order HUGETLB_PAGE_ORDER
#else /* CONFIG_HUGETLB_PAGE */
/* If huge pages are not used, group by MAX_ORDER_NR_PAGES */
#define pageblock_order (MAX_ORDER-1)
#endif /* CONFIG_HUGETLB_PAGE */
#define pageblock_nr_pages (1UL << pageblock_order)

在系统初始化期间，所有页都被标记为MOVABLE：

void __meminit memmap_init_zone(unsigned long size, int nid, unsigned long zone,
unsigned long start_pfn, enum memmap_context context)
{
......
if ((z->zone_start_pfn <= pfn)
&& (pfn < zone_end_pfn(z))
&& !(pfn & (pageblock_nr_pages - 1)))
set_pageblock_migratetype(page, MIGRATE_MOVABLE);
......
}

其它可移动性类型的页都是后来产生的，也就是前面说的“盗取”。在这种情况发生时，通常会“盗取”fallback中更高优先级、更大块连续的页，从而避免小碎片的产生。

/* Remove an element from the buddy allocator from the fallback list */
static inline struct page *
__rmqueue_fallback(struct zone *zone, int order, int start_migratetype)
{
......
/* Find the largest possible block of pages in the other list */
for (current_order = MAX_ORDER-1; current_order >= order;
--current_order) {
for (i = 0;; i++) {
 migratetype = fallbacks[start_migratetype][i];
......
}

可以通过/proc/pageteypeinfo查看当前系统各种类型的页分布。

3 虚拟可移动内存域

在依据可移动性组织页的技术之前，还有一个方法已经合入kernel，那就是虚拟内存域：ZONE_MOVABLE。基本思想很简单：把内存分为两部分，可移动的和不可移动的。

enum zone_type {
#ifdef CONFIG_ZONE_DMA
 ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
 ZONE_DMA32,
#endif
 ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
 ZONE_HIGHMEM,
#endif
 ZONE_MOVABLE,
 __MAX_NR_ZONES
};

ZONE_MOVABLE的启用需要指定kernel参数kernelcore或者movablecore，kernelcore用来指定不可移动的内存数量，movablecore指定可移动的内存大小，如果两个都指定，取不可移动内存数量较大的一个。如果都不指定，则不启动。

与其它内存域不同的是ZONE_MOVABLE不关联任何物理内存范围，该域的内存取自高端内存域或者普通内存域。find_zone_movable_pfns_for_nodes用来计算每个node中ZONE_MOVABLE的内存数量，采用的内存区域通常是每个node的最高内存域，在函数find_usable_zone_for_movable中体现。

在对每个node分配ZONE_MOVABLE内存时，kernelcore会被平均分配到各个Node：

kernelcore_node = required_kernelcore / usable_nodes;

在kernel alloc page时，如果gfp_flag同时指定了__GFP_HIGHMEM和__GFP_MOVABLE，则会从ZONE_MOVABLE内存域申请内存。

Linux公社的RSS地址： https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址： https://www.linuxidc.com/Linux/2019-03/157867.htm

以上所述就是小编给大家介绍的《Linux kernel内存碎片防治技术》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

沸騰15年

林軍 / 商周出版 / 2010年09月19日 / NTD：430元

從一九九五年到二○○九年，中國互聯網崛起、發展和壯大。在短短十五年間產生了十五家市值超過十億的上市公司這些前仆後繼的先行者不但用網際網路創造了歷史，也改寫了自己的財富路徑。這本關於中國互聯網產業歷史的書，脈絡清晰、生動鮮明地把一大批創業者的形象和他們的動人故事呈現在讀者眼前，值得一讀。 ——中國互聯網協會理事長、中國科協副主席胡啟?? 林軍這本......一起来看看《沸騰15年》这本书的介绍吧!

码农工具