您當前的位置:首頁 > 攝影

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

作者:由 玩轉Linux核心 發表于 攝影時間:2022-01-20

linux 記憶體是後臺開發人員,需要深入瞭解的計算機資源。合理的使用記憶體,有助於提升機器的效能和穩定性。本文主要介紹 linux 記憶體組織結構和頁面佈局,記憶體碎片產生原因和最佳化演算法,linux 核心幾種記憶體管理的方法,記憶體使用場景以及記憶體使用的那些坑。從記憶體的原理和結構,到記憶體的演算法最佳化,再到使用場景,去探尋記憶體管理的機制和奧秘。

一、走進 linux 記憶體

1、記憶體是什麼?

1)記憶體又稱主存,是 CPU 能直接定址的儲存空間,由半導體器件製成

2)記憶體的特點是存取速率快

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

2、記憶體的作用

1)暫時存放 cpu 的運算資料

2)硬碟等外部儲存器交換的資料

3)保障 cpu 計算的穩定性和高效能

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

文章福利】小編推薦自己的Linux核心技術交流群:【865977150】或者系統課程學習諮詢微信【2207032995】,備註一下(玩轉Linux核心);整理了一些個人覺得比較好的學習書籍、影片資料共享在群檔案裡面,有需要的可以自行新增哦!!!

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

學習直通車:

核心資料直通車:

二、 linux 記憶體地址空間

1、linux 記憶體地址空間 Linux 記憶體管理全貌

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

2、記憶體地址——使用者態&核心態

使用者態:Ring3 運行於使用者態的程式碼則要受到處理器的諸多

核心態:Ring0 在處理器的儲存保護中,核心態

使用者態切換到核心態的 3 種方式:系統呼叫、異常、外設中斷

區別:每個程序都有完全屬於自己的,獨立的,不被幹擾的記憶體空間;使用者態的程式就不能隨意操作核心地址空間,具有一定的安全保護作用;核心態執行緒共享核心地址空間;

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

3、記憶體地址——MMU 地址轉換

MMU 是一種硬體電路,它包含兩個部件,一個是分段部件,一個是分頁部件

分段機制把一個邏輯地址轉換為線性地址

分頁機制把一個線性地址轉換為物理地址

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

4、記憶體地址——分段機制

1) 段選擇符

為了方便快速檢索段選擇符,處理器提供了 6 個分段暫存器來快取段選擇符,它們是: cs,ss,ds,es,fs 和 gs

段的基地址(Base Address):線上性地址空間中段的起始地址

段的界限(Limit):在虛擬地址空間中,段內可以使用的最大偏移量

2) 分段實現

邏輯地址的段暫存器中的值提供段描述符,然後從段描述符中得到段基址和段界限,然後加上邏輯地址的偏移量,就得到了線性地址

5、記憶體地址——分頁機制(32 位)

分頁機制是在分段機制之後進行的,它進一步將線性地址轉換為物理地址

10 位頁目錄,10 位頁表項, 12 位頁偏移地址

單頁的大小為 4KB

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

6、使用者態地址空間

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

TEXT:程式碼段可執行程式碼、字串字面值、只讀變數

DATA:資料段,對映程式中已經初始化的全域性變數

BSS 段:存放程式中未初始化的全域性變數

HEAP:執行時的堆,在程式執行中使用 malloc 申請的記憶體區域

MMAP:共享庫及匿名檔案的對映區域

STACK:使用者程序棧

7、核心態地址空間

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

直接對映區:線性空間中從 3G 開始最大 896M 的區間,為直接記憶體對映區

動態記憶體對映區:該區域由核心函式 vmalloc 來分配

永久記憶體對映區:該區域可訪問高階記憶體

固定對映區:該區域和 4G 的頂端只有 4k 的隔離帶,其每個地址項都服務於特定的用途,如: ACPI_BASE 等

8、程序記憶體空間

使用者程序通常情況只能訪問使用者空間的虛擬地址,不能訪問核心空間虛擬地址

核心空間是由核心負責對映,不會跟著程序變化;核心空間地址有自己對應的頁表,使用者程序各自有不同額頁表

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

三、 Linux 記憶體分配演算法

記憶體管理演算法——對討厭自己管理記憶體的人來說是天賜的禮物

1、記憶體碎片

1) 基本原理

產生原因:記憶體分配較小,並且分配的這些小的記憶體生存週期又較長,反覆申請後將產生記憶體碎片的出現

優點:提高分配速度,便於記憶體管理,防止記憶體洩露

缺點:大量的記憶體碎片會使系統緩慢,記憶體使用率低,浪費大

2) 如何避免記憶體碎片

少用動態記憶體分配的函式(儘量使用棧空間)

分配記憶體和釋放的記憶體儘量在同一個函式中

儘量一次性申請較大的記憶體,而不要反覆申請小記憶體

儘可能申請大塊的 2 的指數冪大小的記憶體空間

外部碎片避免——夥伴系統演算法

內部碎片避免——slab 演算法

自己進行記憶體管理工作,設計記憶體池

2、夥伴系統演算法——組織結構

1) 概念

為核心提供了一種用於分配一組連續的頁而建立的一種高效的分配策略,並有效的解決了外碎片問題

分配的記憶體區是以頁框為基本單位的

2) 外部碎片

外部碎片指的是還沒有被分配出去(不屬於任何程序),但由於太小了無法分配給申請記憶體空間的新程序的記憶體空閒區域3) 組織結構

把所有的空閒頁分組為 11 個塊連結串列,每個塊連結串列分別包含大小為 1,2,4,8,16,32,64,128,256,512 和 1024 個連續頁框的頁塊。最大可以申請 1024 個連續頁,對應 4MB 大小的連續記憶體

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

3、夥伴系統演算法——申請和回收

1) 申請演算法

申請 2^i 個頁塊儲存空間,如果 2^i 對應的塊連結串列有空閒頁塊,則分配給應用

如果沒有空閒頁塊,則查詢 2^(i 1) 對應的塊連結串列是否有空閒頁塊,如果有,則分配 2^i 塊連結串列節點給應用,另外 2^i 塊連結串列節點插入到 2^i 對應的塊連結串列中

如果 2^(i 1) 塊連結串列中沒有空閒頁塊,則重複步驟 2,直到找到有空閒頁塊的塊連結串列

如果仍然沒有,則返回記憶體分配失敗

2) 回收演算法

釋放 2^i 個頁塊儲存空間,查詢 2^i 個頁塊對應的塊連結串列,是否有與其物理地址是連續的頁塊,如果沒有,則無需合併

如果有,則合併成 2^(i 1)的頁塊,以此類推,繼續查詢下一級塊連結,直到不能合併為止

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

3) 條件

兩個塊具有相同的大小

它們的物理地址是連續的

頁塊大小相同

4、如何分配 4M 以上記憶體?

1) 為何限制大塊記憶體分配

分配的記憶體越大, 失敗的可能性越大

大塊記憶體使用場景少

2) 核心中獲取 4M 以上大記憶體的方法

修改 MAX_ORDER, 重新編譯核心

核心啟動選型傳遞“mem=”引數, 如“mem=80M,預留部分記憶體;然後透過

request_mem_region 和 ioremap_nocache 將預留的記憶體對映到模組中。需要修改核心啟動引數, 無需重新編譯核心。 但這種方法不支援 x86 架構, 只支援 ARM, PowerPC 等非 x86 架構

在 start_kernel 中 mem_init 函式之前呼叫 alloc_boot_mem 函式預分配大塊記憶體, 需要重新編譯核心

vmalloc 函式,核心程式碼使用它來分配在虛擬記憶體中連續但在物理記憶體中不一定連續的記憶體

5、夥伴系統——反碎片機制

1) 不可移動頁

這些頁在記憶體中有固定的位置,不能夠移動,也不可回收

核心程式碼段,資料段,核心 kmalloc() 出來的記憶體,核心執行緒佔用的記憶體等

2) 可回收頁

這些頁不能移動,但可以刪除。核心在回收頁佔據了太多的記憶體時或者記憶體短缺時進行頁面回收3) 可移動頁

這些頁可以任意移動,使用者空間應用程式使用的頁都屬於該類別。它們是透過頁表對映的

當它們移動到新的位置,頁表項也會相應的更新

6、slab 演算法——基本原理

1) 基本概念

Linux 所使用的 slab 分配器的基礎是 Jeff Bonwick 為 SunOS 作業系統首次引入的一種演算法

它的基本思想是將核心中經常使用的物件放到快取記憶體中,並且由系統保持為初始的可利用狀態。比如程序描述符,核心中會頻繁對此資料進行申請和釋放

2) 內部碎片

已經被分配出去的的記憶體空間大於請求所需的記憶體空間3) 基本目標

減少夥伴演算法在分配小塊連續記憶體時所產生的內部碎片

將頻繁使用的物件快取起來,減少分配、初始化和釋放物件的時間開銷

透過著色技術調整物件以更好的使用硬體快取記憶體

7、slab 分配器的結構

由於物件是從 slab 中分配和釋放的,因此單個 slab 可以在 slab 列表之間進行移動

slabs_empty 列表中的 slab 是進行回收(reaping)的主要備選物件

slab 還支援通用物件的初始化,從而避免了為同一目而對一個物件重複進行初始化

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

8、slab 快取記憶體

1) 普通快取記憶體

slab 分配器所提供的小塊連續記憶體的分配是透過通用快取記憶體實現的

通用快取記憶體所提供的物件具有幾何分佈的大小,範圍為 32 到 131072 位元組。

核心中提供了 kmalloc() 和 kfree() 兩個介面分別進行記憶體的申請和釋放

2) 專用快取記憶體

核心為專用快取記憶體的申請和釋放提供了一套完整的介面,根據所傳入的引數為具體的物件分配 slab 快取

kmem_cache_create() 用於對一個指定的物件建立快取記憶體。它從 cache_cache 普通快取記憶體中為新的專有快取分配一個快取記憶體描述符,並把這個描述符插入到快取記憶體描述符形成的 cache_chain 連結串列中

kmem_cache_alloc() 在其引數所指定的快取記憶體中分配一個 slab。相反, kmem_cache_free() 在其引數所指定的快取記憶體中釋放一個 slab

9、核心態記憶體池

1) 基本原理

先申請分配一定數量的、大小相等(一般情況下) 的記憶體塊留作備用

當有新的記憶體需求時,就從記憶體池中分出一部分記憶體塊,若記憶體塊不夠再繼續申請新的記憶體

這樣做的一個顯著優點是儘量避免了記憶體碎片,使得記憶體分配效率得到提升

2) 核心 API

mempool_create 建立記憶體池物件

mempool_alloc 分配函式獲得該物件

mempool_free 釋放一個物件

mempool_destroy 銷燬記憶體池

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

10、使用者態記憶體池

1) C++ 例項

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

11、DMA 記憶體

1) 什麼是 DMA

直接記憶體訪問是一種硬體機制,它允許外圍裝置和主記憶體之間直接傳輸它們的 I/O 資料,而不需要系統處理器的參與2) DMA 控制器的功能

能向 CPU 發出系統保持(HOLD)訊號,提出匯流排接管請求

當 CPU 發出允許接管訊號後,負責對匯流排的控制,進入 DMA 方式

能對儲存器定址及能修改地址指標,實現對記憶體的讀寫操作

能決定本次 DMA 傳送的位元組數,判斷 DMA 傳送是否結束

發出 DMA 結束訊號,使 CPU 恢復正常工作狀態

2) DMA 訊號

DREQ:DMA 請求訊號。是外設向 DMA 控制器提出要求,DMA 操作的申請訊號

DACK:DMA 響應訊號。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的訊號

HRQ:DMA 控制器向 CPU 發出的訊號,要求接管匯流排的請求訊號。

HLDA:CPU 向 DMA 控制器發出的訊號,允許接管匯流排的應答訊號:

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

四、 記憶體使用場景

out of memory 的時代過去了嗎?no,記憶體再充足也不可任性使用。

1、記憶體的使用場景

page 管理

slab(kmalloc、記憶體池)

使用者態記憶體使用(malloc、relloc 檔案對映、共享記憶體)

程式的記憶體 map(棧、堆、code、data)

核心和使用者態的資料傳遞(copy_from_user、copy_to_user)

記憶體對映(硬體暫存器、保留記憶體)

DMA 記憶體

2、使用者態記憶體分配函式

alloca 是向棧申請記憶體,因此無需釋放

malloc 所分配的記憶體空間未被初始化,使用 malloc() 函式的程式開始時(記憶體空間還沒有被重新分配) 能正常執行,但經過一段時間後(記憶體空間已被重新分配) 可能會出現問題

calloc 會將所分配的記憶體空間中的每一位都初始化為零

realloc 擴充套件現有記憶體空間大小

a) 如果當前連續記憶體塊足夠 realloc 的話,只是將 p 所指向的空間擴大,並返回 p 的指標地址。這個時候 q 和 p 指向的地址是一樣的

b) 如果當前連續記憶體塊不夠長度,再找一個足夠長的地方,分配一塊新的記憶體,q,並將 p 指向的內容 copy 到 q,返回 q。並將 p 所指向的記憶體空間刪除

3、核心態記憶體分配函式

函式分配原理最大記憶體其他_get_free_pages直接對頁框進行操作4MB適用於分配較大量的連續物理記憶體kmem_cache_alloc基於 slab 機制實現128KB適合需要頻繁申請釋放相同大小記憶體塊時使用kmalloc基於 kmem_cache_alloc 實現128KB最常見的分配方式,需要小於頁框大小的記憶體時可以使用vmalloc建立非連續物理記憶體到虛擬地址的對映物理不連續,適合需要大記憶體,但是對地址連續性沒有要求的場合dma_alloc_coherent基於_alloc_pages 實現4MB適用於 DMA 操作ioremap實現已知物理地址到虛擬地址的對映適用於物理地址已知的場合,如裝置驅動alloc_bootmem在啟動 kernel 時,預留一段記憶體,核心看不見小於物理記憶體大小,記憶體管理要求較高

4、malloc 申請記憶體

呼叫 malloc 函式時,它沿 free_chuck_list 連線表尋找一個大到足以滿足使用者請求所需要的記憶體塊

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

free_chuck_list 連線表的主要工作是維護一個空閒的堆空間緩衝區連結串列

如果空間緩衝區連結串列沒有找到對應的節點,需要透過系統呼叫 sys_brk 延伸程序的棧空間

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

5、缺頁異常

透過 get_free_pages 申請一個或多個物理頁面

換算 addr 在程序 pdg 對映中所在的 pte 地址

將 addr 對應的 pte 設定為物理頁面的首地址

系統呼叫:Brk—申請記憶體小於等於 128kb,do_map—申請記憶體大於 128kb

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

6、使用者程序訪問記憶體分析

使用者態程序獨佔虛擬地址空間,兩個程序的虛擬地址可相同

在訪問使用者態虛擬地址空間時,如果沒有對映物理地址,透過系統呼叫發出缺頁異常

缺頁異常陷入核心,分配物理地址空間,與使用者態虛擬地址建立對映

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

7、共享記憶體

1) 原理

它允許多個不相關的程序去訪問同一部分邏輯記憶體

兩個執行中的程序之間傳輸資料,共享記憶體將是一種效率極高的解決方案

兩個執行中的程序共享資料,是程序間通訊的高效方法,可有效減少資料複製的次數

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

2) shm 介面

shmget 建立共享記憶體

shmat 啟動對該共享記憶體的訪問,並把共享記憶體連線到當前程序的地址空間

shmdt 將共享記憶體從當前程序中分離

五、 記憶體使用那些坑

1、C 記憶體洩露

在類的建構函式和解構函式中沒有匹配地呼叫 new 和 delete 函式

沒有正確地清除巢狀的物件指標

沒有將基類的解構函式定義為虛擬函式

當基類的指標指向子類物件時,如果基類的解構函式不是 virtual,那麼子類的解構函式將不會被呼叫,子類的資源沒有得到正確釋放,因此造成記憶體洩露

缺少複製建構函式,按值傳遞會呼叫(複製)建構函式,引用傳遞不會呼叫

指向物件的指標陣列不等同於物件陣列,陣列中存放的是指向物件的指標,不僅要釋放每個物件的空間,還要釋放每個指標的空間

缺少過載賦值運算子,也是逐個成員複製的方式複製物件,如果這個類的大小是可變的,那麼結果就是造成記憶體洩露

2、C 野指標

指標變數沒有初始化

指標被 free 或 delete 後,沒有設定為 NULL

指標操作超越了變數的作用範圍,比如返回指向棧記憶體的指標就是野指標

訪問空指標(需要做空判斷)

sizeof 無法獲取陣列的大小

試圖修改常量,如:char

p=”1234“;

p=‘1’;

3、C 資源訪問衝突

多執行緒共享變數沒有用 valotile 修飾

多執行緒訪問全域性變數未加鎖

全域性變數僅對單程序有效

多程序寫共享記憶體資料,未做同步處理

mmap 記憶體對映,多程序不安全

4、STL 迭代器失效

被刪除的迭代器失效

新增元素(insert/push_back 等)、刪除元素導致順序容器迭代器失效

錯誤示例:刪除當前迭代器,迭代器會失效

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

正確示例:迭代器 erase 時,需儲存下一個迭代器

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

5、C++ 11 智慧指標

auto_ptr 替換為 unique_ptr

使用 make_shared 初始化一個 shared_ptr

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

weak_ptr 智慧指標助手(1)原理分析:(2)資料結構:(3)使用方法:a。 lock() 獲取所管理的物件的強引用指標 b。 expired() 檢測所管理的物件是否已經釋放 c。 get() 訪問智慧指標物件

6、C++ 11 更小更快更安全

std::atomic 原子資料型別 多執行緒安全

std::array 定長陣列開銷比 array 小和 std::vector 不同的是 array 的長度是固定的,不能動態拓展

std::vector vector 瘦身 shrink_to_fit():將 capacity 減少為於 size() 相同的大小

td::forward_list

forward_list 是單鏈表(std::list 是雙鏈表),只需要順序遍歷的場合,forward_list 能更加節省記憶體,插入和刪除的效能高於 list

std::unordered_map、std::unordered_set用 hash 實現的無序的容器,插入、刪除和查詢的時間複雜度都是 O(1),在不關注容器內元素順序的場合,使用 unordered 的容器能獲得更高的效能六、 如何檢視記憶體

系統中記憶體使用情況:/proc/meminfo

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

程序的記憶體使用情況:/proc/28040/status

查詢記憶體總使用率:free

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

查詢程序 cpu 和記憶體使用佔比:top

虛擬記憶體統計:vmstat

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

程序消耗記憶體佔比和排序:ps aux –sort -rss

釋放系統記憶體快取:/proc/sys/vm/drop_caches

To free pagecache, use echo 1 > /proc/sys/vm/drop_caches

To free dentries and inodes, use echo 2 > /proc/sys/vm/drop_caches

To free pagecache, dentries and inodes, use echo 3 >/proc/sys/vm/drop_caches

Linux核心記憶體相關問題,這一篇讓你徹底瞭解

標簽: 記憶體  核心  分配  DMA  地址