本文主要分析 Linux 系統(tǒng)內(nèi)存統(tǒng)計(jì)的一些指標(biāo)以及進(jìn)程角度內(nèi)存使用監(jiān)控的一些方法。
開始閱讀這篇文章前,請先簡單閱讀下面的幾篇文章。
《聊聊內(nèi)存管理》
想必這幾篇文章過后,基本概念就不需要再贅述了。所以下文直接就找一臺 Intel x86_64 架構(gòu)下安裝了 64bit Linux 系統(tǒng)的服務(wù)器作為例進(jìn)行相關(guān)的實(shí)驗(yàn)和結(jié)果分析。Linux 的內(nèi)存管理從物理內(nèi)存管理到虛擬內(nèi)存管理涉及的概念和統(tǒng)計(jì)項(xiàng)實(shí)在太多,本文從實(shí)用和系統(tǒng)運(yùn)維的角度出發(fā),只列舉一些最實(shí)用的統(tǒng)計(jì)。
上面的背景介紹文章把內(nèi)存相關(guān)的基礎(chǔ)概念講的差不多了,這里不再贅述。本文定位是內(nèi)存統(tǒng)計(jì),所以從最基礎(chǔ)的內(nèi)存統(tǒng)計(jì)的命令—free命令開始。執(zhí)行free命令,可以看到如下的輸出:
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
縱向是內(nèi)存和Swap分區(qū),橫向是統(tǒng)計(jì)項(xiàng)??v向的含義以及Swap不需要解釋,我們看橫向的統(tǒng)計(jì)項(xiàng):
total — 系統(tǒng)總內(nèi)存(其實(shí)就是從 /proc/meminfo獲取的)
used — 已使用內(nèi)存
free — 未使用的內(nèi)存
shared — 共享內(nèi)存的大小,主要是 tmpfs
buff / cache — buffers和cache使用的內(nèi)存之和
available — 可用內(nèi)存,可以簡單理解為未使用的內(nèi)存和可釋放的內(nèi)存之和(buffer、cache 可以釋放大部分,所以這里近似等于 free + buffer / cache 的大小)
這臺機(jī)器的系統(tǒng)和內(nèi)核稍微新一點(diǎn),這個(gè)輸出可能和你看到的不一樣,早先的free命令的輸出是這樣:
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
這里的shared為0,因?yàn)檫@臺服務(wù)器沒用共享內(nèi)存。這里多解釋下-/+ buffer/cache這行,字面意思就是used - buffers/cache和used + buffers/cache。前者指的是從應(yīng)用程序角度系統(tǒng)被用掉了多少內(nèi)存,后者指的是從應(yīng)用程序角度看系統(tǒng)還有多少內(nèi)存能用。聽起來很復(fù)雜,其實(shí)說白了就是因?yàn)閎uffers和cached可以被釋放出來,多幾個(gè)指標(biāo)看看系統(tǒng)還能用多少內(nèi)存而已。
下面用幾個(gè)公式來解釋這個(gè)輸出:
1234567891011 | # 內(nèi)存總量 = 已使用內(nèi)存 + 空閑內(nèi)存`total` = `used` + `free`# 系統(tǒng)被用掉的內(nèi)存`-buffers/cache` = `used` - `buffers` - `cached`# 系統(tǒng)還能用的內(nèi)存`+buffers/cache` = `free` + `buffers` + `cached`# 所以,其實(shí)還有下面的公式`total` = `-buffers/cache` + `+buffers/cache` |
buffers/cached不是100%都能釋放出來使用的,上面的“可用內(nèi)存”其實(shí)就是個(gè)近似值。最上面新版本系統(tǒng)的輸出中有一個(gè)available項(xiàng)目表示可用內(nèi)存,值小于free + buff/cache,內(nèi)核 3.14 之后支持該特性(雖然也不是絕對意義上的精確的可用內(nèi)存大小,囧)。
這里稍微多說一點(diǎn)buffers和cached。Linux 2.4.10 內(nèi)核之前,磁盤的緩存有兩種,即Buffer Cache和Page Cache。前者緩存管理磁盤文件系統(tǒng)時(shí)讀取的塊,后者存放訪問具體文件內(nèi)容時(shí)生成的頁。在 2.4.10 之后,Buffer Cache這個(gè)概念就不存在了,這些數(shù)據(jù)被放在Page Cache中(這種Page被稱為Buffer Pages)。
簡而言之,現(xiàn)在磁盤的 cache 只有 Page Cache一種,在Page Cache中,有一種Page叫Buffer Page,這種Page都與一個(gè)叫buffer_head的數(shù)據(jù)結(jié)構(gòu)關(guān)聯(lián),這些頁也就在內(nèi)存統(tǒng)計(jì)中用buffers這個(gè)指標(biāo)來單獨(dú)統(tǒng)計(jì)了。
很多命令的內(nèi)存統(tǒng)計(jì)都是從/proc/meminfo讀取的。鑒于/proc/meminfo的 man 文檔(man proc)寫的實(shí)在不夠清晰,很多條目居然還是To be documented狀態(tài),所以這里逐一列舉出來常見的統(tǒng)計(jì)項(xiàng)解釋一下。
首先明確一點(diǎn),內(nèi)核目前并沒有絕對精確的統(tǒng)計(jì)所有的內(nèi)存使用量,比如alloc_pages接口申請的內(nèi)存不一定被統(tǒng)計(jì)在內(nèi)(除非所有調(diào)用alloc_pages的代碼主動(dòng)進(jìn)行統(tǒng)計(jì),如果某些不講究的驅(qū)動(dòng)程序沒有主動(dòng)統(tǒng)計(jì)的話統(tǒng)計(jì)值就肯定對不上了)。
先看這三項(xiàng)全局統(tǒng)計(jì):
MemTotal — 總的全局可用內(nèi)存大?。次锢鞷AM減去保留的以及內(nèi)核代碼占用的,系統(tǒng)啟動(dòng)后一般固定不變)
MemFree — 總的全局未使用內(nèi)存大小
MemAvailable — 內(nèi)核估計(jì)出來的全局可用內(nèi)存大小,非精確值(MemFree不代表所有可用的內(nèi)存,Cache/Buffer、Slab均有部分可以臨時(shí)釋放的內(nèi)存要計(jì)算在內(nèi))
用戶進(jìn)程的內(nèi)存頁分為兩種:
與文件關(guān)聯(lián)的內(nèi)存頁(File-backed Pages), 比如程序文件、讀取文件時(shí)數(shù)據(jù)對應(yīng)的緩存頁
與文件無關(guān)的匿名內(nèi)存頁(Anonymous Pages),比如進(jìn)程的堆、棧等分配的內(nèi)存
所有Page Cache里的頁面都是File-backed Pages,F(xiàn)ile-backed Pages在內(nèi)存不足的時(shí)候可以直接寫回對應(yīng)的硬盤文件里,即Page-out。而Anonymous Pages在內(nèi)存不足時(shí)就只能寫到硬盤上的交換區(qū)Swap里來釋放內(nèi)存,稱之為Swap-out。
Anonymous Pages與用戶進(jìn)程共存,進(jìn)程退出則Anonymous pages釋放,而Page Cache即使在進(jìn)程退出后還可以緩存。
下面是磁盤緩存相關(guān)的統(tǒng)計(jì)項(xiàng):
Buffers — 塊設(shè)備所占用的緩存頁,比如磁盤文件系統(tǒng)的meta信息如SuperBlock等,直接讀寫塊設(shè)備產(chǎn)生的緩存也統(tǒng)計(jì)在這里(例如dd命令)
Cached — 從磁盤讀取的文件內(nèi)容緩存(即Page cache)
SwapCached — Swap中包含的確定要被換出,但是尚未寫入物理交換區(qū)的匿名內(nèi)存頁
SwapTotal — 可用的磁盤Swap總大小
SwapFree — 磁盤Swap的free大小
Dirty — 修改了等待寫回磁盤的內(nèi)存大小
Writeback — 正在寫回磁盤的內(nèi)存大小
以下幾項(xiàng)和內(nèi)核的頁面回收算法(Page Frame Reclaiming)相關(guān),Page Cache和所有用戶進(jìn)程的內(nèi)存(除內(nèi)核棧和HugePages外)都在相關(guān)的LRU Lists上。內(nèi)核在 2.6 以前就引入了增強(qiáng)的LRU算法來解決樸素的LRU算法完全不考慮使用頻率的問題。具體的Active 鏈表和Inactive 鏈表的使用詳情請參閱其他資料。
Active — 最近使用的內(nèi)存,回收的優(yōu)先級低
Inactive — 最近較少使用的內(nèi)存,回收的優(yōu)先級高
Active (anon) — Active 鏈表中的匿名頁(Anonymous Pages)部分
Inactive (anon) — Inactive 鏈表中的匿名頁(Anonymous Pages)部分
Active (file) — Active 鏈表中的File-backed Pages部分
Inactive (file) — Inactive 鏈表中的File-backed Pages部分
Unevictable — 禁止換出的頁,對應(yīng)Unevictable 鏈表,其中包括VM_LOCKED的內(nèi)存頁、SHM_LOCK的共享內(nèi)存頁(也統(tǒng)計(jì)在Mlocked中)、和Ramfs等
Mlocked — mlock系統(tǒng)調(diào)用鎖定的內(nèi)存大小
共享內(nèi)存在 Linux 中細(xì)分的話可以分為以下幾種:
SystemV Shared Memory — shmget
POSIX Shared Memory — shm_open
Shared Anonymous Memory — mmap(MAP_ANONYMOUS | MAP_SHARED)
共享內(nèi)存在內(nèi)核中都是 基于tmpf機(jī)制實(shí)現(xiàn) 的。因?yàn)榛谖募到y(tǒng)所以就不能算是匿名頁,不能計(jì)入AnonPages的統(tǒng)計(jì)項(xiàng),而只能計(jì)入Cached和Mapped統(tǒng)計(jì)項(xiàng)。但是,tmpfs背后并沒有真實(shí)的磁盤文件存在,如果想要被臨時(shí)釋放出來,只能通過Swap的方式,所以內(nèi)存頁被鏈接到了Inactive(anon)和Active(anon)里。
也就是說,共享內(nèi)存的頁面屬于File-backed Pages,但是被放在Inactive(anon)和Active(anon)鏈表里,統(tǒng)計(jì)也不算在AnonPages里,而是算在Cached和Mapped里。特別地,如果這些頁被mlock的話,就放在Unevictable鏈里并計(jì)算在內(nèi)。所以從數(shù)值上看,Inactive(anon)項(xiàng) +Active(anon)項(xiàng) 不等于AnonPages項(xiàng),因?yàn)榍罢甙ü蚕韮?nèi)存的部分。Active(file)項(xiàng) +Inactive(file)項(xiàng) 也不等于Mapped項(xiàng),因?yàn)榍罢咧邪║nmapped的內(nèi)存,后者還包含共享內(nèi)存的部分(這部分在Inactive(anon)和Active(anon)里)。
這里有一個(gè)情況要注意,與文件關(guān)聯(lián)的頁也有可能是匿名頁(MAP_PRIVATE映射的頁面被修改時(shí)會產(chǎn)生一個(gè)匿名頁拷貝),會被算到AnonPages里。
與此相關(guān)的相關(guān)的統(tǒng)計(jì)項(xiàng)有:
AnonPages — 匿名頁(Anonymous pages)的大小,同時(shí)也包含Transparent HugePages (THP)對應(yīng)的 AnonHugePages
Mapped — 設(shè)備和文件等映射的大小,Mapped統(tǒng)計(jì)了Cached中所有的Mapped頁面,是Cached的子集(滿足Cached-Mapped=Unmapped)。共享內(nèi)存、可執(zhí)行程序的文件、動(dòng)態(tài)庫、mmap的文件等都統(tǒng)計(jì)在這里
Shmem — 共享內(nèi)存的大小,包括Shared Memory、tmpfs和devtmpfs
注意 Linux 的內(nèi)存是真正使用時(shí)才分配的,所以注意這里的大小都是已分配的大小,而不是程序里申請的大小。
下面都是內(nèi)核使用的內(nèi)存相關(guān)的統(tǒng)計(jì)項(xiàng):
Slab — 內(nèi)核Slab結(jié)構(gòu)使用的大小(就是那個(gè)Slab分配器占用的)
SReclaimable — 內(nèi)核Slab里面可回收的部分(調(diào)用kmem_getpages()時(shí)帶有 SLAB_RECLAIM_ACCOUNT 標(biāo)的)
SUnreclaim — Slab里面無法回收的大小,等于Slab項(xiàng) -SReclaimable項(xiàng)
KernelStack — 分配給內(nèi)核棧的大小(每個(gè)用戶線程都會分配一個(gè)Kernel Stack,系統(tǒng)調(diào)用syscall、trap、exception后進(jìn)入內(nèi)核態(tài)執(zhí)行代碼時(shí)候使用)
PageTables — 頁表的大?。ň褪墙?jīng)常掛在嘴上的那個(gè)頁表)
NFS_Unstable — 發(fā)送到服務(wù)端但尚未提交的 NFS 頁的大小
Bounce — 塊設(shè)備 “bounce buffers” 部分的大?。ㄓ行├显O(shè)備只能訪問低端內(nèi)存,比如 16M 以下,這部分分配的 buffer 統(tǒng)計(jì)在這里)
WritebackTmp — FUSE 用于寫回磁盤的緩沖區(qū)的大小
VmallocTotal — vmalloc 區(qū)域大小
VmallocUsed — vmalloc 區(qū)域使用大小
VmallocChunk — vmalloc 區(qū)域大的 free 連續(xù)區(qū)塊大小
HardwareCorrupted — 系統(tǒng)檢測到內(nèi)存的硬件故障的內(nèi)存大?。▎栴}頁會被記錄不再使用)
之前說過,HugePages 是獨(dú)立統(tǒng)計(jì)的,如果進(jìn)程使用了 HugePages,是不會計(jì)入自身的RSS/PSS的。注意下面的AnonHugePages指的是透明大頁(THP,Transparent HugePages),THP是統(tǒng)計(jì)在進(jìn)程的RSS/PSS里的,要注意區(qū)別。下面是相關(guān)的統(tǒng)計(jì)項(xiàng):
AnonHugePages — 透明大頁 THP 使用的大小
HugePages_Total — 內(nèi)存大頁的總量,對應(yīng) /proc/sys/vm/nr_hugepages,可以動(dòng)態(tài)改
HugePages_Free — 內(nèi)存大頁中 free 的大小
HugePages_Rsvd — 內(nèi)存大頁中能分配出來的大小
HugePages_Surp — 內(nèi)存大頁中超過 /proc/sys/vm/nr_hugepages的大小, 大值由/proc/sys/vm/nr_overcommit_hugepages限制
Hugepagesize — 內(nèi)存大頁的頁大小
先介紹幾個(gè)通用概念:
VSS - Virtual Set Size,虛擬內(nèi)存大小,包含共享庫占用的全部內(nèi)存,以及分配但未使用內(nèi)存
RSS - Resident Set Size,實(shí)際使用物理內(nèi)存,包含了共享庫占用的全部內(nèi)存
PSS - Proportional Set Size,實(shí)際使用的物理內(nèi)存,共享庫占用的內(nèi)存按照進(jìn)程數(shù)等比例劃分
USS - Unique Set Size,進(jìn)程獨(dú)自占用的物理內(nèi)存,不包含共享庫占用的內(nèi)存
在/proc/{pid}/smaps文件對應(yīng)每個(gè)進(jìn)程的詳細(xì)內(nèi)存分段統(tǒng)計(jì)。截取一部分:
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
下面分別解釋下含義:
Size:映射的大?。╩apping size)
Rss:實(shí)際駐留在RAM的內(nèi)存大?。òü蚕韼斓拇笮?,不包括已經(jīng)交換出去的頁面)
Pss:Rss 的基礎(chǔ)上,把共享庫的大小均攤給所有被映射的進(jìn)程后的大小
Shared_Clean:共享的Clean內(nèi)存的大小
Shared_Dirty:共享的Dirty內(nèi)存的大小
Private_Clean:私有的Clean內(nèi)存的大小
Private_Dirty:私有的Dirty內(nèi)存的大小
Referenced:當(dāng)前被標(biāo)記為引用的頁的大小
Anonymous:匿名內(nèi)存的大小
AnonHugePages:透明大頁內(nèi)存的大小
Swap:Swap的大小
KernelPageSize:內(nèi)核頁大小
MMUPageSize:MMU頁大小
Locked:被mlock的內(nèi)存大小
VmFlags:頁的標(biāo)志位,有點(diǎn)多這里不列舉,詳見參考資料 [4]
可以看到Rss這個(gè)指標(biāo)實(shí)際上是包含了共享庫的大小的,不同的進(jìn)程會共享這個(gè)映射的,如果想通過累加這個(gè)值來計(jì)算所有進(jìn)程用到的內(nèi)存的話就不準(zhǔn)確了,而Pss把共享庫的大小均攤給了所有用到映射了這個(gè)庫的進(jìn)程,所以累加起來就不會重復(fù)計(jì)算共享庫大小了。
P.S. 最新的內(nèi)核文檔提到了要加smaps_rollup這個(gè)統(tǒng)計(jì),支持Pss_Anon、Pss_File和Pss_Shmem三個(gè)分類統(tǒng)計(jì),這個(gè)在進(jìn)程級別看,用到內(nèi)存就很清晰了。
我們可以累加一下這個(gè)值看看某進(jìn)程用到的內(nèi)存總和:
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
注意單位是KB,所以這里進(jìn)程用到的內(nèi)存是 1.17 GB 左右。
這是個(gè)使用共享內(nèi)存作為存儲的服務(wù),所以這是符合預(yù)期的。如果想要看排除共享內(nèi)存的部分,那要看Anonymous部分的總和:
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
所以實(shí)際匿名內(nèi)存使用是 63 MB 左右。
top命令中關(guān)于內(nèi)存使用的統(tǒng)計(jì):
聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
內(nèi)存相關(guān)的統(tǒng)計(jì)有VIRT、RES、SHR、SWAP、CODE、DATA、USED
VIRT — Virtual Memory Size,虛擬內(nèi)存大小,包括所有代碼、數(shù)據(jù)和共享庫,以及已交換的頁面和已映射但未使用的內(nèi)存
RES — Resident Memory Size,駐留內(nèi)存大小,共享的內(nèi)存比如動(dòng)態(tài)庫也會計(jì)算在內(nèi)
SHR — Shared Memory Size,共享的內(nèi)存大小,并非所有共享的內(nèi)存都是常駐的
SWAP — Swapped Size,非駐留內(nèi)存大小
CODE — Code Size,程序可執(zhí)行代碼的大小
DATA — Data + Stack Size,可執(zhí)行代碼以外的物理內(nèi)存量,也稱為數(shù)據(jù)駐留集大小
USED — Memory in Use,RES + SWAP 的大小
常用的還有這些:vmstat、sar、slabtop、kmstat、ps、prstat、pmap等等。懶得寫了,有問題看man文檔得了。
[1] Understanding the Linux Kernel, Daniel Plerre Bovet / Marco Cesati, 2005-11
[2] Professional Linux Kernel Architecture, Wolfgang Mauerer, 2008-10-13
[3] Systems Performance: Enterprise and the Cloud, Brendan Gregg, 2013-10-26
[4] https://raw.githubusercontent.com/torvalds/linux/master/Documentation/filesystems/proc.txt
[5] https://en.wikipedia.org/wiki/Resident_set_size
[6] https://en.wikipedia.org/wiki/Proportional_set_size
[7] https://en.wikipedia.org/wiki/Unique_set_size
網(wǎng)站題目:聊聊 Linux 的內(nèi)存統(tǒng)計(jì)
文章分享:http://aaarwkj.com/news12/104462.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、網(wǎng)站設(shè)計(jì)公司、外貿(mào)網(wǎng)站建設(shè)、服務(wù)器托管、網(wǎng)站收錄、網(wǎng)站維護(hù)
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)