Unix/Linux 的 Load 初級解釋

來源:互聯網
上載者:User
作者: Fenng | 可以轉載, 轉載時務必以超連結形式標明文章原始出處和作者資訊及著作權聲明
網址: http://www.dbanotes.net/arch/unix_linux_load.html

幾乎每個接觸類 Unix 作業系統的工程師都知道如何查看系統負載。但這東西的工作機理到底是怎樣的,可能沒有多少能說清楚。對比了一些相關資訊,加上自己的理解,做一下筆記。

什麼是 Load ? 什麼是 Load Average ?

Load 就是對電腦幹活多少的度量(WikiPedia: the system load is a measure of the amount of work that a computer system is doing)。也有簡單的說是進程隊列的長度. Load Average 就是一段時間 (1 分鐘、5分鐘、15分鐘) 內平均 Load 。【最好的參考文章:UNIX Load Average Part 1: How It Works】

下面是一個 uptime 命令輸出:

$ uptime
18:57:48 up 423 days, 3:55, 2 users, load average: 1.16, 1.12, 1.20

儘管各種資訊來源的定義都不太確定。能確定的一件事情是,你不能精確擷取目前時間的 Load . 最小的計算粒度是 5 秒鐘(CALC_LOAD 每 5HZ 計算一次, 5HZ 為 5秒鐘,這裡的 HZ 是系統定義的變數). 參見 Linux Kernel 這段代碼:

 869        count -= ticks; 870        if (unlikely(count  874                        CALC_LOAD(avenrun[1], EXP_5, active_tasks);
875 CALC_LOAD(avenrun[2], EXP_15, active_tasks);
876 count += LOAD_FREQ; 877 } while (count < 0); 878 } 879}

如何判斷系統是否已經 Over Load ?

對一般的系統來說,根據 ">CPU 數量去判斷,如上面的例子, 如果平均負載始終在 1.2 以下,而你是 2 顆 ">CPU 的機器。那麼基本不會出現 ">CPU 不夠用的情況。也就是 Load 平均要小於 ">CPU 的數量。

這是 Solaris 效能與工具(Solaris Performance Tools ) 一書推薦的評估方法。【在這裡要推薦一下這本書,儘管在 Load 這個地方沒有達到我期望的那麼細緻。但全書揭示了非常多的效能資訊。每個 DBA、架構師 的必須書。】

這麼說實際上帶來另外兩個疑問:

1 如果是多核 ">CPU / 超執行緒的機器怎麼判斷? 對這樣的機器,我的建議是看作業系統怎麼識別的 CPU,根據系統識別出來的邏輯 ">CPU 數量來判斷。如果要考慮效能係數,建議參考一下 Oracle 針對不同架構下多核 ">CPU 的收費標準。

2 如果應用是面向線程的怎麼判斷? 這實際上和 M:N 執行緒模式有關。你的系統是怎樣的? 把這個問題考慮進去即可了。

多數情況下,Load 過高都未必和 ">CPU 有關。或許倒是有一個例外的,就是應用情境的問題。比如用單 ">CPU 的機器去做高並發 Web 服務器,麻煩就來了

Load 與容量規劃(Capacity Planning)

任何一個相對成熟的網站都會利用 Cacti(基於RRDTool) 等工具進行容量規劃工作。抓取的 Load 會傳 1、5、15 分鐘列值過去,這三個度量採用哪個呢? 15 分鐘為首選【參見Gunther 的 PPT】。

Load 與系統預警

很多對可用性要求比較高的環境都建立了 郵件或SMS 警示機制。關於 Load 警示閾值的制定也有看到不太合理的時候。這裡建議 Critical 值(如果用 Nagios 之類的工具你明白這是什麼)上限為 物理 ">CPU 的個數(當然你可以設定比這個低)。但比這個值高的話,意義就不大了。比如,資料庫伺服器有 4 顆 CPU,那麼 Load 高於 4 就應該警示出來,設定比 4 高可能意義不大,因為接到警示還有個人為回應時間...

誤解 一:系統 Load 高一定是效能有問題。

真相:系統 Load 高也或許是因為在進行 ">CPU 密集型的計算(比如編譯)

誤解 二:系統 Load 高一定是 ">CPU 能力問題或數量不夠。

真相:Load 高只是代表需要啟動並執行隊列累積過多了。但隊列中的任務實際可能是耗 CPU的,也可能是耗 I/O 乃至其它因素的。

誤解 三:系統長期 Load 高,首選增加 CPU。

真相:Load 只是表象,不是實質。增加 ">CPU 個別時候會臨時看到系統 Load 下降,但治標不治本。

小小一個 Load 講究其實不少。英文資訊其實比較全的,盡量保證加入一點新資訊到這篇文章裡。入看到有寫的不合理的地方或者有異議,請指正或告知。

--EOF--

 

">FAQ 1:資料庫伺服器突然 ">CPU 100% 繁忙,咋辦?

A :一般情況下,這是由糟糕的 ">SQL 引起。建議抓取 Slow Query Log ,針對 I/O 開銷比較大(重點看全表掃描)的 ">SQL 進行最佳化。根據經驗值,每個 ">CPU Core 一秒鐘能處理 100-400MB 資料量。如果是大量的並發 I/O 操作,儘管儲存的吞吐可能還沒那麼大,也可能會把 ">CPU "塞滿"。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.