Intel TBB:Pipeline,軟體流水線的威力

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

參觀過工廠裝配線的人一定對流水線這個名字不陌生，半成品在皮帶機上流過一系列的流水線節點，每個節點以自己的方式進一步裝配，然後傳給下一節點。現代的高效能CPU均採用了這種流水線設計，將計算任務分為取指，解碼，執行，訪存，反饋等幾個階段。採用流水線設計的最大優點就是增加了系統輸送量，例如，當第一條指令處於執行階段的時候，解碼單元可以在翻譯第二條指令，而取指單元則可以去載入第三條指令。甚至，在某些節點還可以並存執行，例如，現代的MIMD多指令多資料的電腦，可以在同一時間執行多條指令，或者同時更新多個資料。

在Intel認識到頻率已成為CPU效能瓶頸之後，多核處理器應運而生。如今高效能程式設計的根本已經轉變為如何更充分的利用CPU資源，更快更多地處理資料，而Intel所開發的開源 TBB庫巧妙的利用了流水線這種思想，實現了一個自適應的高效能軟體流水線TBB::pipeline。本文將會以text_filter為例，簡單介紹pipeline的實現原理和一些關鍵技術點，以求達到拋磚引玉的效果。

介紹TBB::pipeline之前不得不先說一下TBB庫的引擎-task scheduler，它又被稱為TBB庫的心臟[Intel TBB nutshell book]，是所有演算法的基礎組件，用於驅動整個TBB庫的運作。例如，TBB庫所提供的parallel_for演算法，裡面就有task scheduler的蹤影，pipeline也不例外。

先看看parallel_for的實現：

template<typename Range, typename Body>

void parallel_for( const Range& range, const Body& body, const simple_partitioner& partitioner=simple_partitioner() ) {

internal::start_for<Range,Body,simple_partitioner>::run(range,body,partitioner);

}

再往下看：

template<typename Range, typename Body, typename Partitioner>

class start_for: public task {

Range my_range;

const Body my_body;

typename Partitioner::partition_type my_partition;

/*override*/ task* execute();

//! Constructor for root task.

start_for( const Range& range, const Body& body, Partitioner& partitioner ) :

...

}

可以看到，class start_for是從task繼承的，而這個class task，就是task scheduler中進行任務調度的基本元素---task，這也是TBB庫的靈魂所在。相對於原生線程庫(Raw Thread)，例如POSIX thread(pthread)，TBB庫可以看作是一種對多線程更高層面的封裝，它不再使用thread，而是以task作為基本的任務抽象，從而能夠更好的整合計算資源並最佳化的調度任務。TBB庫的種種優點，如自動調整工作負載，系統擴充性等，全是拜task scheduler所賜。TBB提供的每種演算法都有其獨特的應用背景，如果演算法不能滿足使用者的需求，那麼完全可以以task為基類派生出新類，擴充出新的任務執行和調度演算法。這種思想貫穿了TBB的整個設計，而TBB::pipeline，也是這種思想的典型體現。

TBB::pipeline的優點：

保證資料執行的順序

線程負載自動調節

更高的Cache命中率

系統擴充性

假如目前有這樣一項任務，對一個檔案的內容進行分析，將每一個字串的首字元改為大寫，然後寫入一個新檔案裡。

一個傳統的串列執行的解決方案是:

分別建立讀入和寫出檔案

while (!EOF)

{

從檔案讀入一個字串

首字元轉化為大寫字元

寫入一個字串到檔案

}

關閉讀入和寫出檔案的描述符

這麼簡單的過程，還有可能通過TBB::Pipeline來提供效能嗎？我們來看看Pipeline的解決方案：

1.分別建立讀入和寫出檔案描述符

2.建立三個task，分別是“從檔案讀入一個字串”，“首字元轉化為大寫字元”,“ 寫入一個字串到檔案”，其中需要指定“從檔案讀入一個字串”和“寫入一個字串到檔案”這兩個task為串列執行。(為什麼要串列執行，請自行思考或者去看Intel TBB的nutshell book)

3.啟動Pipeline,讓Pipeline通過內建的task scheduler來調度這些task的運行。

用一個29MB的檔案作為測試案例，在我的雙核機器上串列執行的速度是 0.527582秒，而Pipeline的速度是0.446161，對於更複雜的邏輯，Pipeline的效能還會顯著提升。效能提升的奧秘，就在於Pipeline能夠自動根據系統情況，以並行方式執行“首字元轉化為大寫字元”這個task。

具體的Pipeline的範例程式碼和使用，可以去參考Intel TBB的nutshell book，這裡想繼續深究一下：

1. 為什麼Pipeline可以保證資料執行的順序?既然TBB歸根到底是通過多線程執行任務，為什麼不會在讀入先後兩個字串後，後讀入的字串先被下一個task處理?Pipeline裡是不是有一個類似於FIFO 先進先出隊列之類的東西？

2. 為什麼Pipeline能夠自動地並存執行“首字元轉化為大寫字元”這個task?如果這個task被並存執行了，那麼又怎麼保證第一點？

3. Pipeline是怎麼保證那些task被串列執行的。

4. 所謂“自動根據系統情況，進行任務調度”是怎麼一回事？

這些既是問題，也是Pipeline中的關鍵技術點，有心的可以去研讀一下Pipeline的代碼先睹為快。

Intel TBB的nutshell book -- <Intel Threading Building Blocks –Outfitting C++ for Multi-Core Processor Parallelism>

<待續>

本文來自CSDN部落格，轉載請標明出處：http://blog.csdn.net/softarts/archive/2009/04/25/4123957.aspx

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More