Intel TBB:Pipeline,軟體流水線的威力

來源:互聯網
上載者:User

參觀過工廠裝配線的人一定對流水線這個名字不陌生,半成品在皮帶機上流過一系列的流水線節點,每個節點以自己的方式進一步裝配,然後傳給下一節點。現代的高效能CPU均採用了這種流水線設計,將計算任務分為取指,解碼,執行,訪存,反饋等幾個階段。採用流水線設計的最大優點就是增加了系統輸送量,例如,當第一條指令處於執行階段的時候,解碼單元可以在翻譯第二條指令,而取指單元則可以去載入第三條指令。甚至,在某些節點還可以並存執行,例如,現代的MIMD多指令多資料的電腦,可以在同一時間執行多條指令,或者同時更新多個資料。

 

在Intel認識到頻率已成為CPU效能瓶頸之後,多核處理器應運而生。如今高效能程式設計的根本已經轉變為如何更充分的利用CPU資源,更快更多地處理資料,而Intel所開發的開源 TBB庫巧妙的利用了流水線這種思想,實現了一個自適應的高效能軟體流水線TBB::pipeline。本文將會以text_filter為例,簡單介紹pipeline的實現原理和一些關鍵技術點,以求達到拋磚引玉的效果。

 

介紹TBB::pipeline之前不得不先說一下TBB庫的引擎-task scheduler,它又被稱為TBB庫的心臟[Intel TBB nutshell book],是所有演算法的基礎組件,用於驅動整個TBB庫的運作。例如,TBB庫所提供的parallel_for演算法,裡面就有task scheduler的蹤影,pipeline也不例外。

 

先看看parallel_for的實現:

 

template<typename Range, typename Body>

 

void parallel_for( const Range& range, const Body& body, const simple_partitioner& partitioner=simple_partitioner() ) {

 

    internal::start_for<Range,Body,simple_partitioner>::run(range,body,partitioner);

 

}

 

再往下看:

 

    template<typename Range, typename Body, typename Partitioner>

 

    class start_for: public task {

 

        Range my_range;

 

        const Body my_body;

 

        typename Partitioner::partition_type my_partition;

 

        /*override*/ task* execute();

 

 

 

        //! Constructor for root task.

 

        start_for( const Range& range, const Body& body, Partitioner& partitioner ) :

 

...

 

        }

 

可以看到,class start_for是從task繼承的,而這個class task,就是task scheduler中進行任務調度的基本元素---task,這也是TBB庫的靈魂所在。相對於原生線程庫(Raw Thread),例如POSIX thread(pthread),TBB庫可以看作是一種對多線程更高層面的封裝,它不再使用thread,而是以task作為基本的任務抽象,從而能夠更好的整合計算資源並最佳化的調度任務。TBB庫的種種優點,如自動調整工作負載,系統擴充性等,全是拜task scheduler所賜。TBB提供的每種演算法都有其獨特的應用背景,如果演算法不能滿足使用者的需求,那麼完全可以以task為基類派生出新類,擴充出新的任務執行和調度演算法。這種思想貫穿了TBB的整個設計,而TBB::pipeline,也是這種思想的典型體現。

 

TBB::pipeline的優點:

 

保證資料執行的順序

線程負載自動調節

更高的Cache命中率

系統擴充性

 

假如目前有這樣一項任務,對一個檔案的內容進行分析,將每一個字串的首字元改為大寫,然後寫入一個新檔案裡。

 

一個傳統的串列執行的解決方案是:

 

分別建立讀入和寫出檔案

 

while (!EOF)

{

從檔案讀入一個字串

首字元轉化為大寫字元

寫入一個字串到檔案

}

關閉讀入和寫出檔案的描述符

 

這麼簡單的過程,還有可能通過TBB::Pipeline來提供效能嗎?我們來看看Pipeline的解決方案:

 

1.分別建立讀入和寫出檔案描述符

 

2.建立三個task,分別是“從檔案讀入一個字串”,“首字元轉化為大寫字元”,“ 寫入一個字串到檔案”,其中需要指定“從檔案讀入一個字串”和“寫入一個字串到檔案”這兩個task為串列執行。(為什麼要串列執行,請自行思考或者去看Intel TBB的nutshell book)

 

3.啟動Pipeline,讓Pipeline通過內建的task scheduler來調度這些task的運行。

 

 

用一個29MB的檔案作為測試案例,在我的雙核機器上串列執行的速度是 0.527582秒,而Pipeline的速度是0.446161,對於更複雜的邏輯,Pipeline的效能還會顯著提升。效能提升的奧秘,就在於Pipeline能夠自動根據系統情況,以並行方式執行“首字元轉化為大寫字元”這個task。

 

具體的Pipeline的範例程式碼和使用,可以去參考Intel TBB的nutshell book,這裡想繼續深究一下:

 

1.  為什麼Pipeline可以保證資料執行的順序?既然TBB歸根到底是通過多線程執行任務,為什麼不會在讀入先後兩個字串後,後讀入的字串先被下一個task處理?Pipeline裡是不是有一個類似於FIFO 先進先出隊列之類的東西?

 

2.  為什麼Pipeline能夠自動地並存執行“首字元轉化為大寫字元”這個task?如果這個task被並存執行了,那麼又怎麼保證第一點?

 

3.  Pipeline是怎麼保證那些task被串列執行的。

 

4.  所謂“自動根據系統情況,進行任務調度”是怎麼一回事?

 

這些既是問題,也是Pipeline中的關鍵技術點,有心的可以去研讀一下Pipeline的代碼先睹為快。

 

Intel TBB的nutshell book -- <Intel Threading Building Blocks –Outfitting C++ for Multi-Core Processor Parallelism>

 

 

<待續>

 

本文來自CSDN部落格,轉載請標明出處:http://blog.csdn.net/softarts/archive/2009/04/25/4123957.aspx

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.