AMD OpenCL大學課程(2)

來源:互聯網
上載者:User

1、OpenCL架構

   OpenCL可以實現混合裝置的並行計算,這些裝置包括CPU,GPU,以及其它處理器,比如Cell處理器,DSP等。使用OpenCL編程,可以實現可移植的並行加速代碼。[但由於各個OpenCL device不同的硬體效能,可能對於程式的最佳化還要考慮具體的硬體特性]。

   通常OpenCL架構包括四個部分:

  • 平台模型(Platform Model)
  • 執行模型(Execution Model)
  • 記憶體模型(Memory Model)
  • 編程模型(Programming Model)

2、OpenCL平台模型

   不同廠商的OpenCL實施定義了不同的OpenCL平台,通過OpenCL平台,主機能夠和OpenCL裝置之間進行互動操作。現在主要的OpenCL平台有AMD、Nvida,Intel等。OpenCL使用了一種Installable Client Driver模型,這樣不同廠商的平台就能夠在系統中共存。在我的電腦上就安裝有AMD和Intel兩個OpenCL Platform[現在的OpenCL driver模型不允許不同廠商的GPU同時運行]。

    OpenCL平台通常包括一個主機(Host)和多個OpenCL裝置(device),每個OpenCL裝置包括一個或多個CU(compute units),每個CU包括又一個或多個PE(process element)。 每個PE都有自己的程式計數器(PC)。主機就是OpenCL運行庫宿主裝置,在AMD和Nvida的OpenCL平台中,主機一般都指x86 CPU。

   對AMD平台來說,所有的CPU是一個裝置,CPU的每一個core就是一個CU,而每個GPU都是獨立的裝置。

  

3、OpenCL編程的一般步驟

  下面我們通過一個執行個體來瞭解OpenCL編程的步驟,假設我們用的是AMD OpenCL平台(因為本人的GPU是HD5730),安裝了AMD Stream SDK 2.6,並在VS2008中設定好了include,lib目錄等。

    首先我們建立一個控制台程式,最初的代碼如下:

 1: #include "stdafx.h"

 2: #include <CL/cl.h>

 3: #include <stdio.h>

 4: #include <stdlib.h>

 5: 

 6: #pragma comment (lib,"OpenCL.lib")

 7: 

 8: int main(int argc, char* argv[])

 9: {

 10: return 0;

 11: }

 

第一步,我們要選擇一個OpenCL平台,所用的函數就是

    通常,這個函數要調用2次,第一次得到系統中可使用的平台數目,然後為(Platform)平台對象分配空間,第二次調用就是查詢所有的平台,選擇自己需要的OpenCL平台。代碼比較長,具體可以看下AMD Stream SDK 2.6中的TemplateC例子,裡面描述如何構建一個robust的最小OpenCL程式。為了簡化代碼,使程式看起來不那麼繁瑣,我直接調用該函數,選取系統中的第一個OpenCL平台,我的系統中安裝AMD和Intel兩家的平台,第一個平台是AMD的。另外,我也沒有增加錯誤偵測之類的代碼,但是增加了一個status的變數,通常如果函數執行正確,返回的值是0。

 1: #include "stdafx.h"

 2: #include <CL/cl.h>

 3: #include <stdio.h>

 4: #include <stdlib.h>

 5: 

 6: #pragma comment (lib,"OpenCL.lib")

 7: 

 8: int main(int argc, char* argv[])

 9: {

 10: cl_uint status;

 11: cl_platform_id platform;

 12: 

 13: status = clGetPlatformIDs( 1, &platform, NULL );

 14: 

 15: return 0;

 16: }

第二步是得到OpenCL裝置,

     這個函數通常也是調用2次,第一次查詢裝置數量,第二次檢索得到我們想要的裝置。為了簡化代碼,我們直接指定GPU裝置。

 

 1: #include "stdafx.h"

 2: #include <CL/cl.h>

 3: #include <stdio.h>

 4: #include <stdlib.h>

 5: 

 6: #pragma comment (lib,"OpenCL.lib")

 7: 

 8: int main(int argc, char* argv[])

 9: {

 10: cl_uint status;

 11: cl_platform_id platform;

 12: 

 13: status = clGetPlatformIDs( 1, &platform, NULL );

 14: 

 15: cl_device_id device;

 16: 

 17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU,

 18: 1,

 19: &device,

 20: NULL);

 21: 

 22: return 0;

 23: }

下面我們來看下OpenCL中Context的概念:

通常,Context是指管理OpenCL對象和資源的上下文環境。為了管理OpenCL程式,下面的一些對象都要和Context關聯起來:

 

—裝置(Devices):執行Kernel程式對象。

—程式對象(Program objects): kernel程式原始碼

—Kernels:運行在OpenCL裝置上的函數。

—記憶體對象(Memory objects): device處理的資料對象。

—命令隊列(Command queues): 裝置之間的互動機制。

  •  

注意:建立一個Context的時候,我們必須把一個或多個裝置和它關聯起來。對於其它的OpenCL資源,它們建立時候,也要和Context關聯起來,一般建立這些資源的OpenCL函數的輸入參數中,都會有context。

這個函數中指定了和context關聯的一個或多個裝置對象,properties參數指定了使用的平台,如果為NULL,廠商選擇的預設值被使用,這個函數也提供了一個回調機制給使用者提供錯誤報表。

現在的代碼如下:

 1: #include "stdafx.h"

 2: #include <CL/cl.h>

 3: #include <stdio.h>

 4: #include <stdlib.h>

 5: 

 6: #pragma comment (lib,"OpenCL.lib")

 7: 

 8: int main(int argc, char* argv[])

 9: {

 10: cl_uint status;

 11: cl_platform_id platform;

 12: 

 13: status = clGetPlatformIDs( 1, &platform, NULL );

 14: 

 15: cl_device_id device;

 16: 

 17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU,

 18: 1,

 19: &device,

 20: NULL);

 21: cl_context context = clCreateContext( NULL,

 22: 1,

 23: &device,

 24:                

 25: 

 26: return 0;

 27: }

接下來,我們要看下命令隊列。在OpenCL中,命令隊列就是主機的請求,在裝置上執行的一種機制。

  • 在Kernel執行前,我們一般要進行一些記憶體拷貝的工作,比如把主機記憶體中的資料轉送到裝置記憶體中。

另外要注意的幾點就是:對於不同的裝置,它們都有自己的獨立的命令隊列;命令隊列中的命令(kernel函數)可能是同步的,也可能是非同步,它們的執行順序可以是有序的,也可以是亂序的。

命令隊列在device和context之間建立了一個串連。

命令隊列properties指定以下內容:

  • 是否亂序執行(在AMD GPU中,好像現在還不支援亂序執行)
  • 是否啟動profiling。Profiling通過事件機制來得到kernel執行時間等有用的資訊,但它本身也會有一些開銷。

 

如所示,命令隊列把裝置和context聯絡起來,儘管它們之間不是物理串連。

添加命令隊列後的代碼如下:

 1: #include "stdafx.h"

 2: #include <CL/cl.h>

 3: #include <stdio.h>

 4: #include <stdlib.h>

 5: 

 6: #pragma comment (lib,"OpenCL.lib")

 7: 

 8: int main(int argc, char* argv[])

 9: {

 10: cl_uint status;

 11: cl_platform_id platform;

 12: 

 13: status = clGetPlatformIDs( 1, &platform, NULL );

 14: 

 15: cl_device_id device;

 16: 

 17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU,

 18: 1,

 19: &device,

 20: NULL);

 21: cl_context context = clCreateContext( NULL,

 22: 1,

 23: &device,

 24: NULL, NULL, NULL);

 25: 

 26: cl_command_queue queue = clCreateCommandQueue( context,

 27: device,

 28: CL_QUEUE_PROFILING_ENABLE, NULL );

 29: 

 30: return 0;

 31: }

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.