SSE指令集
來源:互聯網
上載者:User
SSE和SSE2的指令系統非常相似,SSE2比SSE多的僅是少量的額外浮點處理功能、64位浮點數運算支援和64位整數運算支援。 SSE為什麼會比傳統的浮點運算更快呢。因為它使用了128位的儲存單元,這對於32位的浮點數來講,是可以存下4個的,也就是說,SSE中的所有計算都是一次性針對4個浮點數來完成的。 雖然SSE從理論上來講要比傳統的浮點運算會快,但是所受的限制也很多,首先,雖然它執行一次相當於四次,會比傳統的浮點運算執行4次的速度要快,但是它執行一次的速度卻並沒有想象中的那麼快,所以要體現SSE的速度,必須有Stream做前提,就是大量的流資料,這樣才能發揮SIMD的強大作用。其次,SSE支援的資料類型是4個32位(共計128位)浮點數集合,就是C、C++語言中的float[4],並且必須是以16位位元組邊界對齊的。因此這也給輸入和輸出帶來了不少的麻煩,實際上主要影響SSE發揮效能的就是不停地對資料進行複製以適用應它的資料格式。 如果你是一個C++程式員,對彙編並不很熟,但又想用SSE來最佳化程式,該怎麼做呢。幸好VC++為我們提供了很方便的指令C函數級的封裝和C格式資料類型,我們只需像平時寫C++代碼一樣定義變數、調用函數就可以很好地應用SSE指令了。 當然了,我們需要包含一個標頭檔,這裡麵包括了我們需要的資料類型和函數的聲明: #include <xmmintrin.h> SSE運算的標準資料類型只有一個,就是:__m128,它是這樣定義的: typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 { float m128_f32[4]; } __m128; 簡化一下,就是: struct __m128 { float m128_f32[4]; }; 比如要定義一個__m128變數,並為它賦四個float整數,可以這樣寫: __m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f }; 要改變其中第2個(基數為0)元素時可以這樣寫: S1.m128_f32[2] = 6.0f; 令外我們還會用到幾個賦值的指令,它可以讓我們更方便的使用這個資料結構: S1 = _mm_set_ps1( 2.0f ); 它會讓S1.m128_f32中的四個元素全部賦予2.0f,這樣會比你一個一個賦值要快的多。 S1 = _mm_setzero_ps(); 這會讓S1中的所有4個浮點數都置零。 還有一些其它的賦值指令,但執行起來還沒有自己逐個賦值來的快,只作為一些特殊用途,如果想瞭解更多的資訊,可以參考MSDN -> Visual Studio -> Reference -> C/C++Language -> Compiler Intrinsics -> MMX, SSE, and SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章節。 一般來講,所有SSE指令函數都有3個部分組成,中間用底線隔開: _mm_set_ps1 mm表示多媒體擴充指令集 set表示此函數的含義縮寫 ps1表示該函數對結果變數的影響,由兩個字母組成,第一個字母表示對結果變數的影響方式,p表示把結果作為指向一組資料的指標,每一個元素都將參與運算,S表示只將結果變數中的第一個元素參與運算;第二個字母表示參與運算的資料類型。s表示32位浮點數,d表示64位浮點數,i32表示32位定點數,i64表示64位定點數。 接下來舉一個例子來說明SSE的指令函數是如何使用的,必須要說明的是我以下的代碼都是在VC7.1的平台上寫的,不保證對其它如Dev-C++、Borland C++等開發平台的完全相容。 為了方便對比速度,會用常規方法和SSE最佳化兩種寫法寫出,並會用一個測試速度的類CTimer來進行計時。 這個演算法是對一組float值進行放大,函數ScaleValue1是使用SSE指令最佳化的,函數ScaleValue2則沒有。我們用10000個元素的float數組資料來測試這兩個演算法,每個演算法運算10000遍,下面是測試程式和結果: #include <xmmintrin.h> #include <windows.h> class CTimer { public: __forceinline CTimer( void ) { QueryPerformanceFrequency( &m_Frequency ); QueryPerformanceCounter( &m_StartCount ); } __forceinline void Reset( void ) { QueryPerformanceCounter( &m_StartCount ); } __forceinline double End( void ) { static __int64 nCurCount; QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount ); return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency ); } private: LARGE_INTEGER m_Frequency; LARGE_INTEGER m_StartCount; }; void ScaleValue1( float *pArray, DWORD dwCount, float fScale ) { DWORD dwGroupCount = dwCount / 4; __m128 e_Scale = _mm_set_ps1( fScale ); for ( DWORD i = 0; i < dwGroupCount; i++ ) { *(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale ); } } void ScaleValue2( float *pArray, DWORD dwCount, float fScale ) { for ( DWORD i = 0; i < dwCount; i++ ) { pArray[i] *= fScale; } } #define ARRAYCOUNT 10000 int __cdecl main() { float __declspec(align(16)) Array[ARRAYCOUNT]; memset( Array, 0, sizeof(float) * ARRAYCOUNT ); CTimer t; double dTime; t.Reset(); for ( int i = 0; i < 100000; i++ ) { ScaleValue1( Array, ARRAYCOUNT, 1000.0f ); } dTime = t.End(); cout << "Use SSE:" << dTime << "秒" << endl; t.Reset(); for ( int i = 0; i < 100000; i++ ) { ScaleValue2( Array, ARRAYCOUNT, 1000.0f ); } dTime = t.End(); cout << "Not Use SSE:" << dTime << "秒" << endl; system( "pause" ); return 0; } Use SSE:0.997817 Not Use SSE:2.84963 這裡要注意一下,此處使用了__declspec(align(16))作為數組定義的修釋符,這表示該數組是以16位元組為邊界對齊的,因為SSE指令只能支援這種格式的記憶體資料。 SSE CVTSI2SS – 把一個64位的有符號整型轉換為一個浮點值,並把它插入到一個128位的參數中。內部指令:_mm_cvtsi64_ss CVTSS2SI – 取出一個32位的浮點值,並取整(四捨五入)為一個64位的整型。內部指令:_mm_cvtss_si64 CVTTSS2SI – 取出一個32位的浮點值,並截斷為一個64位的整型。內部指令:_mm_cvttss_si64 SSE2 CVTSD2SI – 取出最低位的64位浮點值,並取整為一個整型。內部指令:_mm_cvtsd_si64 CVTSI2SD – 取出最低位的64位整型,並將其轉換為一個浮點值。內部指令:_mm_cvtsi64_sd CVTTSD2SI – 取出一個64位的浮點值,並截斷為一個64位的整型。內部指令:_mm_cvttsd_si64 MOVNTI – 寫64位元據到特定記憶體位置。內部指令:_mm_stream_si64 MOVQ – 移動一個64位的整型到一個128位的參數中,或從128位的參數中移動一個64位的整型。內部指令:_mm_cvtsi64_si128、_mm_cvtsi128_si64 SSSE3 PABSB / PABSW / PABSD – 取有符號整型的絕對值。內部指令:_mm_abs_epi8、_mm_abs_epi16、_mm_abs_epi32、_mm_abs_pi8、_mm_abs_pi16、_mm_abs_pi32 PALIGNR – 結合兩個參數並右移結果。內部指令:_mm_alignr_epi8、_mm_alignr_pi8 PHADDSW – 將兩個包含16位有符號整型的參數相加,並盡量使結果為16位可表示的最大值。內部指令:_mm_hadds_epi16、_mm_hadds_pi16 PHADDW / PHADDD – 將兩個包含有符號整型的參數相加。內部指令:_mm_hadd_epi16、_mm_hadd_epi32、_mm_hadd_pi16、_mm_hadd_pi32 PHSUBSW – 將兩個包含16位有符號整型的參數相減,並盡量使結果為16位可表示的最大值。內部指令:_mm_hsubs_epi16、_mm_shubs_pi16 PHSUBW / PHSUBD – 將兩個包含有符號整型的參數相減。內部指令:_mm_hsub_epi16、_mm_hsub_epi32、_mm_hsub_pi16、_mm_hsub_pi32 PMADDUBSW – 相乘並相加8位整型。內部指令:_mm_maddubs_epi16、_mm_maddubs_pi16 PMULHRSW – 乘以16位有符號整型,並右移結果。內部指令:_mm_mulhrs_epi16、_mm_mulhrs_pi16 PSHUFB – 從一個128位的參數中選取並亂序其中8位的資料區塊。內部指令:_mm_shuffle_epi8、_mm_shuffle_pi8 PSIGNB / PSIGNW / PSIGND – 求反(取非)、取零、或保留有符號整型。內部指令:_mm_sign_epi8、_mm_sign_epi16、_mm_sign_epi32、_mm_sign_pi8、_mm_sign_pi16、_mm_sign_pi32 SSE4A EXTRQ – 從參數中取特定位。內部指令:_mm_extract_si64、_mm_extracti_si64 INSERTQ – 插入特定位到給定參數中。內部指令:_mm_insert_si64、_mm_inserti_si64 MOVNTSD / MOVNTSS – 不使用緩衝,直接把資料位元寫到特定記憶體位置。內部指令:_mm_stream_sd、_mm_stream_ss SSE4.1 DPPD / DPPS – 計算兩參數的點結果。內部指令:_mm_dp_pd、_mm_dp_ps EXTRACTPS – 從參數中取出一個特定的32位浮點值。內部指令:_mm_extract_ps INSERTPS – 把一個32位整型插入到一個128位參數中,並把某些位置零。內部指令:_mm_insert_ps MOVNTDQA – 從特定記憶體位置載入128位元據。內部指令:_mm_stream_load_si128 MPSADBW – 計算絕對差分的八個位移總和。內部指令:_mm_mpsadbw_epu8 PACKUSDW – 使用16位飽和度,把32位有符號整型轉換為有符號16位整型。內部指令:_mm_packus_epi32 PBLENDW / BLENDPD / BLENDPS / PBLENDVB / BLENDVPD / BLENDVPS – 把兩個不同塊大小的參數混合在一起。內部指令:_mm_blend_epi16、_mm_blend_pd、_mm_blend_ps、_mm_blendv_epi8、_mm_blendv_pd、_mm_blendv_ps PCMPEQQ - 比較64位整型是否相等。內部指令:_mm_cmpeq_epi64 PEXTRB / PEXTRW / PEXTRD / PEXTRQ - 從輸入的參數中取出一個整型。內部指令:_mm_extract_epi8、_mm_extract_epi16、_mm_extract_epi32、_mm_extract_epi64 PHMINPOSUW - 選擇最小的16位無符號整型並確定它的下標。內部指令:_mm_minpos_epu16 PINSRB / PINSRD / PINSRQ - 把一個整型插入到一個128位參數中。內部指令:_mm_insert_epi8、_mm_insert_epi32、_mm_insert_epi64 PMAXSB / PMAXSD - 接受兩個參數中的有符號整型,並選擇其中的最大者。內部指令:_mm_max_epi8、_mm_max_epi32 PMAXUW / PMAXUD - 接受兩個參數中的無符號整型,並選擇其中的最大者。內部指令:_mm_max_epu16、_mm_max_epu32 PMINSB / PMINSD - 接受兩個參數中的有符號整型,並選擇其中的最小者。內部指令:_mm_min_epi8、_mm_min_epi32 PMINUW / PMINUD - 接受兩個參數中的無符號整型,並選擇其中的最小者。內部指令:_mm_min_epu16、_mm_min_epu32 PMOVSXBW / PMOVSXBD / PMOVSXBQ / PMOVSXWD / PMOVSXWQ / PMOVSXDQ - 把一有符號整型轉換到更大的尺寸。內部指令:_mm_cvtepi8_epi16、_mm_cvtepi8_epi32、_mm_cvtepi8_epi64、_mm_cvtepi16_epi32、_mm_cvtepi16_epi64、_mm_cvtepi32_epi64 PMOVZXBW / PMOVZXBD / PMOVZXBQ / PMOVZXWD / PMOVZXWQ / PMOVZXDQ - 把一無符號整型轉換到更大的尺寸。內部指令:_mm_cvtepu8_epi16、_mm_cvtepu8_epi32、_mm_cvtepu8_epi64、_mm_cvtepu16_epi32、_mm_cvtepu16_epi64、_mm_cvtepu32_epi64 PMULDQ - 32位有符號整型相乘,並把結果儲存為64位有符號整型。內部指令:_mm_mul_epi32 PMULLUD - 32位有符號整型相乘。內部指令:_mm_mullo_epi32 PTEST - 按位計算兩個128位參數,並基於CC標誌寄存器的CF與ZF位傳回值。內部指令:_mm_testc_si128、_mm_testnzc_si128、_mm_testz_si128 ROUNDPD / ROUNDPS - 取整浮點數值。內部指令:_mm_ceil_pd、_mm_ceil_ps、_mm_floor_pd、_mm_floor_ps、_mm_round_pd、_mm_round_ps ROUNDSD / ROUNDSS - 結合兩個參數,從其一取整到一個浮點數值。內部指令:_mm_ceil_sd、_mm_ceil_ss、_mm_floor_sd、_mm_floor_ss、_mm_round_sd、_mm_round_ss SSE4.2 CRC32 - 計算參數的CRC-32C檢驗和。內部指令:_mm_crc32_u8、_mm_crc32_u16、_mm_crc32_u32、_mm_crc32_u64 PCMPESTRI / PCMPESTRM -比較特定長度的兩個參數。內部指令:_mm_cmpestra、_mm_cmpestrc、_mm_cmpestri、_mm_cmpestrm、_mm_cmpestro、_mm_cmpestrs、_mm_cmpestrz PCMPGTQ - 比較兩個參數。內部指令:_mm_cmpgt_epi64 PCMPISTRI / PCMPISTRM - 比較兩個參數。內部指令:_mm_cmpistra、_mm_cmpistrc、_mm_cmpistri、_mm_cmpistrm、_mm_cmpistro、_mm_cmpistrs、_mm_cmpistrz POPCNT - 統計位集中1的數量。內部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64 進階位操縱 LZCNT - 統計參數中零的數量。內部指令:__lzcnt16、 __lzcnt、__lzcnt64 POPCNT - 統計位集中1的數量。內部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64 其他新指令 _InterlockedCompareExchange128 - 對比兩個參數。 _mm_castpd_ps / _mm_castpd_si128 / _mm_castps_pd / _mm_castps_si128 / _mm_castsi128_pd / _mm_castsi128_ps - 對32位浮點值(ps)、64位浮點值(pd)及32位整型值(si128)重新解釋。 _mm_cvtsd_f64 - 從參數中取出最低的64位浮點值。 _mm_cvtss_f32 - 取出一個32位的浮點值。 _rdtscp - 產生RDTSCP。把TSC AUX[31:0]寫到記憶體,並返回64位時間戳記計數器結果。