C#讀取二進位檔案方法分析

來源:互聯網
上載者:User

標籤:service   物件模型   參數   rsh   個數   ant   問題   十分   優勢   

本文較為詳細的分析了C#讀取二進位檔案方法。分享給大家供大家參考。具體分析如下:

當想到所有檔案都轉換為 XML時,確實是一件好事。但是,這並非事實。仍舊還有大量的檔案格式不是XML,甚至也不是ASCII。二進位檔案仍然在網路中傳播,儲存在磁碟上,在應用程式之間傳遞。相比之下,在處理這些問題方面,它們比文字檔顯得更有效率些。

在 C 和 C++ 中,讀取二進位檔案還是很容易的。除了一些開始符(carriage return)和結束符(line feed)的問題,每一個讀到C/C++中的檔案都是二進位檔案。事實上,C/C++ 只知道二進位檔案,以及如何讓二進位檔案像文字檔一樣。當我們使用的語言越來越抽象時,我們最後使用的語言就不能直接、容易的讀取建立的檔案了。這些語言想要用它們自己獨特的方式來自動處理輸出資料。


問題的所在:

在許多電腦科學領域,C 和 C++ 仍舊直接依照資料結構來儲存和讀取資料。在C和C++中,依照記憶體中的資料結構來讀取和寫檔案,是十分簡單的。在C中,你只需要使用fwrite()函數,並提供下列參數:一個指向你的資料的指標,告訴它有多少個資料,一個資料有多大。這樣,就直接用二進位格式把資料寫成檔案了。

如上所述的那樣把資料寫成檔案,同時如果你也知道其正確的資料結構的話,那麼也就意味著讀取檔案也很容易。你只要使用 fread() 函數,並提供下列參數:一個檔案控制代碼,一個指向資料的指標,讀取多少個資料,每一個資料的長度。 fread() 函數幫你把其餘的事都做了。突然,資料又回到了記憶體中。沒有採用解析以及也沒有物件模型的方式,它只是把檔案直接的讀到記憶體中。

在C和C++中,最大的兩個問題就是資料對齊(structure alignment)和位元組交換(byte swapping)。資料對齊指的是有時編譯器會跳過資料中間的位元組,因為如果處理器訪問到那些位元組,就不再處於最佳化狀態下了,要花費更多的時間(一般情況,處理器訪問未對齊資料花費的時間是訪問對齊資料的兩倍),花費更多的指令。因此,編譯器要為了執行速度而進行最佳化,跳過了那些位元組並重新進行排序。另一方面,位元組交換指的是:由於不同處理器對位元組排序的方式不同,需要對資料的位元組重新排序的過程。


資料對齊

因為處理器能夠一次處理更多的資訊(在一個刻度內),所以它們希望它們所處理的資訊能以一種確定的方式排列。大多數的 Intel 處理器使整數類型(32位的)的儲存首地址能被4除盡(即:從能被4除盡的地址上開始儲存)。如果記憶體中的整數不是儲存在4的倍數的地址上的話,它們是不會工作的。編譯器知道這些。因此當編譯器遇到一個可能引起這種問題的資料時,它們就有下面三種選擇。

第一種,它們可以選擇在資料中添加一些無用的白空格符,這樣可以使整數的開始地址能被4除盡。這是一種最普遍的做法。第二種,它們可以對欄位重新排序,以便使整數處於4位的邊界上。因為這樣會造成其它有趣的問題,因此,這種方式較少使用。第三種選擇是,允許資料中的整數不處於4位的邊界上,但是把代碼複製到一個合適的地方從而使那些整數處於4位的邊界上。這種方式需要一些額外的時間花費,但是,如果必須壓縮的話,那麼它就很有用了。

以上所說的這些大都是編譯器的細節問題,你用不著過多的擔心。如果你對寫資料的程式和讀資料的程式使用同樣的編譯器,同樣的設定,那麼,這些就不成其為問題了。編譯器用同樣的方法來處理同樣的資料,一切都OK。但是當你涉及到跨平台檔案轉換問題時,用正確的方式來排列所有資料就顯得很重要了,這樣才能保證資訊能被轉換。另外,一些程式員還瞭解怎樣讓編譯器不用理睬他們的資料。

位元組交換(byte swapping):高位優先(big endians)和低位優先(little endians)

高位優先和低位優先,指的是兩種不同的方式,把整數儲存在電腦中的的方式。因為整數是多於一個位元組的,那麼,問題在於:最重要的位元組是否應該首先被讀寫。最不重要的位元組是變化的最頻繁的。這就是,如果你不斷給一個整數加一,最不重要的位元組要改變256次,次不重要的位元組才只變化一次。

不同的處理器用不同的方式儲存整數。Intel 處理器一般用低位優先方式來儲存整數,換句話說,低位首先被讀寫。大多數其它處理器用高位優先方式來儲存整數。因此,當二進位檔案在不同平台上讀寫時,你就有可能不得不對位元組重新排序以便得到正確的順序。

在 UNIX 平台上,還有一種特殊的問題,因為UNIX可以在Sun Sparc處理器、HP處理器、IBM Power PC、Inter的晶片等多種處理器上運行。當從一種處理器轉移到另一種處理器上時,就意味著那些變數的位元組排列順序必須翻轉,以便於它們能滿足新處理器所要求的順序。


用 C# 處理二進位檔案

用 C# 處理二進位檔案的話,就會有另外兩項新的挑戰。第一項挑戰是:所有的 .NET 語言都是強型別的。因此,你不得不從檔案中的位元組流轉換為你所想要的資料類型。第二項挑戰就是:一些資料類型比它們表面上要複雜的多,需要某種轉換。

類型破壞(type breaking)

因為 .NET 語言,包括 C#,都是強型別的,你不能只是任意的從檔案中讀取一段位元組,然後塞到資料結構中就一切OK了。因此當你要破壞類型轉換規則時,你就不得不這樣做了,首先讀取你所需要的位元組數到一個位元組數組中,然後把它們從頭到尾的複製到資料結構中。

在 Usenet (註:世界性的新聞群組網路系統)的文檔中搜尋,你會找到幾個構架在 microsoft.public.dotnet層次上的一組程式,它們可以容許你把任何對象轉換為一系列位元組,並可以重新轉換回對象。它們可以在下面地址找到 Listing A


複雜的資料類型

在 C++ 中,你明白什麼是對象,什麼是數組,什麼既不是對象又不是數組。但是在 C# 中,事情並不像看起來的那樣簡單。一個字串(string)就是一個對象,因此也是一個數組。因為在 C# 中,既沒有真正的數組,許多個物件也沒有固定尺寸,因此一些複雜資料類型並不適合成為固定尺寸的位元據。

幸好, .NET 提供了一種方式來解決這種問題。你可以告訴 C# ,你想怎樣處理你的字串(string)和其它類型的數組。這將通過 MarshalAs 屬性來完成。下面這個例子,就是在 C# 中使用字串,這屬性必須要在所控制的資料使用之前被使用:

[MarshalAs(UnmanagedType.ByValTStr, SizeConst = 50)]

你想要從二進位檔案中讀取,或者儲存到二進位檔案中的字串(string)的長度就決定了參數 SizeConst 的大小。這樣就確定了字串長度的最大值。

解決以前的問題

現在,你知道了 .NET 引入的問題是怎樣被解決的了。那麼,在後面,你就可以瞭解到,解決前面所遇到的二進位檔案問題是那麼的容易。


封裝(pack)

不用麻煩的去設定編譯器來控制如何排列資料。你只需使用 StructLayout 屬性就可以使資料依照你的意願來排列或打包。當你需要不同的資料有著不同的封裝方式的時候,這就顯得十分有用了。這就像裝扮你的汽車一樣,任你的喜好。使用 StructLayout 屬性就像你很小心的決定是否把每一個資料都緊湊封裝或者還是只將它們隨便打發,只要它們能夠被重新讀出來就行了。 StructLayout 屬性的使用如下面所示:


代碼如下:

[StructLayout(LayoutKind.Sequential, Pack = 1)]

這樣做可以使資料忽略邊界對齊,讓資料儘可能的緊湊封裝。這個屬性應當和你從二進位檔案中讀取的任何資料的屬性都保持一致(即:你寫到檔案中的屬性應和從檔案讀出來屬性保持不變)。

你也許會發現,即使給你的資料加上了這個屬性後,也沒有完全解決問題。在某些情況下,你可能不得不進行沉悶冗長的反覆實驗。由於不同電腦和編譯器在二進位層次上的有著不同的運行處理方式,這就是引起上述問題的原因。特別是在跨平台時,我們都必須特別小心的處理位元據。 .NET 是個好工具,適合其它二進位檔案,但是也並不是一個完美的工具。


位元組排列順序的翻轉(endian flipping)

讀寫二進位檔案的經典問題之一就是:某些電腦首先是儲存最不重要的位元組(如:Inter),而另外一些電腦是首先儲存最重要的位元組。在 C 和 C++ 中,你不得不手動處理這個問題,而且只能是一個欄位一個欄位的翻轉。而 .NET 架構的優點之一就是:代碼可以在運行時訪問類型的中繼資料(metadata),你也就能夠讀取資訊,並使用它來自動解決資料中每一段的位元組排列順序問題。在 Listing B 上可以找到原始碼,你可以瞭解是如何處理的。

一旦你得知對象的類型,你能夠獲得資料裡的每個部分,並開始檢查每一個部分,並確定其是否是一個16位或32位的不帶正負號的整數。在任何一種上述情況下,你都可以改變位元組的排序次序,而且不會破壞資料。

注意:你不是用字串類(string)來完成所有的事。是採用高位優先還是低位優先,並不會影響到字串類。那些欄位是不受翻轉代碼的影響。你也只是要注意不帶正負號的整數而已。因為,負數在不同的系統上,並不是使用同一種表示方式的。負數可以只用一個記號(一位位元組)表示,但是更常用的,卻是使用兩個記號(兩位位元組)表示。這使得負數在跨平台時有些更困難。幸運的是,負數在二進位檔案中極少使用。

這隻是多說幾句了,同樣的,浮點數有時並不是用標準方式表示的。儘管大多數系統是以IEEE格式為基礎來設定浮點數的,但是還是有一小部分老的系統使用了其它的格式來設定浮點數的。


克服困難

儘管 C# 還是有一些問題,但是你依舊能夠使用它來讀取二進位檔案。實際上,由於 C# 所使用的那種用來訪問對象的中繼資料(metadata)的方式,使它成為一種能夠更好讀取二進位檔案的語言。因此, C# 能夠自動解決整個資料的位元組交換(byte swapping)問題。

希望本文所述對大家的C#程式設計有所協助。

除聲明外, 跑步客文章均為原創,轉載請以連結形式標明本文地址
  C#讀取二進位檔案方法分析

本文地址:  http://www.paobuke.com/develop/c-develop/pbk23194.html






相關內容C# 計算傳入的時間距離今天的時間差區分WCF與WebService的異同、優勢implicit關鍵字做自訂類型隱式轉換的方法C#實現將選中複選框的資訊返回給使用者的方法
C#操作CSV檔案類執行個體C#實現軟體監控外部程式運行狀態的方法Winform實現抓取web頁面內容的方法C#中this的使用執行個體分析

C#讀取二進位檔案方法分析

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.