文章目錄
- 建立緩衝
- 擷取和設定緩衝資料
- 切分緩衝資料
- 複製緩衝資料
- 解碼緩衝資料
本系列文章列表和翻譯進度,請移步:Node.js進階編程:用Javascript構建可伸縮應用(〇)
本文對應原文第二部分第四章:Node Core API Basics:Using Buffers to Manipulate,Encode, and Decode Binary Data
文章從Word複製到這裡,排版特別是縮排與原文不太一致,可以點這裡下載本文的PDF版。
第四章:使用Buffer處理,編碼,解碼位元據本章內容:
- 為什麼需要用緩衝
- 用字串建立緩衝
- 把緩衝轉換成字串
- 處理緩衝資料
- 緩衝資料的切分和複製
JavaScript很擅長處理字串,但是因為它最初的設計是用來處理HTML文檔,因此它並不太擅長處理位元據。JavaScript沒有byte類型,沒有結構化的類型(structured types),甚至沒有位元組數組,只有數字和字串。(原文:JavaScript doesn’t have a byte type — it just has numbers — or structured types, or even byte arrays: It just has strings.)
因為Node基於JavaScript,它自然可以處理類似HTTP這樣的文本協議,但是你也可以用它來跟資料庫互動,處理圖片或檔案上傳等,可以想象,如果僅僅用字串來做這些事得有多困難。早些時候,Node通過將byte編碼成文本字元來處理位元據,但這種方式後來被證明並不可行,既浪費資源,又緩慢,又不靈活,而且難以維護。
Node有一個二進位緩衝實現Buffer,這個偽類(pseudo-class)提供了一系列處理位元據的API,簡化了那些需要處理位元據的任務。緩衝的長度由位元組資料的長度決定,而且你可以隨機的設定和擷取緩衝內的位元組資料。
注意:Buffer類有一個特殊的地方,緩衝內的位元組資料所佔用的記憶體不是分配在JavaScrp
It VM記憶體堆上的,也就是說這些對象不會被JavaScript的記憶體回收演算法處理,取而代之的是一個不會被修改的永久記憶體位址,這也避免了因緩衝內容的記憶體複製所造成的CPU浪費。
建立緩衝
你可以用一個UTF-8字串建立緩衝,像這樣:
var buf = new Buffer(‘Hello World!’);
也可以用指定編碼的字串建立緩衝:
var buf = new Buffer('8b76fde713ce', 'base64');
可接受的字元編碼和標識如下:
- ascii——ASCI,僅適用於ASCII字元集。
- utf8——UTF-8,這種可變寬編碼適用於Unicode字元集的任何字元,它已經成了Web世界的首選編碼,也是Node的預設編碼類別型。
- base64——Base64,這種編碼基於64個可列印ASCII字元來表示位元據,Base64通常用於在字元文檔內嵌入可以被轉化成字串的位元據,在需要時又可以完整無損的轉換回原來的二進位格式。
如果沒有資料來初始化緩衝,可以用指定的容量大小來建立一個空緩衝:
var buf = new Buffer(1024); // 建立一個1024位元組的緩衝
擷取和設定緩衝資料
建立或接收一個緩衝對象後,你可能要查看或者修改它的內容,可以通過[]操作符來訪問緩衝的某個位元組:
var buf = new Buffer('my buffer content');
// 訪問緩衝內第10個位元組
console.log(buf[10]); // -> 99
注意:當你(使用緩衝容量大小來)建立一個已初始化的緩衝時,一定要注意,緩衝的資料並沒有被初始化成0,而是隨機資料。
var buf = new Buffer(1024);
console.log(buf[100]); // -> 5 (某個隨機值)
你可以這樣修改緩衝裡任何位置的資料:
buf[99] = 125; // 把第100個位元組的值設定為125
注意:在某些情況下,一些緩衝操作並不會產生錯誤,比如:
- 緩衝內的位元組最大值為255,如果某個位元組被賦予大於256的數字,將會用256對其模數,然後將結果賦給這個位元組。
- 如果將緩衝的某個位元組賦值為256,它的實際值將會是0(譯者註:其實跟第一條重複,256%256=0)
- 如果用浮點數給緩衝內某個位元組賦值,比如100.7,實際值將會是浮點數的整數部分——100
- 如果你嘗試給一個超出緩衝容量的位置賦值,賦值操作將會失敗,緩衝不做任何修改。
你可以用length屬性擷取緩衝的長度:
var buf = new Buffer(100);
console.log(buf.length); // -> 100
還可以使用緩衝長度迭代緩衝的內容,來讀取或設定每個位元組:
var buf = new Buffer(100);
for(var i = 0; i < buf.length; i++) {
buf[i] = i;
}
上面代碼建立了一個包含100個位元組的緩衝,並從0到99設定了緩衝內每個位元組。
切分緩衝資料
一旦建立或者接收了一個緩衝,你可能需要提取緩衝資料的一部分,可以通過指定起始位置來切分現有的緩衝,從而建立另外一個較小的緩衝:
var buffer = new Buffer("this is the content of my buffer");
var smallerBuffer = buffer.slice(8, 19);
console.log(smallerBuffer.toString()); // -> "the content"
注意,當切分一個緩衝的時候並沒有新的記憶體被分配或複製,新的緩衝使用父緩衝的記憶體,它只是父緩衝某段資料(由起始位置指定)的引用。這段話含有幾個意思。
首先,如果你的程式修改了父緩衝的內容,這些修改也會影響相關的子緩衝,因為父緩衝和子緩衝是不同的JavaScript對象,因此很容易忽略這個問題,並導致一些潛在的bug。
其次,當你用這種方式從父緩衝建立一個較小的子緩衝時,父緩衝對象在操作結束後依然會被保留,並不會被記憶體回收,如果不注意的話,很容易會造成記憶體泄露。
注意:如果你擔心因此產生記憶體泄露問題,你可以使用copy方法來替代slice操作,下面將會介紹copy。
複製緩衝資料
你可以像這樣用copy將緩衝的一部分複製到另外一個緩衝:
var buffer1 = new Buffer("this is the content of my buffer");
var buffer2 = new Buffer(11);
var targetStart = 0;
var sourceStart = 8;
var sourceEnd = 19;
buffer1.copy(buffer2, targetStart, sourceStart, sourceEnd);
console.log(buffer2.toString()); // -> "the content"
上面代碼,複製源緩衝的第9到20個位元組到目標緩衝的開始位置。
解碼緩衝資料
緩衝資料可以這樣轉換成一個UTF-8字串:
var str = buf.toString();
還可以通過指定編碼類別型來將緩衝資料解碼成任何編碼類別型的資料。比如,你想把一個緩衝解碼成base64字串,可以這麼做:
var b64Str = buf.toString("base64");
使用toString函數,你還可以把一個UTF-8字串轉碼成base64字串:
var utf8String = 'my string';
var buf = new Buffer(utf8String);
var base64String = buf.toString('base64')
小結
有時候,你不得不跟位元據打交道,但是原生JavaScript又沒有明確的方式來做這件事,於是Node提供了Buffer類,封裝了一些針對連續記憶體塊的操作。你可以在兩個緩衝之間切分或複製記憶體資料。
你也可以把一個緩衝轉換成某種編碼的字串,或者反過來,把一個字串轉化成緩衝,來訪問或處理每個bit。