轉自:http://blog.sina.com.cn/s/blog_4b5039210100f2a0.html
在C中關於網路位元組序和主機位元組序困擾了我一段時間,在python中實現位元組流的網路傳輸,必然這個問題也不可避免,但是我覺得在python中解決這個問題和示範起來比較方便一點。
我們上次用struct的pack方法實現了位元組流,那麼這裡就牽涉到一個位元組流的位元組序問題,當一個16位的int型資料形成01的位元組流時,是高位在前,還是低位在前?這裡分為網路位元組序,和主機位元組序。
Little endian:將低序位元組儲存在起始地址
Big endian:將高序位元組儲存在起始地址
LE little-endian :
最符合人的思維的位元組序,地址低位儲存值的低位,地址高位儲存值的高位,怎麼講是最符合人的思維的位元組序,是因為從人的第一觀感來說低位值小,就應該放在記憶體位址小的地方,也即記憶體位址低位反之,高位值就應該放在記憶體位址大的地方,也即記憶體位址高位
BE big-endian
最直觀的位元組序,地址低位儲存值的高位,地址高位儲存值的低位,為什麼說直觀,不要考慮對應關係
只需要把記憶體位址從左至右按照由低到高的順序寫出,把值按照通常的高位到低位的順序寫出 兩者對照,一個位元組一個位元組的填充進去
例子:在記憶體中雙字0x01020304(DWORD)的儲存方式
記憶體位址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04
例子:如果我們將0x1234abcd寫入到以0x0000開始的記憶體中,則結果為
big-endian little-endian
0x0000 0x12 0xcd
0x0001 0x23 0xab
0x0002 0xab 0x34
0x0003 0xcd 0x12
x86系列CPU都是little-endian的位元組序.
我們用python來實驗一下:
>>> from struct import *
>>> pack('@h',14)
'\x0e\x00'
>>>
int型的整數14用二進位表示應該為0000000000001110,十六進位的話應該為0x00\ox0e ,但是如果說是低位位元組存放低位,那麼低位位元組0x0e就應該存在低位,然後高位就存放0x00,這就是我們電腦在記憶體中存放這個數的形式。我們用pack,參數為’@h’,就是把14按照主機位元組序,以2位元組的int型存放到記憶體中的。
網路位元組順序是TCP/IP中規定好的一種資料表示格式,它與具體的CPU類型、作業系統等無關,從而可以保證資料在不同主機之間傳輸時能夠被正確解釋。網路位元組順序採用big endian排序方式。那麼如果我們要把資料流發到網路上,必須把位元組順序改為高位元組在前,低位元組在後,就是我們發送一個0000000000001110,我們必須先發高位元組00000000,然後在發低位元組00001110,也就是十六進位的0x00 0x0e
在struct的pack打包中,提供了一個’!’,來實現網路位元組序,比如同樣是上面的例子:
>>> from struct import *
>>> pack('!h',14)
'\x00\x0e'
>>>
可以看到,確實是高位元組在前,低位元組在後了。假如我們要把這個14通過UDP協議發送給另外一個主機,那麼我們就要用這個位元組序。
下面我看一個具體傳輸的例子吧,基於UDP的。
首先我們在server和client端都用網路位元組序來pack和unpack,我們看看結果會是什麼樣:
Server端:
import socket
import struct
BUFSIZ=1024
ADDR=('localhost',2046)
recvsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
while True:
print 'waiting for the data'
data,addr=recvsocket.recvfrom(BUFSIZ)
print repr(data)
(data1,)=struct.unpack('h',data)
print repr(data1)
(data2,)=struct.unpack('!h',data)
print data2
recvsocket.close()
下面是client端:
import socket
import struct
BUFSIZ=1024
ADDR=('localhost',2046)
sendsocket=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
data=struct.pack('!h',14)
print repr(data)
sendsocket.sendto(data,ADDR)
sendsocket.close()
我們還是在client端往server端發一個14,int型資料,我們看看運行結果:
其中紅色命令視窗為client端,綠色是server端,可以看到14通過pack傳出去的確是高位元組在前,低位元組在後,屬於網路位元組序,而server收到的14在記憶體中也是高位元組在前,低位元組在後的,這樣我們通過unpack就能得到正確的結果。
整個過程是這樣的:
14也就是0000000000001110,用pack時候我們用的網路位元組序來存,那麼在記憶體中高位元組00000000在前,低位元組00001110在後(假如不指定用網路位元組序的話,它會顛倒)然後我們傳輸的時候,因為網路傳輸是預設高位元組在前,00000000先傳,00001110後傳,到接受端接收到的還沒有unpack的資料也就是00000000在前,00001110在後了,如果這時候我們unpack不用網路位元組序來分的話,那麼得到的結果就是錯誤的,因為那麼CPU會以為這個數不是0000000000001110而是0000111000000000.所以就不對了。
附註:
1、網路與主機位元組轉換函式:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
2、不同的CPU上運行不同的作業系統,位元組序也是不同的,參見下表。
處理器 作業系統 位元組排序
Alpha 全部 Little endian
HP-PA NT Little endian
HP-PA UNIX Big endian
Intelx86 全部 Little endian <-----x86系統是小端位元組序系統
Motorola680x() 全部 Big endian
MIPS NT Little endian
MIPS UNIX Big endian
PowerPC NT Little endian
PowerPC 非NT Big endian <-----PPC系統是大端位元組序系統
RS/6000 UNIX Big endian
SPARC UNIX Big endian
IXP1200 ARM核心 全部