這個struct主要是用來處理C結構資料的,讀入時先轉換為Python的字串類型,然後再轉換為Python的結構化類型,比如元組(tuple)啥的~
一般輸入的渠道來源於檔案或者網路的二進位流。
在轉化過程中,主要用到了一個格式化字串(format strings),用來規定轉化的方法和格式。
下面來談談主要的方法:
struct.pack(fmt,v1,v2,.....)
將v1,v2等參數的值進行一層封裝,封裝的方法由fmt指定。被封裝的參數必須嚴格符合fmt。最後返回一個封裝後的字串。
struct.unpack(fmt,string)
顧名思義,解包。比如pack打包,然後就可以用unpack解包了。返回一個由解包資料(string)得到的一個元組(tuple),即使僅有一個資料也會被解包成 元組。其中len(string) 必須等於 calcsize(fmt),這裡面涉及到了一個calcsize函數,再後面談到。
struct.calcsize(fmt)
這個就是用來計算fmt格式所描述的結構的大小。
格式字串(format string)由一個或多個格式字元(format characters)組成,對於這些格式字元的描述參照Python manual如下
Format |
C Type |
Python type |
Standard size(byte) |
Notes |
x |
pad byte |
no value |
|
|
c |
char |
string of length 1 |
1 |
|
b |
signed char |
integer |
1 |
|
B |
unsigned char |
integer |
1 |
|
? |
_Bool |
bool |
1 |
(1) |
h |
short |
integer |
2 |
|
H |
unsigned short |
integer |
2 |
|
i |
int |
integer |
4 |
|
I |
unsigned int |
integer |
4 |
|
l |
long |
integer |
4 |
|
L |
unsigned long |
integer |
4 |
|
q |
long long |
integer |
8 |
(2) |
Q |
unsigned long long |
integer |
8 |
(2) |
f |
float |
float |
4 |
(3) |
d |
double |
float |
8 |
(3) |
s |
char[] |
string |
|
|
p |
char[] |
string |
|
|
P |
void * |
integer |
|
(4) |
說到這裡,大家可能都有點迷糊了,那就看一段小代碼
import struct
# native byteorder
buffer = struct.pack("ihb", 1, 2, 3)
print repr(buffer)
print struct.unpack("ihb", buffer)
# data from a sequence, network byteorder
data = [1, 2, 3]
buffer = struct.pack("!ihb", *data)
print repr(buffer)
print struct.unpack("!ihb", buffer)
Output:
'\x01\x00\x00\x00\x02\x00\x03'
(1, 2, 3)
'\x00\x00\x00\x01\x00\x02\x03'
(1, 2, 3)
首先將參數1,2,3打包,打包前1,2,3明顯屬於python資料類型中的integer,pack後就變成了C結構的二進位串,轉成python的string類型來顯示就是 '\x01\x00\x00\x00\x02\x00\x03'。由於本機是小端('little-endian',關於大端和小端的區別請參照Google),故而高位放在低位址區段。i 代表C struct中的int類型,故而本機佔4位,1則表示為01000000;h 代表C struct中的short類型,佔2位,故表示為0200;同理b 代表C struct中的signed char類型,佔1位,故而表示為03。
其他結構的轉換也類似,有些特別的可以參考Manual。
(註:一個英文字母,一個數字,一個符號各佔一個位元組。一個漢字佔兩個位元組。所以我們習慣對一個字元占的位置說成一位,這裡的位不是bit,而是一個字元占的位置的位,實際是一個位元組。)
在Format string 的首位,有一個可選字元來決定大端和小端,列表如下:
Character |
Byte order |
Size and alignment |
@ |
native |
native |
= |
native |
standard |
< |
little-endian |
standard |
> |
big-endian |
standard |
! |
network (= big-endian) |
standard |
如果沒有附加,預設為@,即使用原生字元順序(大端or小端),對於C結構的大小和記憶體中的對齊也是與本機相一致的(native),比如有的機器integer為2位而有的機器則為四位;有的機器記憶體對其位四位對齊,有的則是n位對齊(n未知,我也不知道多少)。
還有一個標準的選項,被描述為:如果使用標準的,則任何類型都無記憶體對齊。
比如剛才的小程式的後半部分,使用的format string中首位為!,即為大端模式標準對齊,故而輸出的為'\x00\x00\x00\x01\x00\x02\x03',其中高位自己就被放在記憶體的高地址位了。
關於struct模組的講解就到這裡。本文只做引子,詳細內容可以參見手冊。由於水平有限,謬誤之處還請指出。
from:http://www.cnblogs.com/tonychopper/archive/2010/07/23/1783501.html