對於提供上傳的伺服器,需要對上傳的檔案進行過濾。
本文為大家提供了python通過檔案頭判斷檔案類型的方法,避免不必要的麻煩。
分享代碼如下
import struct # 支援檔案類型 # 用16進位字串的目的是可以知道檔案頭是多少位元組 # 各種檔案頭的長度不一樣,少半2字元,長則8字元 def typeList(): return { "52617221": EXT_RAR, "504B0304": EXT_ZIP} # 位元組碼轉16進位字串 def bytes2hex(bytes): num = len(bytes) hexstr = u"" for i in range(num): t = u"%x" % bytes[i] if len(t) % 2: hexstr += u"0" hexstr += t return hexstr.upper() # 擷取檔案類型 def filetype(filename): binfile = open(filename, 'rb') # 必需二制字讀取 tl = typeList() ftype = 'unknown' for hcode in tl.keys(): numOfBytes = len(hcode) / 2 # 需要讀多少位元組 binfile.seek(0) # 每次讀取都要回到檔案頭,不然會一直往後讀取 hbytes = struct.unpack_from("B"*numOfBytes, binfile.read(numOfBytes)) # 一個 "B"表示一個位元組 f_hcode = bytes2hex(hbytes) if f_hcode == hcode: ftype = tl[hcode] break binfile.close() return ftype if __name__ == '__main__': print filetype(Your-file-path)
常見檔案格式的檔案頭
檔案格式 檔案頭(十六進位)
JPEG (jpg) FFD8FF
PNG (png) 89504E47
GIF (gif) 47494638
TIFF (tif) 49492A00
Windows Bitmap (bmp) 424D
CAD (dwg) 41433130
Adobe Photoshop (psd) 38425053
Rich Text Format (rtf) 7B5C727466
XML (xml) 3C3F786D6C
HTML (html) 68746D6C3E
Email [thorough only] (eml) 44656C69766572792D646174653A
Outlook Express (dbx) CFAD12FEC5FD746F
Outlook (pst) 2142444E
MS Word/Excel (xls.or.doc) D0CF11E0
MS Access (mdb) 5374616E64617264204A
以上就是本文的全部內容,希望對大家的學習有所協助。