python通過檔案頭判斷檔案類型

來源:互聯網
上載者:User
對於提供上傳的伺服器,需要對上傳的檔案進行過濾。

本文為大家提供了python通過檔案頭判斷檔案類型的方法,避免不必要的麻煩。

分享代碼如下

import struct  # 支援檔案類型 # 用16進位字串的目的是可以知道檔案頭是多少位元組 # 各種檔案頭的長度不一樣,少半2字元,長則8字元 def typeList():   return {     "52617221": EXT_RAR,     "504B0304": EXT_ZIP}  # 位元組碼轉16進位字串 def bytes2hex(bytes):   num = len(bytes)   hexstr = u""   for i in range(num):     t = u"%x" % bytes[i]     if len(t) % 2:       hexstr += u"0"     hexstr += t   return hexstr.upper()  # 擷取檔案類型 def filetype(filename):   binfile = open(filename, 'rb') # 必需二制字讀取   tl = typeList()   ftype = 'unknown'   for hcode in tl.keys():     numOfBytes = len(hcode) / 2 # 需要讀多少位元組     binfile.seek(0) # 每次讀取都要回到檔案頭,不然會一直往後讀取     hbytes = struct.unpack_from("B"*numOfBytes, binfile.read(numOfBytes)) # 一個 "B"表示一個位元組     f_hcode = bytes2hex(hbytes)     if f_hcode == hcode:       ftype = tl[hcode]       break   binfile.close()   return ftype  if __name__ == '__main__':   print filetype(Your-file-path)

常見檔案格式的檔案頭

檔案格式 檔案頭(十六進位)
JPEG (jpg) FFD8FF
PNG (png) 89504E47
GIF (gif) 47494638
TIFF (tif) 49492A00
Windows Bitmap (bmp) 424D
CAD (dwg) 41433130
Adobe Photoshop (psd) 38425053
Rich Text Format (rtf) 7B5C727466
XML (xml) 3C3F786D6C
HTML (html) 68746D6C3E
Email [thorough only] (eml) 44656C69766572792D646174653A
Outlook Express (dbx) CFAD12FEC5FD746F
Outlook (pst) 2142444E
MS Word/Excel (xls.or.doc) D0CF11E0
MS Access (mdb) 5374616E64617264204A

以上就是本文的全部內容,希望對大家的學習有所協助。

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.