python读取文件类型_python准确判断文件类型
判斷文件類型在開發(fā)中非常常見的需求,怎樣才能準(zhǔn)確的判斷文件類型呢?首先大家想到的是文件的后綴,但是非常遺憾的是這種方法是非常不靠譜的,因?yàn)槲募暮缶Y是可以隨意更改的,而大家都知道后綴在linux系統(tǒng)下是沒有這個(gè)概念的,所以僅靠判斷后綴無法準(zhǔn)確判斷一個(gè)文件的類型。還有第二種方法是判斷文件的頭,每種文件在文件的頭中會(huì)標(biāo)識(shí)這種文件的類型,下面我們來看看如何用python來判斷文件的類型。
python通過文件頭判斷文件類型的方法:#! /usr/bin/python
# pythontab提醒您注意中文編碼問題,指定編碼為utf-8
# -*- coding: utf-8 -*-
import struct
# 支持文件類型
# 用16進(jìn)制字符串的目的是可以知道文件頭是多少字節(jié)
# 各種文件頭的長(zhǎng)度不一樣,少則2字符,長(zhǎng)則8字符
def typeList():
return {
"FFD8FF": "JPEG",
"89504E47": "PNG"}
# 字節(jié)碼轉(zhuǎn)16進(jìn)制字符串
def bytes2hex(bytes):
num = len(bytes)
hexstr = u""
for i in range(num):
t = u"%x" % bytes[i]
if len(t) % 2:
hexstr += u"0"
hexstr += t
return hexstr.upper()
# 獲取文件類型
def filetype(filename):
binfile = open(filename, 'rb') # 必需二制字讀取
tl = typeList()
ftype = 'unknown'
for hcode in tl.keys():
numOfBytes = len(hcode) / 2 # 需要讀多少字節(jié)
binfile.seek(0) # 每次讀取都要回到文件頭,不然會(huì)一直往后讀取
hbytes = struct.unpack_from("B"*numOfBytes, binfile.read(numOfBytes)) # 一個(gè) "B"表示一個(gè)字節(jié)
f_hcode = bytes2hex(hbytes)
if f_hcode == hcode:
ftype = tl[hcode]
break
binfile.close()
return ftype
if __name__ == '__main__':
print filetype('./test.jpg')
常見文件格式的文件頭文件格式 文件頭(十六進(jìn)制)
JPEG (jpg) FFD8FF
PNG (png) 89504E47
GIF (gif) 47494638
TIFF (tif) 49492A00
Windows Bitmap (bmp) 424D
CAD (dwg) 41433130
Adobe Photoshop (psd) 38425053
Rich Text Format (rtf) 7B5C727466
XML (xml) 3C3F786D6C
HTML (html) 68746D6C3E
Email [thorough only] (eml) 44656C69766572792D646174653A
Outlook Express (dbx) CFAD12FEC5FD746F
Outlook (pst) 2142444E
MS Word/Excel (xls.or.doc) D0CF11E0
MS Access (mdb) 5374616E64617264204A
總結(jié)
以上是生活随笔為你收集整理的python读取文件类型_python准确判断文件类型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: everything文件搜索_Every
- 下一篇: python降维效果图_python实现