Python学习笔记:常用内建模块3:struct
前言
最近在學習深度學習,已經跑出了幾個模型,但Pyhton的基礎不夠扎實,因此,開始補習Python了,大家都推薦廖雪峰的課程,因此,開始了學習,但光學有沒有用,還要和大家討論一下,因此,寫下這些帖子,廖雪峰的課程連接在這里:廖雪峰
Python的相關介紹,以及它的歷史故事和運行機制,可以參見這篇:python介紹
Python的安裝可以參見這篇:Python安裝
Python的運行模式以及輸入輸出可以參見這篇:Python IO
Python的基礎概念介紹,可以參見這篇:Python 基礎
Python字符串和編碼的介紹,可以參見這篇:Python字符串與編碼
Python基本數據結構:list和tuple介紹,可以參見這篇:Python list和tuple
Python控制語句介紹:ifelse,可以參見這篇:Python 條件判斷
Python控制語句介紹:循環實現,可以參見這篇:Python循環語句
Python數據結構:dict和set介紹Python數據結構dict和set
Python函數相關:Python函數
Python高階特性:Python高級特性
Python高階函數:Python高階函數
Python匿名函數:Python匿名函數
Python裝飾器:Python裝飾器
Python偏函數:Python偏函數
Python模塊:Python模塊
Python面向對象編程(1):Python面向對象
Python面向對象編程(2):Python面向對象(2)
Python面向對象編程(3):Python面向對象(3)
Python面向對象編程(4):Pyhton面向對象(4)
Python面向對象高級編程(上):Python面向對象高級編程(上)
Python面向對象高級編程(中上):Python面向對象高級編程(中上)
Python面向對象高級編程(中下):Python面向對象高級編程(中下)
Python面向對象高級編程(完):Python面向對象高級編程(完)
Python錯誤調試(起):Python調試:起
Python錯誤調試(承):Python調試:承
Python錯誤調試(轉):Python調試:轉
Python錯誤調試(合):python調試:合
Python文件IO編程:Python文件IO
Python文件IO編程2:Python文件IO2
Python文件IO編程3:PYthon文件IO3
Python進程和線程(起):Python進程和線程起
Python進程和線程(承):Python進程和線程承
Python進程和線程(轉):Python進程和線程轉
Python進程和線程(合):Python進程和線程合
Python正則表達式:Python正則表達式
Python學習筆記:常用內建模塊1:Python學習筆記:常用內建模塊1
Python學習筆記:常用內建模塊2:Python學習筆記:常用內建模塊2
目錄:
- 前言
- 目錄:
- Struct
- 練習
- hashlib
- 摘要算法簡介
- MD5
- SHA1
- 練習
- 練習
- 小結
Struct
準確地講,Python沒有專門處理字節的數據類型。但由于b’str’可以表示字節,所以,字節數組=二進制str。而在C語言中,我們可以很方便地用struct、union來處理字節,以及字節和int,float的轉換。
在Python中,比方說要把一個32位無符號整數變成字節,也就是4個長度的bytes,你得配合位運算符這么寫:
>>> n = 10240099 >>> b1 = (n & 0xff000000) >> 24 >>> b2 = (n & 0xff0000) >> 16 >>> b3 = (n & 0xff00) >> 8 >>> b4 = n & 0xff >>> bs = bytes([b1, b2, b3, b4]) >>> bs b'\x00\x9c@c'非常麻煩。如果換成浮點數就無能為力了。
好在Python提供了一個struct模塊來解決bytes和其他二進制數據類型的轉換。
struct的pack函數把任意數據類型變成bytes:
>>> import struct >>> struct.pack('>I', 10240099) b'\x00\x9c@c'pack的第一個參數是處理指令,’>I’的意思是:
>表示字節順序是big-endian,也就是網絡序,I表示4字節無符號整數。后面的參數個數要和處理指令一致。
unpack把bytes變成相應的數據類型:
>>> struct.unpack('>IH', b'\xf0\xf0\xf0\xf0\x80\x80') (4042322160, 32896)根據>IH的說明,后面的bytes依次變為I:4字節無符號整數和H:2字節無符號整數。
所以,盡管Python不適合編寫底層操作字節流的代碼,但在對性能要求不高的地方,利用struct就方便多了。
struct模塊定義的數據類型可以參考Python官方文檔:
官方文檔
Windows的位圖文件(.bmp)是一種非常簡單的文件格式,我們來用struct分析一下。
首先找一個bmp文件,沒有的話用“畫圖”畫一個。
讀入前30個字節來分析:
>>> s = b'\x42\x4d\x38\x8c\x0a\x00\x00 \x00\x00\x00\x36\x00\x00\x00\x28\x00\x00\x00\x80\x02\x00\x00\x68\x01\x00\x00\x01\x00\x18\x00'BMP格式采用小端方式存儲數據,文件頭的結構按順序如下:
兩個字節:’BM’表示Windows位圖,’BA’表示OS/2位圖;
一個4字節整數:表示位圖大小;
一個4字節整數:保留位,始終為0;
一個4字節整數:實際圖像的偏移量;
一個4字節整數:Header的字節數;
一個4字節整數:圖像寬度;
一個4字節整數:圖像高度;
一個2字節整數:始終為1;
一個2字節整數:顏色數。
所以,組合起來用unpack讀取:
>>> struct.unpack('<ccIIIIIIHH', s) (b'B', b'M', 691256, 0, 54, 40, 640, 360, 1, 24)結果顯示,b’B’、b’M’說明是Windows位圖,位圖大小為640x360,顏色數為24。
練習
請編寫一個bmpinfo.py,可以檢查任意文件是否是位圖文件,如果是,打印出圖片大小和顏色數。
hashlib
摘要算法簡介
Python的hashlib提供了常見的摘要算法,如MD5,SHA1等等。
什么是摘要算法呢?摘要算法又稱哈希算法、散列算法。它通過一個函數,把任意長度的數據轉換為一個長度固定的數據串(通常用16進制的字符串表示)。
舉個例子,你寫了一篇文章,內容是一個字符串’how to use python hashlib - by Michael’,并附上這篇文章的摘要是’2d73d4f15c0db7f5ecb321b6a65e5d6d’。如果有人篡改了你的文章,并發表為’how to use python hashlib - by Bob’,你可以一下子指出Bob篡改了你的文章,因為根據’how to use python hashlib - by Bob’計算出的摘要不同于原始文章的摘要。
可見,摘要算法就是通過摘要函數f()對任意長度的數據data計算出固定長度的摘要digest,目的是為了發現原始數據是否被人篡改過。
摘要算法之所以能指出數據是否被篡改過,就是因為摘要函數是一個單向函數,計算f(data)很容易,但通過digest反推data卻非常困難。而且,對原始數據做一個bit的修改,都會導致計算出的摘要完全不同。
我們以常見的摘要算法MD5為例,計算出一個字符串的MD5值:
MD5
import hashlibmd5 = hashlib.md5() md5.update('how to use md5 in python hashlib?'.encode('utf-8')) print(md5.hexdigest())計算結果如下:
d26a53750bc40b38b65a520292f69306如果數據量很大,可以分塊多次調用update(),最后計算的結果是一樣的:
import hashlibmd5 = hashlib.md5() md5.update('how to use md5 in '.encode('utf-8')) md5.update('python hashlib?'.encode('utf-8')) print(md5.hexdigest())試試改動一個字母,看看計算的結果是否完全不同。
MD5是最常見的摘要算法,速度很快,生成結果是固定的128 bit字節,通常用一個32位的16進制字符串表示。
另一種常見的摘要算法是SHA1,調用SHA1和調用MD5完全類似:
SHA1
import hashlibsha1 = hashlib.sha1() sha1.update('how to use sha1 in '.encode('utf-8')) sha1.update('python hashlib?'.encode('utf-8')) print(sha1.hexdigest())SHA1的結果是160 bit字節,通常用一個40位的16進制字符串表示。
比SHA1更安全的算法是SHA256和SHA512,不過越安全的算法不僅越慢,而且摘要長度更長。
有沒有可能兩個不同的數據通過某個摘要算法得到了相同的摘要?完全有可能,因為任何摘要算法都是把無限多的數據集合映射到一個有限的集合中。這種情況稱為碰撞,比如Bob試圖根據你的摘要反推出一篇文章’how to learn hashlib in python - by Bob’,并且這篇文章的摘要恰好和你的文章完全一致,這種情況也并非不可能出現,但是非常非常困難。
摘要算法應用
摘要算法能應用到什么地方?舉個常用例子:
任何允許用戶登錄的網站都會存儲用戶登錄的用戶名和口令。如何存儲用戶名和口令呢?方法是存到數據庫表中:
| mike | 123456 |
| bob | abc999 |
| alice | alice2008 |
如果以明文保存用戶口令,如果數據庫泄露,所有用戶的口令就落入黑客的手里。此外,網站運維人員是可以訪問數據庫的,也就是能獲取到所有用戶的口令。
正確的保存口令的方式是不存儲用戶的明文口令,而是存儲用戶口令的摘要,比如MD5:
| mike | e10adc3949ba59abbe56e057f20f883e |
| bob | 878ef96e86145580c38c87f0410ad153 |
| alice | 99b1c2188db85afee403b1536010c2c9 |
當用戶登錄時,首先計算用戶輸入的明文口令的MD5,然后和數據庫存儲的MD5對比,如果一致,說明口令輸入正確,如果不一致,口令肯定錯誤。
練習
根據用戶輸入的口令,計算出存儲在數據庫中的MD5口令:
def calc_md5(password):pass存儲MD5的好處是即使運維人員能訪問數據庫,也無法獲知用戶的明文口令。
設計一個驗證用戶登錄的函數,根據用戶輸入的口令是否正確,返回True或False:
#-- coding: utf-8 -- 'hash 算法' import hashlib db={'michael': 'e10adc3949ba59abbe56e057f20f883e','bob': '878ef96e86145580c38c87f0410ad153','alice': '99b1c2188db85afee403b1536010c2c9' }def login(un, pw):md5=hashlib.md5()md5.update(pw.encode('utf-8'))digest=md5.hexdigest()md5Str=db[un]if digest==md5Str:return Trueelse:return False采用MD5存儲口令是否就一定安全呢?也不一定。假設你是一個黑客,已經拿到了存儲MD5口令的數據庫,如何通過MD5反推用戶的明文口令呢?暴力破解費事費力,真正的黑客不會這么干。
考慮這么個情況,很多用戶喜歡用123456,888888,password這些簡單的口令,于是,黑客可以事先計算出這些常用口令的MD5值,得到一個反推表:
'e10adc3949ba59abbe56e057f20f883e': '123456' '21218cca77804d2ba1922c33e0151105': '888888' '5f4dcc3b5aa765d61d8327deb882cf99': 'password'這樣,無需破解,只需要對比數據庫的MD5,黑客就獲得了使用常用口令的用戶賬號。
對于用戶來講,當然不要使用過于簡單的口令。但是,我們能否在程序設計上對簡單口令加強保護呢?
由于常用口令的MD5值很容易被計算出來,所以,要確保存儲的用戶口令不是那些已經被計算出來的常用口令的MD5,這一方法通過對原始口令加一個復雜字符串來實現,俗稱“加鹽”:
def calc_md5(password):return get_md5(password + 'the-Salt')經過Salt處理的MD5口令,只要Salt不被黑客知道,即使用戶輸入簡單口令,也很難通過MD5反推明文口令。
但是如果有兩個用戶都使用了相同的簡單口令比如123456,在數據庫中,將存儲兩條相同的MD5值,這說明這兩個用戶的口令是一樣的。有沒有辦法讓使用相同口令的用戶存儲不同的MD5呢?
如果假定用戶無法修改登錄名,就可以通過把登錄名作為Salt的一部分來計算MD5,從而實現相同口令的用戶也存儲不同的MD5。
練習
根據用戶輸入的登錄名和口令模擬用戶注冊,計算更安全的MD5:
import hashlib, randomdef get_md5(s):return hashlib.md5(s.encode('utf-8')).hexdigest()class User(object):def init(self, username, password):self.username = usernameself.salt = ''.join([chr(random.randint(48, 122)) for i in range(20)])self.password = get_md5(password + self.salt) db = {'michael': User('michael', '123456'),'bob': User('bob', 'abc999'),'alice': User('alice', 'alice2008') }def login(username, password):user = db[username]return user.password == get_md5(password + user.salt)assert login('michael', '123456') assert login('bob', 'abc999') assert login('alice', 'alice2008') assert not login('michael', '1234567') assert not login('bob', '123456') assert not login('alice', 'Alice2008') print('ok')小結
摘要算法在很多地方都有廣泛的應用。要注意摘要算法不是加密算法,不能用于加密(因為無法通過摘要反推明文),只能用于防篡改,但是它的單向計算特性決定了可以在不存儲明文口令的情況下驗證用戶口令。
總結
以上是生活随笔為你收集整理的Python学习笔记:常用内建模块3:struct的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python学习笔记:常用内建模块2:c
- 下一篇: websocket python爬虫_p