日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python为什么这么小_同样是 Python,怎么区别这么大

發(fā)布時間:2023/12/3 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python为什么这么小_同样是 Python,怎么区别这么大 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

發(fā)現(xiàn)問題

上周,我的測試同事告訴我,你的用戶名怎么還允許中文啊?當時我心里就想,你們測試肯定又搞錯接口了,我用的是正則\w過濾了參數(shù),怎么可能出錯,除非Python正則系統(tǒng)出錯了,那是不可能的。本著嚴謹?shù)淖黠L,我自己先測試一下,沒問題看我怎么懟回去。可是當我測試,我就懵逼了,中文真TM都驗證通過,不對啊,我以前也是這么過濾參數(shù)的,測試沒問題啊?唯一的區(qū)別是現(xiàn)在用的是Python3。

上網(wǎng)搜了一圈,發(fā)現(xiàn)沒有一篇文章講述Python2和Python3的正則在處理字符串是的區(qū)別,都是一視同仁,知道我去翻了一遍官方文檔,才明白怎么回事。

問題復現(xiàn)

我們都知道,Python有個正則規(guī)則\w,幾乎所有的網(wǎng)上博客文章都告訴你,這個規(guī)則匹配字母數(shù)字及下劃線,但實際并不是這樣:

有Python2代碼如下:

~|? python

Python 2.7.10 (default, Aug 17 2018, 19:45:58)

[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> import re

>>> aa = '捕蛇者說'

>>> re.match('\w{1,20}', aa)

>>> bb = 'abc123ADB'

>>> re.match('\w{1,20}', bb)

我們可以看到,在python2中,\w是無法匹配中文的。那么,同樣的代碼在Python3中運行結(jié)果是什么樣子的了?

~|? python3

Python 3.7.1 (default, Nov 28 2018, 11:55:14)

[Clang 9.0.0 (clang-900.0.39.2)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> import re

>>> aa = '捕蛇者說'

>>> re.match('\w{1,20}', aa)

>>> bb = 'abc123ADB'

>>> re.match('\w{1,20}', bb)

但在Python3中\(zhòng)w是可以匹配中文的,這是怎么回事了?要回答這個問題,我們要回到Python官方文檔中來尋找答案。

解決問題

當我們仔細閱讀Python的官方文檔時,就會發(fā)現(xiàn),對于同樣的正則規(guī)則\w,Python2和Python3區(qū)別好大,我們先來看看Python2:

When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

翻譯一下:當沒有設(shè)置LOCALE(re.L)和UNICODE(re.U)標志,匹配數(shù)字字母和下劃線,如果設(shè)置了LOCALE(re.L)則匹配數(shù)字下劃線和LOCALE文字。如果設(shè)置了UNICODE(re.U)標志,匹配數(shù)字下劃線和Unicode字符集里的字符。

那么Python3了:

對于 Unicode (str) 樣式:

匹配Unicode詞語的字符,包含了可以構(gòu)成詞語的絕大部分字符,也包括數(shù)字和下劃線。如果設(shè)置了 ASCII 標志,就只匹配 [a-zA-Z0-9_] 。

對于8位(bytes)樣式:

匹配ASCII字符中的數(shù)字和字母和下劃線,就是 [a-zA-Z0-9_] 。如果設(shè)置了 LOCALE 標記,就匹配當前語言區(qū)域的數(shù)字和字母和下劃線。

到此,我明白了,默認情況下,不設(shè)置任何標志,Python2 \w匹配ASCII字符集里的字符,包括數(shù)字字符和下劃線,Python3 \w匹配數(shù)字下劃線和Unicode字符集。所以,為了遷移方便,如果你想匹配ASCII字符集里的字符,指定標志為re.A,如果你想匹配Unicode字符集里的字符,指定標志為re.U。

總結(jié)

到此,我的問題是徹底解決了,但也有兩個教訓:

看網(wǎng)上的教程要多注意,特別是教程里的環(huán)境和自己環(huán)境的區(qū)別

多看官方文檔

關(guān)于Python2和Python3,還有很多區(qū)別,這里就不一一列舉了,歡迎大家留言討論。

總結(jié)

以上是生活随笔為你收集整理的python为什么这么小_同样是 Python,怎么区别这么大的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。