你真的知道Python的字符串是什么吗?
在《詳解Python拼接字符串的七種方式》這篇推文里,我提到過(guò),字符串是程序員離不開(kāi)的事情。后來(lái),我看到了一個(gè)英文版本的說(shuō)法:
There are few guarantees in life: death, taxes, and programmers needing to deal with strings.它竟然把程序員處理字符串跟死亡大事并列了,可見(jiàn)這是多么命中注定......
回頭看其它文章,我發(fā)現(xiàn)這種說(shuō)法得到了佐證,因?yàn)槲以跓o(wú)意中已零零碎碎地提及了字符串的很多方面,例如:字符串讀寫(xiě)文件、字符串打印、字符串不可變性、字符串Intern機(jī)制、字符串拼接、是否會(huì)取消字符串,等等。而這些,還只能算字符串面目的冰山一角。
既然如此,那干脆再單獨(dú)寫(xiě)寫(xiě)Python的字符串吧。這篇內(nèi)容可能會(huì)很基(li)礎(chǔ)(lun),并不是什么“騷操作”或“冷知識(shí)”,權(quán)當(dāng)是一份溫故而求知新的筆記。
1 Python字符串是什么?
根據(jù)維基百科定義:字符串是由零個(gè)或多個(gè)字符組成的有限序列。而在Python 3中,它有著更明確的意思:字符串是由Unicode碼點(diǎn)組成的不可變序列(Strings are immutable sequences of Unicode code points.)
字符串是一種序列,這意味著它具備序列類(lèi)型都支持的操作:
# 以下的s、t皆表示序列,x表示元素 x in s # 若s包含x,返回True,否則返回False x not in s # 若s包含x,返回False,否則返回True s + t # 連接兩個(gè)序列 s * n # s復(fù)制n次 s[i] # s的索引第i項(xiàng) s[i:j] # s切片從第i項(xiàng)到第j-1項(xiàng) s[i:j:k] # s切片從第i項(xiàng)到第j-1項(xiàng),間隔為k len(s) # s的長(zhǎng)度 min(s) # s的最小元素 max(s) # s的最大元素 s.index(x) # x的索引位置 s.count(x) # s中出現(xiàn)x的總次數(shù)字符串序列還具備一些特有的操作,限于篇幅,按下不表。預(yù)告一下,下一篇《你真的知道Python的字符串怎么用嗎? 》將會(huì)展開(kāi)介紹,敬請(qǐng)期待......
字符串序列是一種不可變序列,這意味著它不能像可變序列一能,進(jìn)行就地修改。例如,在字符串“Python”的基礎(chǔ)上拼接“Cat”,得到字符串“PythonCat”,新的字符串是一個(gè)獨(dú)立的存在,它與基礎(chǔ)字符串“Python”并沒(méi)有關(guān)聯(lián)關(guān)系。
basename = "Python" myname = basename + "Cat" id(basename) == id(myname) >>> False# 作為對(duì)比,列表能就地修改 baselist = ["Python"] baselist.append("Cat") print(baselist) >>> ['Python', 'Cat']字符串這種序列與其它序列(如列表、元組)的不同之處在于,它的“元素”限定了只能是Unicode碼點(diǎn)。Unicode碼點(diǎn)是什么呢?簡(jiǎn)單理解,就是用Unicode編碼的字符。那字符是什么呢?字符是人類(lèi)書(shū)寫(xiě)系統(tǒng)的各類(lèi)符號(hào),例如阿拉伯?dāng)?shù)字、拉丁字母、中文、日文、藏文、標(biāo)點(diǎn)符號(hào)、控制符號(hào)(換行符、制表符等)、其它特殊符號(hào)(@#¥%$*等等)。那Unicode編碼又是什么呢?Unicode別名是萬(wàn)國(guó)碼、國(guó)際碼,它是一種適用性最廣的、將書(shū)寫(xiě)字符編碼為計(jì)算機(jī)數(shù)字的標(biāo)準(zhǔn)。
總所周知,在最底層的計(jì)算機(jī)硬件世界里,只有0和1。那么,怎么用這個(gè)二進(jìn)制數(shù)字,來(lái)表示人類(lèi)的文化性的字符呢?這些字符數(shù)量龐大,而且還在日益增長(zhǎng)與變化,什么樣的編碼方案才是最靠譜的呢?
歷史上,人類(lèi)創(chuàng)造了多種多樣的字符編碼標(biāo)準(zhǔn),例如ASCII(1963年)編碼,以西歐語(yǔ)言的字符為主,它的缺點(diǎn)是只能編碼128個(gè)字符;例如GB2312(1981年),這是中國(guó)推出的編碼標(biāo)準(zhǔn),在兼容ASCII標(biāo)準(zhǔn)的基礎(chǔ)上,還加入了對(duì)日文、俄文等字符的編碼,但缺點(diǎn)仍是編碼范圍有限,無(wú)法表示古漢語(yǔ)、繁體字及更多書(shū)寫(xiě)系統(tǒng)的字符。
Unicode編碼標(biāo)準(zhǔn)于1991年推出,至今迭代到了第11版,已經(jīng)能夠編碼146個(gè)書(shū)寫(xiě)系統(tǒng)的130000個(gè)字符,可謂是無(wú)所不包,真不愧是“國(guó)際碼”。Unicode編碼其實(shí)是一個(gè)二進(jìn)制字符集,它建立了從書(shū)寫(xiě)字符映射成唯一的數(shù)字字符的關(guān)系,但是,由于各系統(tǒng)平臺(tái)對(duì)字符的理解差異,以及出于節(jié)省空間的考慮,Unicode編碼還需要再做一次轉(zhuǎn)換,轉(zhuǎn)換后的新的二進(jìn)制數(shù)字才能作為實(shí)際存儲(chǔ)及網(wǎng)絡(luò)傳輸時(shí)的編碼。
這種轉(zhuǎn)換方式被稱(chēng)為Unicode轉(zhuǎn)換格式(Unicode Transformation Format,簡(jiǎn)稱(chēng)為UTF),它又細(xì)分為UTF-8、UTF-16、UTF-32等等方式。我們最常用的是UTF-8。為什么UTF-8最常用呢?因?yàn)樗强勺冮L(zhǎng)度的編碼方案,針對(duì)不同的字符使用不同的字節(jié)數(shù)來(lái)編碼,例如編碼英文字母時(shí),只需要一個(gè)字節(jié)(8個(gè)比特),而編碼較復(fù)雜的漢字時(shí),就會(huì)用到三個(gè)字節(jié)(24個(gè)比特)。
二進(jìn)制的編碼串可以說(shuō)是給機(jī)器閱讀的,為了方便,我們通常會(huì)將其轉(zhuǎn)化為十六進(jìn)制,例如“中”字的Unicode編碼可以表示成0x4e2d ,其UTF-8編碼可以表示為0xe4b8ad ,'0x'用于開(kāi)頭表示十六進(jìn)制,這樣就簡(jiǎn)潔多了。不過(guò),UTF-8編碼的結(jié)果會(huì)被表示成以字節(jié)為單位的形式,例如“中”字用UTF-8編碼后的字節(jié)形式是\xe4\xb8\xad 。
Python中為了區(qū)分Unicode編碼與字節(jié)碼,分別在開(kāi)頭加“u”和“b”以示區(qū)分。在Python 3中,因?yàn)閁nicode成了默認(rèn)編碼格式,所以“u”被省略掉了。
# 字符轉(zhuǎn)Unicode編碼 # Python3中,開(kāi)頭的u被省略,b不可省略 hex(ord('中')) >>> '0x4e2d' hex(ord('A')) >>> '0x41'# 字符轉(zhuǎn)UTF-8編碼(encode) '中'.encode('utf-8') >>> b'\xe4\xb8\xad' 'A'.encode('utf-8') >>> b'A'# Unicode編碼還原成字符 chr(0x4e2d) >>> '中' chr(0x41) >>> 'A'# UTF-8編碼還原成字符(decode) b'\xe4\xb8\xad'.decode('utf-8') >>> '中' b'A'.decode('utf-8') >>> 'A'總結(jié)一下,Python 3 中的字符串是由Unicode碼點(diǎn)組成的不可變序列,也即是,由采用Unicode標(biāo)準(zhǔn)編碼的字符組成的不可變序列。Unicode編碼將書(shū)寫(xiě)系統(tǒng)的字符映射成了計(jì)算機(jī)二進(jìn)制數(shù)字,為了方便,通常顯示為十六進(jìn)制;在運(yùn)算內(nèi)存中,字符以Unicode編碼呈現(xiàn),當(dāng)寫(xiě)入磁盤(pán)或用于網(wǎng)絡(luò)傳輸時(shí),一般采用UTF-8方式編碼。
在Python 2中,因?yàn)闅v史包袱,即Python先于Unicode編碼而誕生,所以其編碼問(wèn)題是個(gè)大難題。幸好拋棄Python 2已成大勢(shì)所趨,所以我就不再對(duì)此做介紹或比對(duì)了。
2 Python字符串 VS Java字符串
雖然不提縱向版本間的差異,但是,我想將Python字符串與其它編程語(yǔ)言做一個(gè)橫向?qū)Ρ取N矣X(jué)得這會(huì)是挺好玩的事。通過(guò)跨語(yǔ)言的比較,也許我們能加深對(duì)一個(gè)事物(字符串)的理解,還可能受到啟發(fā),得到對(duì)“編程語(yǔ)言”及“編程哲學(xué)”的領(lǐng)悟。
由于本人才疏學(xué)淺,本文就只對(duì)兩點(diǎn)皮毛特性作說(shuō)明,歡迎讀者斧正和補(bǔ)充。
(1)字符串的定義方式
Python的字符串是內(nèi)置類(lèi)型,所以使用起來(lái)很方便,有如下三種定義方式:
str_0 = '''Python字符串可以寫(xiě)在用三引號(hào)對(duì)內(nèi),表示多行字符串。 還可以寫(xiě)在單引號(hào)對(duì)內(nèi), 當(dāng)然還可以寫(xiě)在雙引號(hào)對(duì)內(nèi)。 '''str_1 = 'Python貓是一只貓' str_2 = "Python貓是一個(gè)微信公眾號(hào)"Java的字符串不是內(nèi)置類(lèi)型,它屬于對(duì)象,需要通過(guò)String類(lèi)來(lái)創(chuàng)建。不過(guò),正因?yàn)樽址S?#xff0c;所以Java特意預(yù)定義了一個(gè)字符串類(lèi)String,使得程序員也可以像這樣來(lái)定義:String name = "Python貓"; ,而不必這樣寫(xiě):String name = new String("Python貓"); 。
Java的字符串只能寫(xiě)在雙引號(hào)內(nèi),不具備Python中單雙引號(hào)混用的靈活。至于三引號(hào)的多行字符串表示法,Java程序員表示羨慕得要死,那種痛苦,受過(guò)折磨的人最懂。寫(xiě)出來(lái)讓Python程序員開(kāi)心一下:
String s = "Java 的多行字符串很麻煩,\n"+ "既要使用換行符,\n"+ "還需要使用加號(hào)拼接";為什么Java不支持多行字符串、什么時(shí)候支持多行字符串?此類(lèi)問(wèn)題在Python程序員眼里,可能很費(fèi)解,但它絕對(duì)能排進(jìn)“Java程序員最希望能實(shí)現(xiàn)的特性”的前列。好不容易,官方有計(jì)劃在Java 11 實(shí)現(xiàn),但今年9月發(fā)布的Java 11 仍是沒(méi)有,現(xiàn)在改計(jì)劃到Java 12 了。
(2)單個(gè)字符與字符序列
Java中其實(shí)也有單引號(hào)的使用,用在char類(lèi)型上,例如char c = 'A'; 。char是一種內(nèi)置類(lèi)型,表示單個(gè)用Unicode編碼的字符。Python中沒(méi)有char類(lèi)型,字符串類(lèi)型通吃一切。
前面說(shuō)到,Python的字符串是一種字符序列,而Java的字符串并不是一種序列,要表示相近的概念的話,就得用到字符數(shù)組 或者 字符串?dāng)?shù)組 ,例如:
char[] a = { 'a', 'b', 'c'}; String[] str = new String[]{"1","2","3"};字符數(shù)組和字符串?dāng)?shù)組是一種序列,但并不是字符串,它們之間如果要相互轉(zhuǎn)換,還是挺麻煩的。另外,說(shuō)是序列,但Java的序列操作絕對(duì)無(wú)法跟Python相比,別的不說(shuō),就上面提及的幾個(gè)基礎(chǔ)操作,試問(wèn)Java能否實(shí)現(xiàn)、實(shí)現(xiàn)起來(lái)要花費(fèi)多大力氣?
最后來(lái)個(gè)Ending,關(guān)于“Python字符串到底是什么”就說(shuō)到這啦,希望對(duì)你有所幫助。下次,我再跟大家說(shuō)說(shuō)“Python字符串到底怎么用”,敬請(qǐng)期待。
本文原創(chuàng)并首發(fā)于微信公眾號(hào)【Python貓】,后臺(tái)回復(fù)“愛(ài)學(xué)習(xí)”,免費(fèi)獲得20+本精選電子書(shū)。
拓展閱讀:
https://zh.wikipedia.org/wiki...
https://zh.wikipedia.org/wiki...
https://dwz.cn/AvWg1EDx
https://yiyibooks.cn/xx/pytho...
https://github.com/acmerfight...
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的你真的知道Python的字符串是什么吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 与vnpy相关的有用博客网址
- 下一篇: python学习笔记:(三)list(列