python如何去掉字符串‘\xa0’
生活随笔
收集整理的這篇文章主要介紹了
python如何去掉字符串‘\xa0’
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
擼了今年阿里、頭條和美團(tuán)的面試,我有一個重要發(fā)現(xiàn).......>>>
在用爬蟲爬取網(wǎng)頁信息時(shí),在網(wǎng)頁源碼中遇到了“ "字符串,經(jīng)查閱,發(fā)現(xiàn)該字符是不間斷空格符。我們通常所用的空格是 \x20 ,是在標(biāo)準(zhǔn)ASCII可見字符 0x20~0x7e 范圍內(nèi)。而 \xa0 屬于 latin1 (ISO/IEC_8859-1)中的擴(kuò)展字符集字符,代表空白符nbsp(non-breaking space)。 latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。
解決方法:
>>> s = '09月27日\xa0發(fā)布' >>> s = "".join(s.split()) >>> s '09月27日發(fā)布' >>>注:
join()方法:?
join(): 連接字符串?dāng)?shù)組。將字符串、元組、列表中的元素以指定的字符(分隔符)連接生成一個新的字符串。
split():split方法中不帶參數(shù)時(shí),表示分割所有換行符、制表符、空格。
總結(jié)
以上是生活随笔為你收集整理的python如何去掉字符串‘\xa0’的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: awk 处理json
- 下一篇: websocket python爬虫_p