日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python去除特殊字符_python去除BOM头\ufeff等特殊字符

發布時間:2023/12/10 python 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python去除特殊字符_python去除BOM头\ufeff等特殊字符 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.\ufeff 字節順序標記

去掉\ufeff,只需改一下編碼就行,把UTF-8編碼改成UTF-8-sig

with open(file_path, mode='r', encoding='UTF-8-sig') as f:

s = f.read()

2.\xa0 是不間斷空白符

\xa0 是不間斷空白符 ?

我們通常所用的空格是 \x20 ,是在標準ASCII可見字符 0x20~0x7e 范圍內。

而 \xa0 屬于 latin1 (ISO/IEC_8859-1)中的擴展字符集字符,代表空白符nbsp(non-breaking space)。

latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我們見到的字符多數是 latin1 的,比如在 MySQL 數據庫中。

去除\xa0

str.replace(u'\xa0', u' ')

3.\u3000 是全角的空白符

根據Unicode編碼標準及其基本多語言面的定義, \u3000 屬于CJK字符的CJK標點符號區塊內,是空白字符之一。它的名字是 Ideographic Space ,有人譯作表意字空格、象形字空格等。顧名思義,就是全角的 CJK 空格。它跟 nbsp 不一樣,是可以被換行間斷的。常用于制造縮進, wiki 還說用于抬頭,但沒見過。

去除\u3000

str.replace(u'\u3000',u' ')

去除空格和\xa0、\u3000

title.strip().replace(u'\u3000', u' ').replace(u'\xa0', u' ')

總結

以上是生活随笔為你收集整理的python去除特殊字符_python去除BOM头\ufeff等特殊字符的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。