日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python把中文转英文_Python 3.0_文本清洗之中文特殊符号转英文特殊符号及全角字符转半角字符...

發布時間:2024/10/8 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python把中文转英文_Python 3.0_文本清洗之中文特殊符号转英文特殊符号及全角字符转半角字符... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在文本清洗的過程,特殊符號的不規范是比較麻煩的事情,所以需要把文本中的特殊符號按照統一的標準處理。以下代碼的作用就是將中文的特殊符號統一轉成英文的,以及將全角符號轉換成半角符號。參考代碼# -*- coding: GBK -*-

import re

def strQ2B(ustring):

"""中文特殊符號轉英文特殊符號"""

#中文特殊符號批量識別

pattern = re.compile('[,。:“”【】《》?;、()‘’『』「」﹃﹄〔〕—·]')

#re.compile: 編譯一個正則表達式模式,返回一個模式(匹配模式)對象。

#[...]用于定義待轉換的中文特殊符號字符集

fps = re.findall(pattern, ustring)

#re.findall: 搜索string,以列表形式返回全部能匹配的子串。

#對有中文特殊符號的文本進行符號替換

if len(fps) > 0:

ustring = ustring.replace(',', ',')

ustring = ustring.replace('。', '.')

ustring = ustring.replace(':', ':')

ustring = ustring.replace('“', '"')

ustring = ustring.replace('”', '"')

ustring = ustring.replace('【', '[')

ustring = ustring.replace('】', ']')

ustring = ustring.replace('《', '<')

ustring = ustring.replace('》', '>')

ustring = ustring.replace('?', '?')

ustring = ustring.replace(';', ':')

ustring = ustring.replace('、', ',')

ustring = ustring.replace('(', '(')

ustring = ustring.replace(')', ')')

ustring = ustring.replace('‘', "'")

ustring = ustring.replace('’', "'")

ustring = ustring.replace('’', "'")

ustring = ustring.replace('『', "[")

ustring = ustring.replace('』', "]")

ustring = ustring.replace('「', "[")

ustring = ustring.replace('」', "]")

ustring = ustring.replace('﹃', "[")

ustring = ustring.replace('﹄', "]")

ustring = ustring.replace('〔', "{")

ustring = ustring.replace('〕', "}")

ustring = ustring.replace('—', "-")

ustring = ustring.replace('·', ".")

"""全角轉半角"""

#轉換說明:

#全角字符unicode編碼從65281~65374 (十六進制 0xFF01 ~ 0xFF5E)

#半角字符unicode編碼從33~126 (十六進制 0x21~ 0x7E)

#空格比較特殊,全角為 12288(0x3000),半角為 32(0x20)

#除空格外,全角/半角按unicode編碼排序在順序上是對應的(半角 + 0x7e= 全角),所以可以直接通過用+-法來處理非空格數據,對空格單獨處理。

rstring = ""

for uchar in ustring:

inside_code = ord(uchar)

if inside_code == 12288: #全角空格直接轉換

inside_code = 32

elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根據關系轉化

inside_code -= 65248

rstring += chr(inside_code)

return rstring測試代碼if __name__ == "__main__":

str = '這是一個,【個人】deboke'

str_q2b = strQ2B(str)

print(str)

print(str_q2b)測試結果

參考鏈接:

總結

以上是生活随笔為你收集整理的python把中文转英文_Python 3.0_文本清洗之中文特殊符号转英文特殊符号及全角字符转半角字符...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。