python判断字符串包含中文_查询字符串中是否包含中文字符(Python实现)
Unicode 是全球文字統(tǒng)一編碼。它把世界上的各種文字的每一個(gè)字符指定唯一編碼,實(shí)現(xiàn)跨語(yǔ)種、跨平臺(tái)的應(yīng)用。
中文用戶(hù)最常接觸的是漢字 Unicode 編碼。中文字符數(shù)量巨大,日常使用的漢字?jǐn)?shù)量有數(shù)千個(gè),再加上生僻字,數(shù)量達(dá)到數(shù)萬(wàn)個(gè)。下面這個(gè)表格將中文字符集的 Unicode 編碼范圍列出:
字符集
字?jǐn)?shù)
Unicode編碼范圍基本漢字
20902
4E00-9FA5
基本漢字補(bǔ)充
74
9FA6-9FEF
擴(kuò)展A
6582
3400-4DB5
擴(kuò)展B
42711
20000-2A6D6
擴(kuò)展C
4149
2A700-2B734
擴(kuò)展D
222
2B740-2B81D
擴(kuò)展E
5762
2B820-2CEA1
擴(kuò)展F
7473
2CEB0-2EBE0
擴(kuò)展G
4939
30000-3134A
康熙部首
214
2F00-2FD5
部首擴(kuò)展
115
2E80-2EF3
兼容漢字
477
F900-FAD9
兼容擴(kuò)展
542
2F800-2FA1D
PUA(GBK)部件
81
E815-E86F
部件擴(kuò)展
452
E400-E5E8
PUA增補(bǔ)
207
E600-E6CF
漢字筆畫(huà)
36
31C0-31E3
漢字結(jié)構(gòu)
12
2FF0-2FFB
漢語(yǔ)注音
43
3105-312F
注音擴(kuò)展
22
31A0-31BA
〇
1
3007
根據(jù)上述字符范圍,可以編寫(xiě)以下函數(shù),識(shí)別給定字符串是否含義中文字符。
# coding=utf-8
import?re
def?containChinese(content):
"""?判斷內(nèi)容是否含有中文字符
Arguments:
content?{string}?--?要檢測(cè)的內(nèi)容
Returns:
[bool]?--?是否包含中文
"""
zh_pattern?=?re.compile(
u'([\u4E00-\u9FA5]|[\u9FA6-\u9FEF]|[\u3400-\u4DB5]|[\U00020000-\U0002A6D6]|[\U0002A700-\U0002B734]|[\U0002B740-\U0002B81D]|[\U0002B820-\U0002CEA1]|[\U0002CEB0-\U0002EBE0]|[\U00030000-\U0003134A]|[\u2F00-\u2FD5]|[\u2E80-\u2EF3]|[\uF900-\uFAD9]|[\U0002F800-\U0002FA1D]|[\uE815-\uE86F]|[\uE400-\uE5E8]|[\uE600-\uE6CF]|[\u31C0-\u31E3]|[\u2FF0-\u2FFB]|[\u3105-\u312F]|[\u31A0-\u31BA]|[\u3007])+'
)
match?=?zh_pattern.search(content)
return?match?is?not?None
a = '中文abcs短語(yǔ)'
print(containChinese(a)) # True
b = 'abcd'
print(containChinese(b)) # False
總結(jié)
以上是生活随笔為你收集整理的python判断字符串包含中文_查询字符串中是否包含中文字符(Python实现)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 估计的商是什么意思_商是什么意思,商的繁
- 下一篇: 随机画五十个圆python_随拼音,随部