日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

用python进行精细中文分句(基于正则表达式)

發布時間:2024/3/13 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用python进行精细中文分句(基于正则表达式) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??????中文分句,乍一看是一個挺簡單的工作,一般我們只要找到一個【。!?】這類的典型斷句符斷開就可以了嗎。
??????對于簡單的文本這個做法是已經可行了(比如我看到這篇文章里有個簡潔的實現方法:自然語言處理學習3:中文分句re.split(),jieba分詞和詞頻統計FreqDist)

?????? 然而當我處理小說文本時,發現了這種思路的漏洞:

  • 對于有雙引號的句子,分句結果應該延后到雙引號結束后,比如:

玄德幼時,與鄉中小兒戲于樹下,曰:“我為天子,當乘此車蓋。”

  • 省略號也是常見的句子分隔符,然而它超過了一個字符,用re.split()的方法就略有不便。

所以,這里我提供一個更加精細的解決方法,可以解決上面的問題:

# 版本為python3,如果為python2需要在字符串前面加上u import re def cut_sent(para):para = re.sub('([。!?\?])([^”’])', r"\1\n\2", para) # 單字符斷句符para = re.sub('(\.{6})([^”’])', r"\1\n\2", para) # 英文省略號para = re.sub('(\…{2})([^”’])', r"\1\n\2", para) # 中文省略號para = re.sub('([。!?\?][”’])([^,。!?\?])', r'\1\n\2', para)# 如果雙引號前有終止符,那么雙引號才是句子的終點,把分句符\n放到雙引號后,注意前面的幾句都小心保留了雙引號para = para.rstrip() # 段尾如果有多余的\n就去掉它# 很多規則中會考慮分號;,但是這里我把它忽略不計,破折號、英文雙引號等同樣忽略,需要的再做些簡單調整即可。return para.split("\n")

檢驗效果

處理數據時,除了分句可能還要先清洗特殊的數據格式,如微博,HTML代碼,URL,Email等,所以我將一批常用的數據預處理和清洗操作都整合進了我開發的HarvestText庫(https://github.com/blmoistawinde/HarvestText)中,簡化大家的數據分析流程,歡迎試用~

總結

以上是生活随笔為你收集整理的用python进行精细中文分句(基于正则表达式)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。