自然语言处理-错字识别(基于Python)kenlm、pycorrector
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理-错字识别(基于Python)kenlm、pycorrector
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
轉(zhuǎn)載請(qǐng)注明出處:https://blog.csdn.net/HHTNAN
n元分詞法參見(jiàn):https://blog.csdn.net/HHTNAN/article/details/62046652
關(guān)于kenlm統(tǒng)計(jì)語(yǔ)言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本糾錯(cuò)劃分
中文文本糾錯(cuò)任務(wù),常見(jiàn)錯(cuò)誤類型包括:
- 諧音字詞,如 配副眼睛-配副眼鏡
- 混淆音字詞,如 流浪織女-牛郎織女
- 字詞順序顛倒,如 伍迪艾倫-艾倫伍迪
- 字詞補(bǔ)全,如愛(ài)有天意-假如愛(ài)有天意
- 形似字錯(cuò)誤,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音縮寫(xiě),如 sz-深圳
- 語(yǔ)法錯(cuò)誤,如想象難以-難以想象
當(dāng)然,針對(duì)不同業(yè)務(wù)場(chǎng)景,這些問(wèn)題并不一定全部存在,比如輸入法中需要處理前四種,搜索引擎需要處理所有類型,語(yǔ)音識(shí)別后文本糾錯(cuò)只需要處理前兩種, 其中’形似字錯(cuò)誤’主要針對(duì)五筆或者筆畫(huà)手寫(xiě)輸入等。
簡(jiǎn)單總結(jié)了一下中文別字錯(cuò)誤類型:
別字: 感帽,隨然,傳然,嘔土
人名,地名錯(cuò)誤:哈蜜(正:哈密)
拼音錯(cuò)誤:咳數(shù)(ke shu)—> ke sou,
知識(shí)性錯(cuò)誤:廣州黃浦(埔)
總結(jié)
以上是生活随笔為你收集整理的自然语言处理-错字识别(基于Python)kenlm、pycorrector的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [css] 你知道什么是面向对象的cs
- 下一篇: python连接access2007_使