目前国内汉语自动分词系统的研究现状
1、幾個(gè)早期的自動(dòng)分詞系統(tǒng)
自80年代初中文信息處理領(lǐng)域提出了自動(dòng)分詞以來(lái),一些實(shí)用性的分詞系統(tǒng)逐步得以開(kāi)發(fā),其中幾個(gè)比較有代表性的自動(dòng)分詞系統(tǒng)在當(dāng)時(shí)產(chǎn)生了較大的影響。
CDWS分詞系統(tǒng)是我國(guó)第一個(gè)實(shí)用的自動(dòng)分詞系統(tǒng),由北京航空航天大學(xué)計(jì)算機(jī)系于1983年設(shè)計(jì)實(shí)現(xiàn),它采用的自動(dòng)分詞方法為最大匹配法,輔助以詞尾字構(gòu)詞糾錯(cuò)技術(shù)。其分詞速度為5-10字/秒,切分精度約為1/625。
ABWS是山西大學(xué)計(jì)算機(jī)系研制的自動(dòng)分詞系統(tǒng),系統(tǒng)使用 “兩次掃描聯(lián)想-回溯”方法,運(yùn)用了較多的詞法、句法等知識(shí)。其切分正確率為98.6%(不包括非常用、未登錄的專用名詞),運(yùn)行速度為48詞/分鐘。
CASS是北京航空航天大學(xué)于1988年實(shí)現(xiàn)的分詞系統(tǒng)。它使用正向增字最大匹配,運(yùn)用知識(shí)庫(kù)來(lái)處理歧義字段。其機(jī)械分詞速度為200字/秒以上,知識(shí)庫(kù)分詞速度150字/秒(沒(méi)有完全實(shí)現(xiàn))。
書面漢語(yǔ)自動(dòng)分詞專家系統(tǒng)是由北京師范大學(xué)現(xiàn)代教育研究所于1991前后研制實(shí)現(xiàn)的,它首次將專家系統(tǒng)方法完整地引入到分詞技術(shù)中。
2、清華大學(xué)SEG分詞系統(tǒng)
此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分-評(píng)價(jià)切分算法,由用戶來(lái)選擇合適的切分算法。其特點(diǎn)則是帶修剪的全切分-評(píng)價(jià)算法。經(jīng)過(guò)封閉試驗(yàn),在多遍切分之后,全切分-評(píng)價(jià)算法的精度可以達(dá)到99%左右。
3、清華大學(xué)SEGTAG系統(tǒng)
此系統(tǒng)著眼于將各種各類的信息進(jìn)行綜合,以便最大限度地利用這些信息提高切分精度。系統(tǒng)使用有向圖來(lái)集成各種各樣的信息。通過(guò)實(shí)驗(yàn),該系統(tǒng)的切分精度基本上可達(dá)到99%左右,能夠處理未登錄詞比較密集的文本,切分速度約為30字/秒。
4、國(guó)家語(yǔ)委文字所應(yīng)用句法分析技術(shù)的漢語(yǔ)自動(dòng)分詞
此分詞模型考慮了句法分析在自動(dòng)分詞系統(tǒng)中的作用,以更好地解決切分歧義。切詞過(guò)程考慮到了所有的切分可能,并運(yùn)用漢語(yǔ)句法等信息從各種切分可能中選擇出合理的切分結(jié)果。
5、復(fù)旦分詞系統(tǒng)
此系統(tǒng)由四個(gè)模塊構(gòu)成。一、預(yù)處理模塊,利用特殊的標(biāo)記將輸入的文本分割成較短的漢字串,這些標(biāo)記包括標(biāo)點(diǎn)符號(hào)、數(shù)字、字母等非漢字符,還包括文本中常見(jiàn)的一些字體、字號(hào)等排版信息。二、歧義識(shí)別模塊,使用正向最小匹配和逆向最大匹配對(duì)文本進(jìn)行雙向掃描,如果兩種掃描結(jié)果相同,則認(rèn)為切分正確,否則就判別其為歧義字段,需要進(jìn)行歧義處理;三、歧義字段處理模塊,此模塊使用構(gòu)詞規(guī)則和詞頻統(tǒng)計(jì)信息來(lái)進(jìn)行排歧。最后,此系統(tǒng)還包括一個(gè)未登錄詞識(shí)別模塊,實(shí)驗(yàn)過(guò)程中,對(duì)中文姓氏的自動(dòng)辨別達(dá)到了70%的準(zhǔn)確率。系統(tǒng)對(duì)文本中的地名和領(lǐng)域?qū)S性~匯也進(jìn)行了一定的識(shí)別。
6、哈工大統(tǒng)計(jì)分詞系統(tǒng)
此系統(tǒng)能夠利用上下文識(shí)別大部分生詞,解決一部分切分歧義。經(jīng)測(cè)試,此系統(tǒng)的分詞錯(cuò)誤率為1.5%,速度為236字/秒。
7、杭州大學(xué)改進(jìn)的MM分詞系統(tǒng)
系統(tǒng)的詞典采用一級(jí)首字索引結(jié)構(gòu),詞條中包括了“非連續(xù)詞”(形如C1…* Cn)。系統(tǒng)精度的實(shí)驗(yàn)結(jié)果為95%,低于理論值99.73%,但高于通常的MM、RMM、DMM方法。
8、Microsoft Research 漢語(yǔ)句法分析器中的自動(dòng)分詞
微軟研究院的自然語(yǔ)言研究所在從90年代初開(kāi)始開(kāi)發(fā)了一個(gè)通用型的多國(guó)語(yǔ)言處理平臺(tái)NLPWin,據(jù)報(bào)道,NLPWin的語(yǔ)法分析部分使用的是一種雙向的Chart Parsing,使用了語(yǔ)法規(guī)則并以概率模型作導(dǎo)向,并且將語(yǔ)法和分析器獨(dú)立開(kāi)。 實(shí)驗(yàn)結(jié)果表明,系統(tǒng)可以正確處理85%的歧義切分字段,在Pentium 200 PC上的速度約600-900字/秒。
9、北大計(jì)算語(yǔ)言所分詞系統(tǒng)
本系統(tǒng)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制開(kāi)發(fā),屬于分詞和詞類標(biāo)注相結(jié)合的分詞系統(tǒng)。系統(tǒng)的分詞連同標(biāo)注的速度在Pentium 133Hz/16MB內(nèi)存機(jī)器上的達(dá)到了每秒3千詞以上,而在Pentium II/64MB內(nèi)存機(jī)器上速度高達(dá)每秒5千詞。
人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的未來(lái)發(fā)展值得重視,均為前沿產(chǎn)業(yè),多智時(shí)代專注于人工智能和大數(shù)據(jù)的入門和科譜,在此為你推薦幾篇優(yōu)質(zhì)好文:
現(xiàn)代漢語(yǔ)文本的自動(dòng)分詞算法和基本概念,都在這里了
http://www.duozhishidai.com/article-4170-1.html
1.人工智能時(shí)代,AI人才都有哪些特征?
http://www.duozhishidai.com/article-1792-1.html
2.大數(shù)據(jù)攜手人工智能,高校人才培養(yǎng)面臨新挑戰(zhàn)
http://www.duozhishidai.com/article-7555-1.html
多智時(shí)代-人工智能和大數(shù)據(jù)學(xué)習(xí)入門網(wǎng)站|人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算的學(xué)習(xí)交流網(wǎng)站
總結(jié)
以上是生活随笔為你收集整理的目前国内汉语自动分词系统的研究现状的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 不禁网页的浏览器_网页游戏兴衰史:「农场
- 下一篇: ISO 20088耐低温泄漏的测定_IS