日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

读《数学之美》第四章 谈谈分词

發(fā)布時(shí)間:2023/12/2 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读《数学之美》第四章 谈谈分词 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

中文分詞其實(shí)有點(diǎn)像古代的句讀(dou),韓愈的《師說(shuō)》中就有:“彼童子之師,授之書(shū)而習(xí)其句讀者也”。古人文章是沒(méi)有標(biāo)點(diǎn)符號(hào)的,行文一氣呵成。如果不懂離經(jīng)斷句,就很難理解古文的意思。從某種程度上,句讀就類似今天要講的中文分詞。

北京航空航天大學(xué)的梁南元教授提出了查字典的方法

查字典的方法就是把句子從左到右掃描一遍,遇到字典里有的詞就標(biāo)示出來(lái),遇到不認(rèn)識(shí)的字串就分割為單字詞。如果分割出的詞與后面的字不會(huì)組成更長(zhǎng)的詞,那么分割點(diǎn)就最終確定了。這種最簡(jiǎn)單的方法可以解決七八層以上的分詞問(wèn)題,在不太復(fù)雜的前提下,取得了還算滿意的效果。

20世紀(jì)80年代哈爾濱工業(yè)大學(xué)的王曉龍博士將查字典的方法理論化,發(fā)展成最少詞數(shù)的分詞理論,即一句話應(yīng)該分成數(shù)量最少的詞串。但是并非所有最長(zhǎng)匹配都是正確的,語(yǔ)言的歧義性是分詞的最大難題。

1990年清華電子工程系的郭進(jìn)博士率先使用統(tǒng)計(jì)語(yǔ)言模型成功解決分詞二義性問(wèn)題,將漢語(yǔ)分詞錯(cuò)誤率降低了一個(gè)數(shù)量級(jí)。最為簡(jiǎn)單的思考是有N中分詞所得,統(tǒng)計(jì)各種分詞結(jié)果出現(xiàn)的概率,選擇最大概率的分詞結(jié)果作為最好的分詞方法。這里有一個(gè)實(shí)現(xiàn)技巧,如果窮舉所有分詞結(jié)果,顯然會(huì)導(dǎo)致計(jì)算量大增。因此,可以看成一個(gè)動(dòng)態(tài)規(guī)劃問(wèn)題,利用維特比算法快速找到最佳分詞。這樣就可以構(gòu)造分詞器:輸入字串,輸出分詞字串,中間需要詞典和語(yǔ)言模型作為輔助。

清華大學(xué)郭茂松教授解決了沒(méi)有詞典時(shí)的分詞問(wèn)題;香港科技大學(xué)吳德凱教授較早將中文分詞方法用于英文詞組的分割,并將英文詞組和中文詞組在機(jī)器翻譯時(shí)對(duì)應(yīng)起來(lái)。

另外,對(duì)于平板電腦和智能手機(jī)的出現(xiàn),英文手寫(xiě)體中的分詞常常是需要的,因此,中文分詞方法可以幫助判別英語(yǔ)單詞的邊界。

衡量分詞的結(jié)果可以采用分詞的一致性;人工分詞產(chǎn)生的原因主要在于人們對(duì)詞的顆粒度認(rèn)識(shí)問(wèn)題。解決辦法可以構(gòu)建一個(gè)基本詞表和復(fù)合詞表,不斷豐富完善復(fù)合詞表,會(huì)將分詞器的明顯錯(cuò)誤得以改進(jìn)。

************************

2015-8-7

轉(zhuǎn)載于:https://www.cnblogs.com/huty/p/8519263.html

總結(jié)

以上是生活随笔為你收集整理的读《数学之美》第四章 谈谈分词的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。