日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词_中文分词最佳纪录刷新,两大模型分别解决中文分词及词性标注问题...

發(fā)布時間:2025/4/5 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词_中文分词最佳纪录刷新,两大模型分别解决中文分词及词性标注问题... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

伊瓢 發(fā)自 中關(guān)村
量子位 報道 | 公眾號 QbitAI

中文分詞的最佳效果又被刷新了。

在今年的ACL 2020上,來自創(chuàng)新工場大灣區(qū)人工智能研究院的兩篇論文中的模型,刷新了這一領(lǐng)域的成績。

WMSeg,在MSR、PKU、AS、CityU、CTB6這5個數(shù)據(jù)集上的表現(xiàn),均達了最好的成績。

另外,在詞性標(biāo)注方面,TwASP模型同樣刷新了成績。

中文分詞的SOTA

中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符)。

中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由于中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞。“他從小學(xué)電腦技術(shù)”,正確的分詞是:他/從小/學(xué)/電腦技術(shù),但也存在“小學(xué)”這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過程中沒有遇見過的詞。例如經(jīng)濟、醫(yī)療、科技等科學(xué)領(lǐng)域的專業(yè)術(shù)語或者社交媒體上的新詞,或者是人名。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。

對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

該模型利用n元組(即一個由連續(xù)n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構(gòu)詞能力,通過加(降)權(quán)重實現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表,實現(xiàn)對特定領(lǐng)域的未標(biāo)注文本的利用,進而提升對未登錄詞的識別。

例如,在“部分居民生活水平”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。

“民” → 單字詞“居民” → 詞尾“民生”→ 詞首“居民生活” → 詞中

把這些可能成詞的組合全部找到以后,加入到該分詞模型中。通過神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)哪些詞對于最后完整表達句意的幫助更大,進而分配不同的權(quán)重。像“部分”、“居民”、“生活”、“水平”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權(quán)處理,從而預(yù)測出正確的結(jié)果。

△ 鍵-值記憶神經(jīng)網(wǎng)絡(luò)分詞模型

在“他從小學(xué)電腦技術(shù)” 這句話中,對于有歧義的部分“從小學(xué)”(有“從/小學(xué)”和“從小/學(xué)”兩種分法),該模型能夠?qū)Α皬男 焙汀皩W(xué)”分配更高的權(quán)重,而對錯誤的n元組——“小學(xué)”分配較低的權(quán)重。

為了檢驗該模型的分詞效果,論文進行了嚴(yán)格的標(biāo)準(zhǔn)實驗和跨領(lǐng)域?qū)嶒灐?/p>

實驗結(jié)果顯示,該模型在5個數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表現(xiàn),均達了最好的成績。

創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥表示,與前人的模型進行比較發(fā)現(xiàn),該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過了之前的工作,“把中文分詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高。”

在跨領(lǐng)域?qū)嶒炛?#xff0c;論文使用網(wǎng)絡(luò)博客數(shù)據(jù)集(CTB7)測試。實驗結(jié)果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

△ 跨領(lǐng)域分詞實驗(網(wǎng)絡(luò)博客測試集)的結(jié)果

解決“噪音”問題

《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》論文提供了一種基于雙通道注意力機制的分詞及詞性標(biāo)注模型。

中文分詞和詞性標(biāo)注是兩個不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中,給每一個詞標(biāo)注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標(biāo)注對后續(xù)的句子理解有重要的作用。

在詞性標(biāo)注中,歧義仍然是個老大難的問題。例如,對于“他要向全班同學(xué)報告書上的內(nèi)容”中,“報告書”的正確的切分和標(biāo)注應(yīng)為“報告_VV/書_N”。但由于“報告書”本身也是一個常見詞,一般的工具可能會將其標(biāo)注為“報告書_NN”。

△ 利用句法知識進行正確的詞性標(biāo)注

句法標(biāo)注本身需要大量的時間和人力成本。在以往的標(biāo)注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別并正確處理帶有雜音的句法知識,很可能會被不準(zhǔn)確的句法知識誤導(dǎo),做出錯誤的預(yù)測。

例如,在句子“他馬上功夫很好”中,“馬”和“上”應(yīng)該分開(正確的標(biāo)注應(yīng)為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準(zhǔn)確的切分及句法關(guān)系,如“馬上”。

針對這一問題,該論文提出了一個基于雙通道注意力機制的分詞及詞性標(biāo)注模型。該模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán),預(yù)測每個字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進行比較、加權(quán),從而識別特定語境下不同上下文特征和句法知識的貢獻。

這樣一來,那些不準(zhǔn)確的,對模型預(yù)測貢獻小的上下文特征和句法知識就能被識別出來,并被分配小的權(quán)重,從而避免模型被這些有噪音的信息誤導(dǎo)。

△ 基于“雙通道注意力機制”的分詞及詞性標(biāo)注

即便在自動獲取的句法知識不準(zhǔn)確的時候,該模型仍能有效識別并利用這種知識。例如,將前文有歧義、句法知識不準(zhǔn)確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型后,便得到了正確的分詞和詞性標(biāo)注結(jié)果。

△ 分詞及詞性標(biāo)注實例

為了測試該模型的性能,論文在一般領(lǐng)域和跨領(lǐng)域分別進行了實驗。

一般領(lǐng)域?qū)嶒灲Y(jié)果顯示,該模型在5個數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(xiàn)(F值)均超過前人的工作,也大幅度超過了斯坦福大學(xué)的 CoreNLP 工具,和伯克利大學(xué)的句法分析器。

即使是在與CTB詞性標(biāo)注規(guī)范不同的UD數(shù)據(jù)集中,該模型依然能吸收不同標(biāo)注帶來的知識,并使用這種知識,得到更好的效果。

△ CTB5(CTB5是使用最多的中文分詞和詞性標(biāo)注的數(shù)據(jù)集)結(jié)果

而在跨領(lǐng)域的實驗中,和斯坦福大學(xué)的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

△ 跨領(lǐng)域分詞實驗(對話測試集)的結(jié)果

創(chuàng)新工場出品

兩篇論文的第一作者,是華盛頓大學(xué)博士研究生、創(chuàng)新工場實習(xí)生田元賀。

他的老師創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長、華盛頓大學(xué)客座教授宋彥,此前也是騰訊AI Lab專家(首席)研究員。

傳送門

Improving Chinese Word Segmentation with Wordhood Memory Networks作者:Yuanhe Tian, Yan Song, Fei Xia, Tong Zhang, Yonggang Wang論文地址:https://www.aclweb.org/anthology/2020.acl-main.734/GitHub:https://github.com/SVAIGBA/WMSeg

Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge作者:Yuanhe Tian, Yan Song, Xiang Ao, Fei Xia, Xiaojun Quan, Tong Zhang, Yonggang Wang論文地址:https://www.aclweb.org/anthology/2020.acl-main.735/GitHub:https://github.com/SVAIGBA/TwASP

—完—
@量子位 · 追蹤AI技術(shù)和產(chǎn)品新動態(tài)
深有感觸的朋友,歡迎贊同、關(guān)注、分享三連?'?' ? ?

總結(jié)

以上是生活随笔為你收集整理的中文分词_中文分词最佳纪录刷新,两大模型分别解决中文分词及词性标注问题...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。