日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文NER涨点神器!基于多元数据的双流Transformer编码模型

發(fā)布時間:2024/10/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文NER涨点神器!基于多元数据的双流Transformer编码模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者?|?寧金忠

學(xué)校?|?大連理工大學(xué)博士生

研究方向?|?信息抽取

本篇論文發(fā)表于 ACL 2021,作者聚焦于中文 NER 任務(wù)。近些年來,在模型中引入詞匯信息已經(jīng)成為提升中文 NER 性能的主流方法。已有的中文 NER 詞增強(qiáng)方式主要通過 lattice 結(jié)構(gòu)在模型中引入詞匯的邊界信息和詞嵌入信息?,F(xiàn)如今我們使用的漢字從古老的象形文字演化而來,漢字中包含的偏旁部首等結(jié)構(gòu)可以代表某些含義。因此,本文的作者提出在模型中融合進(jìn)漢字的結(jié)構(gòu)信息(例如部首等)。

論文標(biāo)題:

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

論文鏈接:

https://aclanthology.org/2021.acl-long.121.pdf

中文詞匯增強(qiáng)回顧

中文 NER 的詞匯增強(qiáng)主要分為兩條路線:

1. Dynamic Architecture:通過動態(tài)結(jié)構(gòu),在模型中注入詞匯信息;

2. Adaptive Embedding:將詞匯信息融合到 Embeding 中。

近些年來各大頂會上的中文 NER 詞匯增強(qiáng)相關(guān)論文總結(jié)如下(參考博文 [1] ):

其具體實(shí)現(xiàn)方法總結(jié)為:

▲ 詞增強(qiáng)NER模型簡介

已有的詞增強(qiáng) NER 模型的性能如下圖所示:

▲ 模型實(shí)驗結(jié)果(表中LEBERT使用的詞表和預(yù)訓(xùn)練詞向量與其他模型不同,結(jié)果在此處僅做參考,詳情見論文)

論文方法介紹

文中作者的主要貢獻(xiàn)為:

  • 在中文 NER 模型中使用了多元數(shù)據(jù)特征(字特征,詞特征以及漢字的結(jié)構(gòu)特征)。

  • 提出了一種能夠?qū)⒆痔卣?、詞特征和部首特征結(jié)合的雙流(two-stream)模型來提高 MECT 方法的性能。

  • 在多個中文 NER 數(shù)據(jù)集上的結(jié)果說明了模型結(jié)果的有效性。

▲ The whole architecture

本文模型的整體架構(gòu)如上圖所示。模型的輸入為中文原始文本,例如圖中所示的“南京市長江大橋”。模型中采用了模型 FLAT 中類似的 encoder 結(jié)構(gòu),從而可以將漢字以及詞匯的語義 & 邊界信息整合到模型當(dāng)中。

▲ FLAT

關(guān)于 FLAT,不了解的小伙伴可以通過該帖子 [1] 進(jìn)行了解。

與 FLAT 中的改進(jìn) Transformer encoder 不同的是,本文的作者提出了一種使用 Cross-Transformer 模塊的 two-stream 模型。作者把漢字和包含漢字的詞語看作一個“元(Meta)”,把每個漢字的包含的字根看做另外一個“元”。之后使用與 Transformer 中類似的自注意力機(jī)制,作者對兩個“元”中的數(shù)據(jù)進(jìn)行雙路的交叉計算相關(guān)性,從而實(shí)現(xiàn)了多元信息的融合。

另外,作者在兩個“元”的自注意力矩陣中加入一個隨機(jī)初始化的注意力矩陣來對多元數(shù)據(jù)之前注意力值的偏差進(jìn)行校正。

2.1 使用CNN提取Radical-level特征

漢字是象形文字,其字形和字義具有非常密切的聯(lián)系。例如,包含“”或者“”的文字通常和植物有關(guān),包含“”的文字通常和疾病有關(guān)。因此,作者采用漢字中包含的字根(Structural Components)的嵌入特征來表達(dá)漢字的結(jié)構(gòu)信息。作者使用的拆分方法是將漢字拆分成無法拆分的最小字根單位(如下圖所示):

▲ 漢字結(jié)構(gòu)信息

之后作者使用如下圖所示的 CNN 網(wǎng)絡(luò)來提取 Radical-level 特征。

作者首先對原始文本中的漢字進(jìn)行拆字,然后把得到的字根特征輸入到 CNN 特征提取器當(dāng)中,然后使用最大值池化和全連接網(wǎng)絡(luò)得到每個漢字的 Radical-level 特征。

2.2 Cross-Transformer模塊

獲取 Radical-level 特征特征后,作者使用 Cross-Transformer 模塊(如下圖所示)來對融合多元數(shù)據(jù)。

模型的輸入 通過詞嵌入特征和 Radical-level 嵌入特征的線性映射得到:

其中, 和 分別是 lattice 嵌入特征和 Radical-level 特征, 為單位矩陣,每一個線性映射矩陣 均為可學(xué)習(xí)參數(shù)。之后,作者使用和 FLAT 模型一樣的相位位置編碼來計算 Cross-Transformer 的注意力矩陣:

其中 是 lattice 注意力得分, 表示部首注意力得分, 為可學(xué)習(xí)參數(shù)。 為相對位置編碼,和 FLAT 中原本的相對位置編碼相比,進(jìn)行了一定的簡化:

2.3 Random Attention & 融合方法

Random Attention 是指在注意力矩陣上加上的一個隨機(jī)初始化的參數(shù)學(xué)習(xí)矩陣:

關(guān)于模型的融合方法,作者將兩路的注意力值拼接以后經(jīng)過一個線性映射來多元數(shù)據(jù)中提取的特征。最后,作者 mask 掉提取的詞部分的特征,將提取的字特征通過 CRF 來進(jìn)行解碼。

實(shí)驗結(jié)果展示

3.1 主試驗

作者在四個經(jīng)典的中文 NER 數(shù)據(jù)集(Weibo,Resume,MSRA,Ontonotes 4.0)上進(jìn)行了實(shí)驗,并且選取 FLAT 作為 baseline。

結(jié)果顯示,相比于 baseline 模型 FLAT,在模型中加入漢字結(jié)構(gòu)特征以后,性能有了一定提升。據(jù)觀察,在小規(guī)模數(shù)據(jù)集(例如 weibo)或者多類別數(shù)據(jù)集(Ontonotes 4.0)上,模型的提升更加顯著。

3.2 Cross-Transformer注意力值可視化

▲ Visualization of cross-attention

從上圖中(a)可以看出,Radical 注意力更關(guān)注全局的相關(guān)性,而 lattice 注意力更關(guān)心漢字和詞匯的相關(guān)性。

3.3 Radical特征的影響

▲ Visualization of cross-attention

  • 作者利用 Resume 數(shù)據(jù)集訓(xùn)練得到的漢字 radical-level embedding 進(jìn)行了可視化,發(fā)現(xiàn)結(jié)構(gòu)相近或者包含字根相近的字,在 radical-level embedding 空間中的距離就越近。結(jié)果如上圖所示。

  • 作者發(fā)現(xiàn)引入 radical-level 特征,可是使得一些常見的錯誤得到修正。例如在 Ontonotes 4.0 數(shù)據(jù)集中,“百分之四十三點(diǎn)二(43.2%)”被標(biāo)注成了 PER 人名。引入 radical-level 特征后可以對該問題進(jìn)行校正。

3.4 推理速度

▲ Relative inference speed of each model

由于模型采用了 Transformer 編碼結(jié)構(gòu),模型具有不錯的推理速度。

3.5 消融實(shí)驗

▲ 消融試驗方案

▲ 消融實(shí)驗結(jié)果

作者設(shè)計了三個消融實(shí)驗:

  • 實(shí)驗 A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。

  • 實(shí)驗 B:依然使用 two-stream 模型,但兩個 stream 之間不再交叉計算注意力值。

  • -RA 實(shí)驗:指去掉 random attention 的實(shí)驗。

實(shí)驗結(jié)果顯示,模型中的模塊均有效。

結(jié)論

本文提出了一個融入漢字結(jié)構(gòu)特征的 two-stream Transformer 編碼模型——MECT,該模型在多個中文 NER 數(shù)據(jù)集上均取得了很好的效果。

參考文獻(xiàn)

[1] Li X , ?Yan H , ?Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

·

總結(jié)

以上是生活随笔為你收集整理的中文NER涨点神器!基于多元数据的双流Transformer编码模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日本国产在线播放 | 综合激情伊人 | 国产成人在线看 | 国产在线超碰 | 日韩成人精品一区 | 日韩最新视频 | 人妻视频一区二区三区 | 网站免费黄色 | 美女被草出白浆 | 1515hh成人免费看 | 911久久| www久久99 | 狼人精品一区二区三区在线 | 亚洲精品国产一区二 | 三级视频黄色 | 韩国三级bd高清中字2021 | 人人亚洲 | 少妇人妻一区二区 | 插插宗合网| 国产伦精品一区二区三 | 无码乱人伦一区二区亚洲 | 黄色资源在线观看 | 波多野结衣精品 | 久久大胆视频 | 日韩精选av | 亚洲免费精品视频 | 激情视频在线免费观看 | 国产中年熟女高潮大集合 | 肥臀浪妇太爽了快点再快点 | 亚洲成人自拍视频 | 99xav| 日本四级电影 | 无码人妻精品一区二区三区在线 | www.jizzjizz| 人妻体体内射精一区二区 | 91亚洲网站 | 精品自拍视频 | 色眯眯视频 | 国产美女性生活 | 四虎在线精品 | 久久一级免费视频 | 国产中文字幕乱人伦在线观看 | 天堂在线观看av | 久久久久亚洲av片无码 | a毛片大片 | 亚洲 欧美 精品 | 欧美日一本 | 麻豆网站| 久久久香蕉视频 | 午夜精品极品粉嫩国产尤物 | 一级片啪啪| 亚洲先锋影音 | 人妻久久一区二区三区 | 成人免费网址 | 黄网站在线播放 | 久久爱网 | 国产草草影院 | 久久精品美乳 | 狠狠操婷婷 | 国产吞精囗交久久久 | 亚洲欧洲自拍偷拍 | 在线视频亚洲欧美 | 国产艳俗歌舞表演hd | 国产中文字幕精品 | jizz欧美性23 | 福利资源导航 | 日韩黄色三级 | 蜜桃av导航| 国产精品久久久精品三级 | 久久久久久久美女 | 蜜臀少妇久久久久久久高潮 | 亚洲国产精品视频在线观看 | 少妇一级淫片免费放 | 91亚洲视频 | 秋霞毛片少妇激情免费 | 亚洲欧美日韩在线播放 | 精品无码久久久久久久久 | 亚洲熟女乱色一区二区三区 | 天天射天天射 | 午夜视频入口 | 成年免费视频 | 另类三区 | 天天综合欧美 | 91精品国产综合久久精品图片 | 亚洲欧洲精品一区 | 人人干网站 | 欧美成人精品一区二区综合免费 | 人妖和人妖互交性xxxx视频 | 女人的天堂av | 久草免费福利视频 | 在线无码va中文字幕无码 | 精品天堂 | 国产午夜精品一区二区三区四区 | 四虎啪啪| 国产精品无码粉嫩小泬 | 欧美多p | 热播之家 | 欧美色图在线播放 | 成人在线视频一区二区 |