日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【NLP】NER数据标注中的标签一致性验证

發(fā)布時(shí)間:2025/3/12 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】NER数据标注中的标签一致性验证 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ??最近看到一篇論文,是探討關(guān)于NER數(shù)據(jù)標(biāo)注中標(biāo)簽一致性問題的。

????數(shù)據(jù)標(biāo)注在建立基準(zhǔn)和確保使用正確的信息來學(xué)習(xí)NER模型方面起著至關(guān)重要的作用。要想獲得準(zhǔn)確的標(biāo)簽,不僅需要時(shí)間還需要專業(yè)知識。然而標(biāo)簽錯(cuò)誤又幾乎是無法避免的,錯(cuò)誤的標(biāo)簽會(huì)導(dǎo)致標(biāo)注數(shù)據(jù)子集(例如,訓(xùn)練集和測試集,或多個(gè)訓(xùn)練子集)之間的標(biāo)簽不一致。標(biāo)簽的不一致性是影響NER任務(wù)性能提升的因素之一,比如在被引用超過2300次的標(biāo)準(zhǔn)NER基準(zhǔn)CoNLL03數(shù)據(jù)集中,發(fā)現(xiàn)測試集中有5.38%的標(biāo)簽錯(cuò)誤,當(dāng)對其中的錯(cuò)誤標(biāo)簽進(jìn)行糾正后,相比于原始測試集得到的結(jié)果更加準(zhǔn)確和穩(wěn)定。

? ? 標(biāo)簽的一致性驗(yàn)證需要解決兩個(gè)關(guān)鍵問題:1)如何識別標(biāo)注的數(shù)據(jù)子集之間的標(biāo)簽不一致?2)如何驗(yàn)證糾正后的標(biāo)簽一致性得到恢復(fù)?

1

標(biāo)簽不一致性示例

????如下表所示,三個(gè)示例是用于比較SCIERC數(shù)據(jù)集的測試集中原始標(biāo)注和校正后的標(biāo)注。其中前兩個(gè)是具有錯(cuò)誤的實(shí)體類型,第三個(gè)是具有錯(cuò)誤的實(shí)體邊界。像前兩個(gè)示例中的實(shí)體標(biāo)記,如果在標(biāo)注過程中始終遵循用于標(biāo)注訓(xùn)練數(shù)據(jù)的“codebook”,那么一定能夠?qū)⑶皟蓚€(gè)示例中的實(shí)體標(biāo)記為“Task”,而非“Method”。

2

標(biāo)簽不一致性識別

????如下圖所示,是識別測試集與訓(xùn)練集的標(biāo)簽不一致性。以SCIERC數(shù)據(jù)集為例,從訓(xùn)練集中采樣三個(gè)互斥子集(大小為x),選擇這三個(gè)互斥子集中的一個(gè)子集作為新的測試集,然后構(gòu)建三個(gè)新的訓(xùn)練集,分別為:

  • “TrainTest”:首先提供一個(gè)訓(xùn)練子集,然后再提供一個(gè)原始測試集

  • “PureTrain”:提供兩個(gè)訓(xùn)練子集

  • “TestTrain”:首先輸入原始測試集,然后輸入一個(gè)訓(xùn)練子集

????然后訓(xùn)練NER模型以在新的測試集上執(zhí)行,結(jié)果表明,“TestTrain”在早期階段表現(xiàn)最差,因?yàn)樵紲y試集的質(zhì)量不可靠。在“TrainTest”中,當(dāng)開始向模型提供原始測試集時(shí),性能不再提高。“PureTrain”表現(xiàn)最好。所有觀察結(jié)果都得出結(jié)論,原始測試集比訓(xùn)練集本身對訓(xùn)練樣本的預(yù)測性差。而在其他的兩個(gè)數(shù)據(jù)集WikiGold和WNUT16上沒有這樣的觀察結(jié)果,則這可能是由于標(biāo)簽不一致導(dǎo)致的問題。

3

標(biāo)簽一致性驗(yàn)證

? ? 這是對糾正錯(cuò)誤標(biāo)簽后的標(biāo)簽一致性進(jìn)行驗(yàn)證,同樣將訓(xùn)練數(shù)據(jù)中的子集作為新的測試集,以評估原始錯(cuò)誤測試子集、更正后的測試子集以及其余訓(xùn)練子集的可預(yù)測性。以SCIERC數(shù)據(jù)集為例,假設(shè)在測試集中糾正了y+z個(gè)句子中的z個(gè),原始的錯(cuò)誤測試子集("Mistake")和校正后的測試子集(“Correct”)的大小均為z(z=147),在訓(xùn)練集中采樣三個(gè)互斥子集,分別為x、y、w,使用訓(xùn)練集中第一個(gè)子集x作為新的測試集,然后建立四個(gè)新的訓(xùn)練集(每個(gè)新的訓(xùn)練集都有y+w+z=1355個(gè)句子)如下:

  • “TestTrainMistake”/“TestTrainCorrect”:原始的良好測試子集,第三個(gè)采樣的訓(xùn)練子集和原始的錯(cuò)誤測試子集(或校正后的測試子集)

  • “PureTrainMistake”/“PureTrainCorrect”:第二個(gè)和第三個(gè)采樣的訓(xùn)練子集以及原始錯(cuò)誤的測試子集(或校正后的測試子集)

  • “MistakeTestTrain”/“CorrectTestTrain”:原始錯(cuò)誤的測試子集(或更正的測試子集),原始的良好測試子集和第三個(gè)采樣的訓(xùn)練子集

  • “MistakePureTrain”/“CorrectPureTrain”:原始錯(cuò)誤的測試子集(或更正的測試子集)以及第二個(gè)和第三個(gè)采樣的訓(xùn)練子集。

????然后訓(xùn)練NER模型,結(jié)果表明,標(biāo)簽錯(cuò)誤(即原始錯(cuò)誤的測試子集)在開始或最后被輸入時(shí)都會(huì)損害模型性能。校正后的測試子集可提供與原始良好測試子集和訓(xùn)練子集相當(dāng)?shù)男阅堋_@證明了校正后的測試集與訓(xùn)練集的標(biāo)簽一致性。

4

標(biāo)簽一致性對NER模型性能的影響

實(shí)驗(yàn)一:在SCIERC上的結(jié)果

????基于SCIERC數(shù)據(jù)集,部署五個(gè)NER模型,研究它們在校正后的SCIERC數(shù)據(jù)集上的性能。如下圖所示,所有NER模型在校正后的SCIERC上都要比原始數(shù)據(jù)集提供更好的性能。

實(shí)驗(yàn)二:在CoNLL03上的結(jié)果

????如下圖a所示,在原始測試集中以錯(cuò)誤的標(biāo)簽開頭會(huì)使性能比從訓(xùn)練集或良好的測試子集開始的性能差。如下圖b所示,在標(biāo)簽校正之后,此問題得到修復(fù)。


參考資料:

[1]https://arxiv.org/pdf/2101.08698v1.pdf

-?END?-

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 本站知識星球“黃博的機(jī)器學(xué)習(xí)圈子”(92416895) 本站qq群704220115。 加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【NLP】NER数据标注中的标签一致性验证的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。