【NLP】NER数据标注中的标签一致性验证
? ??最近看到一篇論文,是探討關(guān)于NER數(shù)據(jù)標(biāo)注中標(biāo)簽一致性問題的。
????數(shù)據(jù)標(biāo)注在建立基準(zhǔn)和確保使用正確的信息來學(xué)習(xí)NER模型方面起著至關(guān)重要的作用。要想獲得準(zhǔn)確的標(biāo)簽,不僅需要時(shí)間還需要專業(yè)知識。然而標(biāo)簽錯(cuò)誤又幾乎是無法避免的,錯(cuò)誤的標(biāo)簽會(huì)導(dǎo)致標(biāo)注數(shù)據(jù)子集(例如,訓(xùn)練集和測試集,或多個(gè)訓(xùn)練子集)之間的標(biāo)簽不一致。標(biāo)簽的不一致性是影響NER任務(wù)性能提升的因素之一,比如在被引用超過2300次的標(biāo)準(zhǔn)NER基準(zhǔn)CoNLL03數(shù)據(jù)集中,發(fā)現(xiàn)測試集中有5.38%的標(biāo)簽錯(cuò)誤,當(dāng)對其中的錯(cuò)誤標(biāo)簽進(jìn)行糾正后,相比于原始測試集得到的結(jié)果更加準(zhǔn)確和穩(wěn)定。
? ? 標(biāo)簽的一致性驗(yàn)證需要解決兩個(gè)關(guān)鍵問題:1)如何識別標(biāo)注的數(shù)據(jù)子集之間的標(biāo)簽不一致?2)如何驗(yàn)證糾正后的標(biāo)簽一致性得到恢復(fù)?
1
標(biāo)簽不一致性示例
????如下表所示,三個(gè)示例是用于比較SCIERC數(shù)據(jù)集的測試集中原始標(biāo)注和校正后的標(biāo)注。其中前兩個(gè)是具有錯(cuò)誤的實(shí)體類型,第三個(gè)是具有錯(cuò)誤的實(shí)體邊界。像前兩個(gè)示例中的實(shí)體標(biāo)記,如果在標(biāo)注過程中始終遵循用于標(biāo)注訓(xùn)練數(shù)據(jù)的“codebook”,那么一定能夠?qū)⑶皟蓚€(gè)示例中的實(shí)體標(biāo)記為“Task”,而非“Method”。
2
標(biāo)簽不一致性識別
????如下圖所示,是識別測試集與訓(xùn)練集的標(biāo)簽不一致性。以SCIERC數(shù)據(jù)集為例,從訓(xùn)練集中采樣三個(gè)互斥子集(大小為x),選擇這三個(gè)互斥子集中的一個(gè)子集作為新的測試集,然后構(gòu)建三個(gè)新的訓(xùn)練集,分別為:
“TrainTest”:首先提供一個(gè)訓(xùn)練子集,然后再提供一個(gè)原始測試集
“PureTrain”:提供兩個(gè)訓(xùn)練子集
“TestTrain”:首先輸入原始測試集,然后輸入一個(gè)訓(xùn)練子集
????然后訓(xùn)練NER模型以在新的測試集上執(zhí)行,結(jié)果表明,“TestTrain”在早期階段表現(xiàn)最差,因?yàn)樵紲y試集的質(zhì)量不可靠。在“TrainTest”中,當(dāng)開始向模型提供原始測試集時(shí),性能不再提高。“PureTrain”表現(xiàn)最好。所有觀察結(jié)果都得出結(jié)論,原始測試集比訓(xùn)練集本身對訓(xùn)練樣本的預(yù)測性差。而在其他的兩個(gè)數(shù)據(jù)集WikiGold和WNUT16上沒有這樣的觀察結(jié)果,則這可能是由于標(biāo)簽不一致導(dǎo)致的問題。
3
標(biāo)簽一致性驗(yàn)證
? ? 這是對糾正錯(cuò)誤標(biāo)簽后的標(biāo)簽一致性進(jìn)行驗(yàn)證,同樣將訓(xùn)練數(shù)據(jù)中的子集作為新的測試集,以評估原始錯(cuò)誤測試子集、更正后的測試子集以及其余訓(xùn)練子集的可預(yù)測性。以SCIERC數(shù)據(jù)集為例,假設(shè)在測試集中糾正了y+z個(gè)句子中的z個(gè),原始的錯(cuò)誤測試子集("Mistake")和校正后的測試子集(“Correct”)的大小均為z(z=147),在訓(xùn)練集中采樣三個(gè)互斥子集,分別為x、y、w,使用訓(xùn)練集中第一個(gè)子集x作為新的測試集,然后建立四個(gè)新的訓(xùn)練集(每個(gè)新的訓(xùn)練集都有y+w+z=1355個(gè)句子)如下:
“TestTrainMistake”/“TestTrainCorrect”:原始的良好測試子集,第三個(gè)采樣的訓(xùn)練子集和原始的錯(cuò)誤測試子集(或校正后的測試子集)
“PureTrainMistake”/“PureTrainCorrect”:第二個(gè)和第三個(gè)采樣的訓(xùn)練子集以及原始錯(cuò)誤的測試子集(或校正后的測試子集)
“MistakeTestTrain”/“CorrectTestTrain”:原始錯(cuò)誤的測試子集(或更正的測試子集),原始的良好測試子集和第三個(gè)采樣的訓(xùn)練子集
“MistakePureTrain”/“CorrectPureTrain”:原始錯(cuò)誤的測試子集(或更正的測試子集)以及第二個(gè)和第三個(gè)采樣的訓(xùn)練子集。
????然后訓(xùn)練NER模型,結(jié)果表明,標(biāo)簽錯(cuò)誤(即原始錯(cuò)誤的測試子集)在開始或最后被輸入時(shí)都會(huì)損害模型性能。校正后的測試子集可提供與原始良好測試子集和訓(xùn)練子集相當(dāng)?shù)男阅堋_@證明了校正后的測試集與訓(xùn)練集的標(biāo)簽一致性。
4
標(biāo)簽一致性對NER模型性能的影響
實(shí)驗(yàn)一:在SCIERC上的結(jié)果
????基于SCIERC數(shù)據(jù)集,部署五個(gè)NER模型,研究它們在校正后的SCIERC數(shù)據(jù)集上的性能。如下圖所示,所有NER模型在校正后的SCIERC上都要比原始數(shù)據(jù)集提供更好的性能。
實(shí)驗(yàn)二:在CoNLL03上的結(jié)果
????如下圖a所示,在原始測試集中以錯(cuò)誤的標(biāo)簽開頭會(huì)使性能比從訓(xùn)練集或良好的測試子集開始的性能差。如下圖b所示,在標(biāo)簽校正之后,此問題得到修復(fù)。
參考資料:
[1]https://arxiv.org/pdf/2101.08698v1.pdf
-?END?-
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 本站知識星球“黃博的機(jī)器學(xué)習(xí)圈子”(92416895) 本站qq群704220115。 加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【NLP】NER数据标注中的标签一致性验证的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win11系统如何刷新按钮
- 下一篇: win7如何设置还原点