當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】NER数据标注中的标签一致性验证

發布時間：2025/3/12 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】NER数据标注中的标签一致性验证小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ??最近看到一篇論文，是探討關于NER數據標注中標簽一致性問題的。

????數據標注在建立基準和確保使用正確的信息來學習NER模型方面起著至關重要的作用。要想獲得準確的標簽，不僅需要時間還需要專業知識。然而標簽錯誤又幾乎是無法避免的，錯誤的標簽會導致標注數據子集(例如，訓練集和測試集，或多個訓練子集)之間的標簽不一致。標簽的不一致性是影響NER任務性能提升的因素之一，比如在被引用超過2300次的標準NER基準CoNLL03數據集中，發現測試集中有5.38%的標簽錯誤，當對其中的錯誤標簽進行糾正后，相比于原始測試集得到的結果更加準確和穩定。

? ? 標簽的一致性驗證需要解決兩個關鍵問題:1)如何識別標注的數據子集之間的標簽不一致？2)如何驗證糾正后的標簽一致性得到恢復？

標簽不一致性示例

????如下表所示，三個示例是用于比較SCIERC數據集的測試集中原始標注和校正后的標注。其中前兩個是具有錯誤的實體類型，第三個是具有錯誤的實體邊界。像前兩個示例中的實體標記，如果在標注過程中始終遵循用于標注訓練數據的“codebook”，那么一定能夠將前兩個示例中的實體標記為“Task”,而非“Method”。

標簽不一致性識別

????如下圖所示，是識別測試集與訓練集的標簽不一致性。以SCIERC數據集為例，從訓練集中采樣三個互斥子集(大小為x)，選擇這三個互斥子集中的一個子集作為新的測試集，然后構建三個新的訓練集，分別為：

“TrainTest”：首先提供一個訓練子集，然后再提供一個原始測試集
“PureTrain”：提供兩個訓練子集
“TestTrain”：首先輸入原始測試集，然后輸入一個訓練子集

????然后訓練NER模型以在新的測試集上執行，結果表明，“TestTrain”在早期階段表現最差，因為原始測試集的質量不可靠。在“TrainTest”中，當開始向模型提供原始測試集時，性能不再提高。“PureTrain”表現最好。所有觀察結果都得出結論，原始測試集比訓練集本身對訓練樣本的預測性差。而在其他的兩個數據集WikiGold和WNUT16上沒有這樣的觀察結果，則這可能是由于標簽不一致導致的問題。

標簽一致性驗證

? ? 這是對糾正錯誤標簽后的標簽一致性進行驗證，同樣將訓練數據中的子集作為新的測試集，以評估原始錯誤測試子集、更正后的測試子集以及其余訓練子集的可預測性。以SCIERC數據集為例，假設在測試集中糾正了y+z個句子中的z個，原始的錯誤測試子集("Mistake")和校正后的測試子集(“Correct”)的大小均為z(z=147)，在訓練集中采樣三個互斥子集，分別為x、y、w，使用訓練集中第一個子集x作為新的測試集，然后建立四個新的訓練集(每個新的訓練集都有y+w+z=1355個句子)如下：

“TestTrainMistake”/“TestTrainCorrect”：原始的良好測試子集，第三個采樣的訓練子集和原始的錯誤測試子集（或校正后的測試子集）
“PureTrainMistake”/“PureTrainCorrect”：第二個和第三個采樣的訓練子集以及原始錯誤的測試子集（或校正后的測試子集）
“MistakeTestTrain”/“CorrectTestTrain”：原始錯誤的測試子集（或更正的測試子集），原始的良好測試子集和第三個采樣的訓練子集
“MistakePureTrain”/“CorrectPureTrain”：原始錯誤的測試子集（或更正的測試子集）以及第二個和第三個采樣的訓練子集。

????然后訓練NER模型，結果表明，標簽錯誤(即原始錯誤的測試子集)在開始或最后被輸入時都會損害模型性能。校正后的測試子集可提供與原始良好測試子集和訓練子集相當的性能。這證明了校正后的測試集與訓練集的標簽一致性。

標簽一致性對NER模型性能的影響

實驗一：在SCIERC上的結果

????基于SCIERC數據集，部署五個NER模型，研究它們在校正后的SCIERC數據集上的性能。如下圖所示，所有NER模型在校正后的SCIERC上都要比原始數據集提供更好的性能。

實驗二：在CoNLL03上的結果

????如下圖a所示，在原始測試集中以錯誤的標簽開頭會使性能比從訓練集或良好的測試子集開始的性能差。如下圖b所示，在標簽校正之后，此問題得到修復。

參考資料：

[1]https://arxiv.org/pdf/2101.08698v1.pdf

-?END?-

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯本站知識星球“黃博的機器學習圈子”（92416895）本站qq群704220115。加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【NLP】NER数据标注中的标签一致性验证的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。