當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读笔记（四）【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset

發(fā)布時間：2024/7/5 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读笔记（四）【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要

過去的難點：
過去的都是粗粒度的；
Few-NERD：
一個大規(guī)模的人類注釋的小樣本NERD數(shù)據(jù)集，它具有8種粗粒度和66種細(xì)粒度實體類型的層次結(jié)構(gòu)。Few-NERD由來自維基百科的188238個句子組成，包含4601160個單詞，每個單詞都被標(biāo)注為上下文或兩級實體類型的一部分。

Introduction

Few-NERD粗細(xì)粒度在下圖中展示，其中內(nèi)圈表示的是粗粒度，外圈是細(xì)粒度：

就與NERD數(shù)據(jù)集的劃分類型是需要專業(yè)的人士的。而命名實體的少鏡頭學(xué)習(xí)研究工作主要面臨兩個挑戰(zhàn)：第一，用于少樣本學(xué)習(xí)的大多數(shù)數(shù)據(jù)集只有418種粗粒度實體類型，使得構(gòu)建足夠多的“N-way”元任務(wù)和學(xué)習(xí)相關(guān)特征變得困難。事實上，我們觀察到大多數(shù)看不見的實體都是細(xì)粒度的。其次，由于缺乏基準(zhǔn)數(shù)據(jù)集，不同作品的設(shè)置不一致，導(dǎo)致不清楚的比較。
該數(shù)據(jù)由188.2k個從維基百科文章中提取的句子組成，491.7k個實體；對于基準(zhǔn)設(shè)置，我們設(shè)計了三個基于少量NERD的任務(wù)，包括一個標(biāo)準(zhǔn)監(jiān)督任務(wù)（少量NERD（SUP））和兩個少量快照任務(wù)（少量NERD-INTRA）和FEWNRTD（INTER））；

問題定義

NER

輸入：一個句子 $x = {x_1, x_2,...,x_t}$
輸出：對于每個 $x_i$ 分配 $yi∈Yy_i\in{Y}$ 來指明標(biāo)記是命名實體的一部分或者不屬于任何實體（用O來表示） $Y$ 是預(yù)定義的實體類別

Few-shot NER

Few-shot learning
在少樣本的場景下，樣本被按照批次（episode）組織成N-way-K-shot形式的數(shù)據(jù)。每個批次的數(shù)據(jù)又被組織成兩個集合，support set 支持集 $S_{train} = \{x^{(i)}, y^{(i)}\}_{i=1}^{N*K}$ 和 query set 查詢集 $Q_{train} = \{x^{(j)}, y^{(j)}\}_{j=1}^{N*K}$ ，并且 $S∩Q=?S\cap{Q} = \emptyset$ 。其中support set用于學(xué)習(xí)，query set用于預(yù)測。其含義是，在每一批（episode）的support set中含有N種類型的實體，每種類型有K個實體，query set含有與support set同類型的實體。在測試過程中，所有類在訓(xùn)練階段都是不可見的，并且通過使用支持集 $S_{test}$ 的少數(shù)標(biāo)記示例，few-shot學(xué)習(xí)系統(tǒng)需要預(yù)測未標(biāo)記的查詢集 $Qtest（S∩Q=?)Q_{test}（S\cap{Q}=?)$ 。模型通過對support set的學(xué)習(xí)，來預(yù)測query set的標(biāo)簽。

采樣策略
由于NER是一個跟語境強相關(guān)的任務(wù)，采樣通常在句子層面進行。又由于一句話中可能含有多個類型的多個實體，一般很難通過句子級別的采樣嚴(yán)格滿足N-way-K-shot的場景設(shè)定。因此，我們設(shè)計了基于貪心策略的更為寬松的采樣方法。該采樣方法能夠?qū)⒚總€實體類型的數(shù)量限制在K~2K之間，即每次隨機抽樣一句話加入集合，計算當(dāng)前集合中的實體類型數(shù)量和每個實體類型的實例數(shù)量，若它們超過N或2K，則舍棄這句話；否則，將這句話加入集合中，直到滿足N個實體類型，每個類型至少K個實體為止。

數(shù)據(jù)分析

數(shù)據(jù)集大小和分布

Few-NERD是第一個為Few-shot場景設(shè)計的數(shù)據(jù)集，同時也是最大的人工標(biāo)注的NER數(shù)據(jù)集之一，相關(guān)的統(tǒng)計如表2所示?？梢钥闯?#xff0c;Few-NERD包含了18萬余條句子，49萬余個標(biāo)注的實體，460余萬個字符，并且有66個類別，顯著超越了之前的基準(zhǔn)數(shù)據(jù)集。因此，Few-NERD不光可以做Few-shot NER任務(wù)，在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)NER任務(wù)上同樣具有挑戰(zhàn)性（見實驗章節(jié)）。

總結(jié)

以上是生活随笔為你收集整理的论文阅读笔记（四）【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LeetCode之无重复字符的最长子串
下一篇：手机内部零件名称图解_旧手机回收后都干嘛