论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset
摘要
過去的難點:
過去的都是粗粒度的;
Few-NERD:
一個大規(guī)模的人類注釋的小樣本NERD數(shù)據(jù)集,它具有8種粗粒度和66種細(xì)粒度實體類型的層次結(jié)構(gòu)。Few-NERD由來自維基百科的188238個句子組成,包含4601160個單詞,每個單詞都被標(biāo)注為上下文或兩級實體類型的一部分。
Introduction
Few-NERD粗細(xì)粒度在下圖中展示,其中內(nèi)圈表示的是粗粒度,外圈是細(xì)粒度:
就與NERD數(shù)據(jù)集的劃分類型是需要專業(yè)的人士的。而命名實體的少鏡頭學(xué)習(xí)研究工作主要面臨兩個挑戰(zhàn):第一,用于少樣本學(xué)習(xí)的大多數(shù)數(shù)據(jù)集只有418種粗粒度實體類型,使得構(gòu)建足夠多的“N-way”元任務(wù)和學(xué)習(xí)相關(guān)特征變得困難。事實上,我們觀察到大多數(shù)看不見的實體都是細(xì)粒度的。其次,由于缺乏基準(zhǔn)數(shù)據(jù)集,不同作品的設(shè)置不一致,導(dǎo)致不清楚的比較。
該數(shù)據(jù)由188.2k個從維基百科文章中提取的句子組成,491.7k個實體;對于基準(zhǔn)設(shè)置,我們設(shè)計了三個基于少量NERD的任務(wù),包括一個標(biāo)準(zhǔn)監(jiān)督任務(wù)(少量NERD(SUP))和兩個少量快照任務(wù)(少量NERD-INTRA)和FEWNRTD(INTER));
問題定義
NER
輸入: 一個句子x=x1,x2,...,xtx = {x_1, x_2,...,x_t}x=x1?,x2?,...,xt?
輸出:對于每個xix_ixi?分配yi∈Yy_i\in{Y}yi?∈Y來指明標(biāo)記是命名實體的一部分或者不屬于任何實體(用O來表示) YYY是預(yù)定義的實體類別
Few-shot NER
Few-shot learning
在少樣本的場景下,樣本被按照批次(episode)組織成N-way-K-shot形式的數(shù)據(jù)。每個批次的數(shù)據(jù)又被組織成兩個集合,support set 支持集Strain={x(i),y(i)}i=1N?KS_{train} = \{x^{(i)}, y^{(i)}\}_{i=1}^{N*K}Strain?={x(i),y(i)}i=1N?K? 和 query set 查詢集Qtrain={x(j),y(j)}j=1N?KQ_{train} = \{x^{(j)}, y^{(j)}\}_{j=1}^{N*K}Qtrain?={x(j),y(j)}j=1N?K?,并且S∩Q=?S\cap{Q} = \emptysetS∩Q=?。其中support set用于學(xué)習(xí),query set用于預(yù)測。其含義是,在每一批(episode)的support set中含有N種類型的實體,每種類型有K個實體,query set含有與support set同類型的實體。在測試過程中,所有類在訓(xùn)練階段都是不可見的,并且通過使用支持集StestS_{test}Stest?的少數(shù)標(biāo)記示例,few-shot學(xué)習(xí)系統(tǒng)需要預(yù)測未標(biāo)記的查詢集Qtest(S∩Q=?)Q_{test}(S\cap{Q}=?)Qtest?(S∩Q=?)。模型通過對support set的學(xué)習(xí),來預(yù)測query set的標(biāo)簽。
采樣策略
由于NER是一個跟語境強相關(guān)的任務(wù),采樣通常在句子層面進行。又由于一句話中可能含有多個類型的多個實體,一般很難通過句子級別的采樣嚴(yán)格滿足N-way-K-shot的場景設(shè)定。因此,我們設(shè)計了基于貪心策略的更為寬松的采樣方法。該采樣方法能夠?qū)⒚總€實體類型的數(shù)量限制在K~2K之間,即每次隨機抽樣一句話加入集合,計算當(dāng)前集合中的實體類型數(shù)量和每個實體類型的實例數(shù)量,若它們超過N或2K,則舍棄這句話;否則,將這句話加入集合中,直到滿足N個實體類型,每個類型至少K個實體為止。
數(shù)據(jù)分析
數(shù)據(jù)集大小和分布
Few-NERD是第一個為Few-shot場景設(shè)計的數(shù)據(jù)集,同時也是最大的人工標(biāo)注的NER數(shù)據(jù)集之一,相關(guān)的統(tǒng)計如表2所示??梢钥闯?#xff0c;Few-NERD包含了18萬余條句子,49萬余個標(biāo)注的實體,460余萬個字符,并且有66個類別,顯著超越了之前的基準(zhǔn)數(shù)據(jù)集。因此,Few-NERD不光可以做Few-shot NER任務(wù),在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)NER任務(wù)上同樣具有挑戰(zhàn)性(見實驗章節(jié))。
總結(jié)
以上是生活随笔為你收集整理的论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode之无重复字符的最长子串
- 下一篇: 手机内部零件名称图解_旧手机回收后都干嘛