最新综述:用于文本分类的数据增强方法
?PaperWeekly 原創 ·?作者?|?王馨月
學校?|?四川大學本科生
研究方向?|?自然語言處理
概要
數據增強,即通過轉換為機器學習人工創建訓練數據,是跨機器學習學科廣泛研究的研究領域。它不僅對于提高模型的泛化能力很有用,也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制用于保護隱私的數據量。
基于對數據增強的目標和應用的精確描述以及對現有工作的分類,本篇綜述關注用于文本分類的數據增強方法,旨在為研究人員和從業者提供簡明而全面的概述。根據分類法,我們將 100 多種方法分為 12 個不同的組,并提供了最先進的參考資料,闡述了哪些方法非常有前途。最后,給出了可能構成未來工作基石的研究觀點。
論文標題:
A Survey on Data Augmentation for Text Classification
論文鏈接:
https://arxiv.org/abs/2107.03158
引言
訓練數據的增加并不總是導致學習問題的解決方案。盡管如此,數據對于監督分類器的質量仍然是決定性的。計算機視覺領域中就存在著許多不同的方法來人工創建此類數據,稱為數據增強。對于圖像,RGB 通道的旋轉或變化等變換是合理的,這些模型應該是不變的。與計算機視覺類似,語音識別使用改變聲音或速度的程序。相比之下,自然語言處理(NLP)中的數據增強研究難以為文本數據的轉換建立通用的可以在保持標簽質量的同時自動執行規則。這就是為什么盡管存在廣泛的應用領域,在 2019 年之前該領域的研究還是十分有限。
如今,這一挑戰仍然存在,但許多科學家正在不同的研究方向中解決。在這些方向中,遵循著各種目標,例如,為低數據制度生成更多數據、平衡不平衡的數據集類別或針對對抗性示例的安全性。
因此,文本數據增強有許多對比形式,在本次綜述中進行了分組和解釋。我們進行了深入分析,并嘗試將這些方法與最先進的方法聯系起來。由于遷移學習的興起,這些方法面臨著另一個挑戰。
例如,Longpre 等人表明,許多數據增強方法在使用大型預訓練語言模型時無法獲得收益,因為它們本身已經對各種變換保持不變。他們假設數據增強方法只有在創建以前從未見過的新語言模式時才能真正有益。需要牢記,本綜述以對方法的元視角結束。因此,本次調查追求以下方面的貢獻:
目標和應用:我們強調了從綜合回顧中得出的數據增強的目標和應用。這些在以前的研究論文中僅在有限且不完整的程度上進行了介紹。
分類法和分類:文本分類數據增強方法將根據高級分類法進行聚類,然后細分為更細粒度的組。這也存在于 Shorten 和 Khoshgoftaar 以及 Wen 等人的調查中,現在適用于文本分類領域。
概述和深入細節:對文本數據增強方法以清晰的形式進行了解釋,并提供了分隔和相互比較所需的細節。與其他作品相比,我們廣泛的研究包含 12 個組,其中包含 100 多種不同的方法。
最先進的綜述:在文獻調查中,我們試圖檢索最新的最先進的考慮因素,例如,使用大型預訓練模型的文本數據增強方法的有限好處,這些在當前工作中經常被忽視的點。
未來的研究前景。我們確定了未來的研究機會,這些機會要么是SOTA的比較所必需的,要么是由于當前文本數據增強的挑戰所需要的研究機會。
數據增強方法分類
如圖,是不同數據增強方法的分類和分組:
用于文本分類的的數據增強方法集合
如圖,是一些最先進的文本分類數據增強技術的集合:
總結
這篇綜述概述了適用于文本領域的數據增強方法。數據增強有助于實現許多目標,包括正則化、最小化標簽工作、降低敏感領域中真實世界數據的使用、平衡不平衡的數據集以及提高對抗對抗性攻擊的魯棒性。在高層次上,數據增強方法分為應用于特征空間和數據空間的方法。然后將這些方法細分為更細粒度的組,從噪聲誘導到全新實例的生成。
此外,我們提出了幾個與未來工作相關的有前景的研究方向。尤其是在這方面,需要對當前技術水平進行全面了解。例如,隨著遷移學習方法的使用越來越多,一些數據增強方法已經過時,因為它們遵循類似的目標。因此,需要更復雜的方法,例如 Longpre 等人所建議的那樣,引入在預訓練期間未見過的新語言模式。
雖然數據增強得到越來越多的研究并且非常有前途,但它也有一些局限性。例如,許多數據增強方法只有在原始數據量足夠大的情況下才能創建高質量的增強數據。此外,就像 Shorten 和 Khoshgoftaar 描述的那樣,數據增強無法涵蓋所有轉換可能性并消除原始數據中的所有類型的偏差。
以 Shorten 和 Khoshgoftaar 的例子為例,在沒有包含體育文章的新聞分類任務中,標準數據增強方法肯定也不會創建體育文章,即使這是必要的。相比之下,數據增強可能會導致新的不良偏差。例如,像 GPT-2 這樣的語言模型可以包含偏差,然后將偏差傳播到數據集中。各種各樣的技術和一些非常復雜的方法也帶來了另一層需要理解的復雜性。
此外,數據增強可能需要大量時間,因此并非所有方法都適用于時間關鍵的機器學習開發領域,例如,在危機信息學的某些領域。隨著數據增強,也需要更多資源,尤其是在訓練生成模型的背景下。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的最新综述:用于文本分类的数据增强方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自监督学习新思路!基于蒸馏(distil
- 下一篇: 葡萄酒为什么是红色的?