日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果?

發布時間:2025/3/21 编程问答 65 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接:https://arxiv.org/pdf/2002.03067.pdf

1

簡介

一般來說,模型越深效果越好。但是同時,模型越深也更難訓練——即無法收斂到訓練集上一個好的值。

今天,我們給大家介紹被 ICML2020接收的一篇文章:基于類別描述的文本分類模型。

該模型的主要思想是:通過顯式地引入對分類標簽的描述提高文本分類的效果。我們提出了三種方法引入這種描述:

  • 模板法——對每個標簽靜態地指定一個描述;
  • 抽取法——對每個標簽在輸入文本中抽取一段文字作為描述;
  • 生成法——動態地根據輸入的文本為每個標簽生成一段描述。

使用這種技術,我們能夠在單標簽文本分類、多標簽文本分類和多角度情感分析任務的10個數據集上取得顯著更好的效果。

2

文本分類中的標簽

文本分類是自然語言處理中非常重要的一項任務,它要求模型判斷輸入文本的類別,如情感、評分、類型等。

從分類數量上說,分為單標簽分類和多標簽分類,前者指每個文本只有一個標簽類,后者指每個文本可以有多個標簽類。

從任務類型講,可以分為文檔分類、情感分析等,前者指對整個輸入文本分類(可以是單標簽或多標簽),后者指對文本的多種情感判斷類別。

經典的文本分類方法是把待分類標簽視為簡單的下標。如當前的輸入文本是“這個電影真好看”,需要分類的標簽是{1:積極,0:消極},模型接受文本之后,輸出的是0或者1,代表分類結果。

顯然,用這種分類方法,模型完全無視了“積極”和“消極”的語義,對更復雜標簽,這無疑是一種“語義浪費”。我們想要把標簽提供的信息利用起來。

鑒于此,我們提出在輸入文本的同時,也輸入對標簽本身的描述,比如牛津詞典對“positive”的定義(描述)是:“full of hope and confidence, or giving cause for hope and confidence”。

把這個描述和原始文本拼接在一起,送入模型,模型輸出一個概率值,代表當前文本具有該標簽類的可能性。如此,我們就能充分利用標簽本身提供的語義。

但是如果待分類文本的標簽數很多(甚至上百個標簽),一個一個為他們人工構造描述也是件麻煩的事情,況且人工構造的也不一定“準確”。

為此,我們期望模型能動態地、根據輸入句子的不同自動構造出一個描述來。

因而,我們又提出了兩種方法:抽取文本中的一段作為描述,和使用一個語言模型從頭生成一段描述。這兩種方法都可以使用強化學習得以實現。

這三種方法的一個例子如下。對當前輸入的文本,我們現在要去判斷它是否屬于“car”這個標簽,而“car”的模板描述、抽取描述和生成描述分別如圖所示。

這種基于標簽描述的方法有以下好處:

  • 融入了標簽語義,而不僅僅是簡單的下標,使得模型更好地進行分類;
  • 可以很輕松地進行多分類,只需要一個一個判斷標簽即可;
  • 得到標簽描述具有一定的靈活性,不限于人工定義的標簽描述。

用這種方法,我們能夠在單標簽分類數據集AGNews, 20news, DBPedia, Yahoo, YelpP,IMDB,多標簽分類數據集Reuters,AAPD,和多方面情感分析數據集BeerAdvocate,TripAdvisor取得顯著更好的效果。

3

總結

以上是生活随笔為你收集整理的CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。