【多标签文本分类】层次多标签文本分类方法
·閱讀摘要:
??本文是一篇中文綜述,主要介紹了層次多標簽分類的一些算法。
·參考文獻:
??[1] 趙海燕,曹杰,陳慶奎,曹健.層次多標簽文本分類方法[J/OL].小型微型計
算機系統. https://kns.cnki.net/kcms/detail/21.1106.TP .20211130.1228.002.html
[1] 引言
??層次結構的標簽一般有兩種表示:
??兩種結構表示的示例圖如下:
[2] 基本概念
??文中提出層級多標簽分類的基本處理過程:
【注一】:文中提到“特征降維”這個過程,解釋為:由向量空間模型來描述的文本向量通常具有較高的維度,這對于后續的分類任務來說,將帶來效率低下和精確性下降的危害。 一般的話,特征降維是在機器學習的算法用的,深度學習的話,用詞向量表示完文本,就直接衛道模型里面去了。
[4] 層次多標簽文本分類器研究現狀
??腦圖如下:
【注二】:個人覺得,基于圖表示的算法值得深究。
[6] 展望
??文中提到的未來突破方向有四:
??(1)分類器的設計。如何利用文本和各層標簽的關系、如何利用層次標簽的依賴關系是考察分類器優劣的一個重要方面。
??(2)尋找更好的文本編碼表示。文本分類和其他分類的一個很大區別在于,因為文本一般是非結構化或者半結構數據,如何將其表示并能夠較少地損失其原來蘊含的信息,這對后續的文本分類來說很重要,當然,Transformer和 BERT是兩個目前效果較好的語言模型,也可以尋求其他方法來表示文本,比如文本的圖表示等。但是這些表示都是通用的表示方法,而什么樣的編碼表示更適合于層次多標簽文本分類還有待進一步研究。
??(3)極端的層次多標簽文本分類問題。隨著應用的深入,不少應用面臨極端的層次多標簽文本分類任務。它的特點是層次標簽的數目非常多,層次級別也非常深,造成模型規模可能非常龐大,目前的計算能力難以處理。如何高效地處理極端層次多標簽文本分類問題將成為未來的一個研究方向。
??(4)現實數據集中標簽的長尾問題。在現實數據集中,大部分標簽的數據是相對較少的,即很少的數據和一些標簽關聯,甚至沒有數據關聯,特別在層次結構的底層靠近葉子節點處。長尾問題在極端的層次多標簽文本分類問題中尤其嚴重。這種情況對于模型學習將造成困難,可能導致無法預測的問題。因此,如何處理層次多標簽文本分類中的長尾問題,也是未來的一個重要研究方向。
【注三】:比較好突破的是1、3、4。
模型是最好做出突破的;
其次是解決長尾問題,長尾問題不是只存在于文本分類任務中的,它幾乎在所有的分類任務中都存在,包括CV領域,所以解決方法很多,比較容易找到靈感;
極端的層次多標簽文本分類問題做的不多,但是“極端”就意味著“大”,“大”就意味著“顯卡”,沒有硬實力會很難做。
總結
以上是生活随笔為你收集整理的【多标签文本分类】层次多标签文本分类方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 扫地机器人测评云鲸_云鲸科技,J1测评
- 下一篇: leetcode数组汇总_[LeetCo