【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
基于預訓練語言模型的BERT-CNN多層級專利分類研究
1、背景
1、作者(第一作者和通訊作者)
???陸曉蕾,倪斌
2、單位
???廈門大學,中國科學院計算技術研究所廈門數據智能研究院
3、年份
???2020
4、來源
???中文信息學報
2、四個問題
1、要解決什么問題?
???實現專利多層文本分類
2、用了什么方法解決?
???提出了基于預訓練語言模型的BERT-CNN多層級專利分類模型
3、效果如何?
???該模型在準確率上達到了84.3%,大幅優于CNN、RNN等其他深度學習算法。
4、還存在什么問題?
??? 文章沒有解決多標簽問題、未將模型擴展到更深層級的分類中。
論文筆記
0、引言
???作者在引言部分介紹了近年來,工業界和學術界產生了大量專利申請。現行《國際專利分類法》包含 “部—類—亞 類—組”四個層級,其中“組”級共含有7萬多種類別,人工太難分辨,所以提出用神經網絡來分類。
???注:專利分類作為文本分類中的一個垂直領域,標簽有多層級、多標簽的特點,不像做新聞分類、情感分類很多時候標簽單一、且簡單、都是自定義的。所以專利分類寫論文更有“點”可寫。
1、相關研究
???此小節論述了文本分類的綜述,從機器學習到神經網絡到詞向量、Elmo、GPT、Transformer、BERT。
???最后提出BERT也是有缺點的。“雖然BERT提供了下游任務的簡單接口,可以直接進行文本分類。然而,BERT作為預訓練語言模型,關于其作為文檔向量的研究和應用尚不多見。”
???然后說fastText可以做文檔向量,效果也不錯,但是它使用的是word embedding,不能解決語義(多義詞)問題。
???最后的idea就是把BERT與fastText結合。
2、研究方法
2.1、BERT-CNN 模型結構
2.1.1、BERT層
???BERT采用雙向Transformer編碼器,利用多頭注意力機制融合了上下文信息。與早期通過訓練語言模型的目標任務———“預測下一個詞”不同的是,BERT設置了兩種目標任務,分別獲取單詞與句子級別的表義方式:
①遮蓋語言模型:隨機遮蓋15%的句子,讓編碼器預測這些詞;
②上下句關系預測:通過預測兩個隨機句子能否組成上下句來學習句子間的關系。
???本文選取BERT-Base作為預訓練模型。BERT-Base擁有12個Transforme層,本文中的BERT-CNN采用BERT后四層的輸出作為下游CNN模型的輸入。
2.1.2、Conv2D層
???本文取BERT最后四層作為CNN的輸入矩陣I(768 x 4)。然后用32個濾波器F(3×4),步長為1,掃描輸入矩陣I,目的是提取文本3-Gram特征,通過I?F 內積獲得32個特征向量。為了降低計算的復雜度,CNN通常使用池化計算降低矩陣的維度。本文選取最大池化方式。
2.2、多層文本分類架構
???多層文本分類其主要特點在于多層文本分類需要考慮的類別巨大,類別之間 往往存在各種依賴關系,并構成一個復雜的層次化的類別體系。
目前處理該類問題一般有兩種策略
???全局策略:全局策略在處理多層級任務時沒有區分層級,使用單一的分類器,完全忽略類別間的層次結構,這在處理類別有限并且樣本分布均衡的任務時簡單有效。但是隨著層級、類別的增加,數據分布的不均衡,其魯棒性變低。
???局部策略:局部策略利用分治的思想,構建一系列分類器,每個分類器只處理局部的類別。分類時,從分類體系的根節點出發,自頂向下確定樣本的分類。(本文采用的局部策略)
???作者在本文中提供了一種處理標簽有層級關系的文本分類辦法。
???首先對所有數據、一級標簽進行分類;之后依次對所有歸類為一級標簽A的數據、一級標簽A的子標簽進行分類,對所有歸類為一級標簽B的數據、一級標簽B的子標簽進行分類,對所有歸類為一級標簽…的數據、一級標簽…的子標簽進行分類。
3、實驗與結果
3.1、數據集
數據集采用國家信息中心提供的全國專利申請數據 。數據總量達到277萬條記錄。時間跨度為2017年全年(按照專利申請時間統計),地域覆蓋全國。
3.3、結果分析與討論
3.3.1、評估指標
本文模型使用正確率作為評估指標,最終聯合模型的正確率 Acc(X)通過式(1)計算:
3.3.2、實驗結果
從實驗結果可以看到在各個模型上,前者的準確率均高于后者。證實了作者所提出模型在文本分類的功能。
3.3.3、其他數據集
為了 進 一 步 證 實BERT-CNN/RNN/Transformer等模型的效果,本文選取清華大學自然語言處理實驗室開源的新聞文本分類數據集進行平照實驗。
3.3.4、討論
模型的準確率在Transformer層數N=4時達到最大。當N<4時Transformer的輸出作為文檔向量的代表性還不太強,準確率略有下降;當N>4 時,文檔向量中表征詞匯語法關系的成分增大,對分類結果意義不大,反而造成干擾,導致準確率下降。
本文參考:https://comdy.blog.csdn.net/article/details/122683419
總結
以上是生活随笔為你收集整理的【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: liberty配置mysql数据源_Bl
- 下一篇: koa --- mongoose连接m