當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Datawhale-零基础入门NLP-新闻文本分类Task01

發(fā)布時間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Datawhale-零基础入门NLP-新闻文本分类Task01 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考：

https://www.jianshu.com/p/56061b8f463a

統(tǒng)計自然語言處理宗成慶（第二版）

文本自動分類簡稱文本分類(text categorization),是模式識別與自然語言處理密切結合的研究課題.傳統(tǒng)的文本分類是基于文本內容的,研究如何將文本自動劃分為各種類型.文本分類是在預定義的分類體系下,根據文本的特征(內容或屬性),將給定文本與一個或多個類別相關聯(lián)的過程.系統(tǒng)的輸入時需要進行分類處理的文本,系統(tǒng)的輸出則是與文本關聯(lián)的類別.

一個文本分類系統(tǒng)表示為

NLP文本分類主要分為兩大類：

基于傳統(tǒng)機器學習的文本分類：TF-IDF+分類算法，Count Vectors+分類算法
基于深度學習的文本分類：FastText文本分類，TextRNN，TextCNN，基于Bert的文本分類

1 基于傳統(tǒng)機器學習的文本分類（文本特征工程+分類器）

傳統(tǒng)的特征工程分為文本預處理、特征提取、文本表示三個部分。

1.1 特征工程

1.1.1 文本預處理

文本預處理過程是提取文本中的關鍵詞來表示文本的過程。英文語法有空格，因此可以直接以空格進行分割，中文文本處理則需要考慮中文分詞和去停用詞的問題。

常用的文本分詞方法：基于字符串匹配的正向/逆向/雙向最大匹配；基于理解的句法和語法分析，基于統(tǒng)計的互信息/CRF方法，基于深度學習的。

停用詞是文本中一些高頻的代詞、介詞、連詞等對文本分類無意義的詞，類似于我，你，的等。

此外，自然語言處理分析還包括命名實體識別、詞性標注、句法分析、語義分析、篇章分析。

命名實體識別是從文本中識別這些實體指稱及其類別，即命名實體識別和分類，實體概念在文本中的引用（entity mention，或稱“指稱項”）有三種形式：命名性指稱、名詞性指稱和代詞性指稱。例如”［［中國］乒乓球男隊主教練］［劉國梁］出席了會議，［他］指出了當前經濟工作的重點。 ”中，實體概念“劉國梁”的指稱項有三個，其中， “中國乒乓球男隊主教練”是名詞性指稱， “劉國梁”是命名性指稱， “他”是代詞性指稱。

詞性（part-of-speech）是詞匯基本的語法屬性，通常也稱為詞類。詞性標注就是在給定句子中判定每個詞的語法范疇，確定其詞性并加以標注的過程。
? ? ? ? 句法分析（syntactic parsing）是自然語言處理中的關鍵技術之一，其基本任務是確定句子的句法結構（syntactic structure）或句子中詞匯之間的依存關系。

對于不同的語言單位，語義分析的任務各不相同。在詞的層次上，語義分析的基本任務是進行詞義消歧（word sense disambiguation,WSD），在句子層面上語義角色標注（semantic role labeling, SRL）則是人們關注的問題，而在篇章層面上，指代消歧（coreference resolution）（也稱“共指消解”）、篇章語義分析等則是目前研究的重點。本章主要介紹詞義消歧和語義角色標注的基本方法。

1.1.2 特征提取

特征提取包括特征選擇和特征權重計算兩部分.
? ? ? ? 特征選擇的基本思路是根據某個評價指標獨立的對原始特征項（詞項）進行評分排序，從中選擇得分最高的一些特征項，過濾掉其余的特征項。常用的評價有：文檔頻率、互信息、信息增益、χ2統(tǒng)計量等。
? ? ? ? 特征權重用于衡量某個特征項在文檔表示中的重要程度或者區(qū)分能力的強弱.權重計算的一般是利用文本的統(tǒng)計信息,例如詞頻.主要是經典的TF-IDF方法及其擴展方法。TF-IDF的主要思想是一個詞的重要度與在類別內的詞頻成正比，與所有類別出現(xiàn)的次數(shù)成反比.

1.1.3 文本表示

一個文本表現(xiàn)為一個由文字和標點符號組成的字符串,由字或字符組成詞,由詞組成短語,進而形成句,段,節(jié),章,篇的結構.文本表示的目的是把文本預處理后的轉換成計算機可理解的方式，是決定文本分類質量最重要的部分。傳統(tǒng)做法常用詞袋模型（BOW, Bag Of Words）或向量空間模型（Vector Space Model），最大的不足是忽略文本上下文關系，每個詞之間彼此獨立，并且無法表征語義信息。

1.2 分類算法

機器學習的分類算法有邏輯回歸（LR）、支持向量機（SVM）、決策樹（DT）、XGBoost，LightGBM、CatBoost等。

1.3 文本分類性能評測

參照機器學習的性能評測標準,主要方法有精準率、召回率、F1-score

2 基于深度學習的文本分類

2.1 FastText文本分類

FastText是一種典型的深度學習詞向量的表示方法，它通過Embedding層將單詞映射到稠密空間，然后將句子中所有單詞在Embedding空間中進行平均，進而完成分類操作。

2.2 TextCNN文本分類

TextCNN是利用卷積網絡進行文本分類，輸入的數(shù)據是處理之后的詞向量，卷積核不進行橫向滑動，僅僅向下移動，在不同詞窗上應用不同的卷積核，最終得到不同向量，再對向量進行最大池化并拼接各個池化值，將這個句子的向量送到分類器進行分類。

2.3 TextRNN文本分類問題

TextRNN指的是利用RNN循環(huán)神經網絡解決文本分類問題，其中，可將RNN單元換成Bi-RNN，LSTM，GRU等。

2.4 基于Bert的文本分類

BERT是一個基于Transformer的多層Encoder，通過一系列的預訓練，進而得到深層的上下文表示。基于預訓練語言模型的詞表示由于可以建模上下文信息，進而解決傳統(tǒng)靜態(tài)詞向量不能建模“一詞多義”語言現(xiàn)象的問題。最早用兩個單向的LSTM，將雙向的表示拼接學習上下文詞嵌入。后用Transformer代替LSTM作為編碼器，進行了語言模型預訓練，然后在下游任務微調模型參數(shù)，現(xiàn)又提出Bert。

總結

以上是生活随笔為你收集整理的Datawhale-零基础入门NLP-新闻文本分类Task01的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： break lab c语言,C语言实验l
下一篇：【SVN】SVN版本回退与常用命令总结