日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Datawhale-零基础入门NLP-新闻文本分类Task01

發(fā)布時間:2023/12/20 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Datawhale-零基础入门NLP-新闻文本分类Task01 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考:

https://www.jianshu.com/p/56061b8f463a

統(tǒng)計自然語言處理 宗成慶(第二版)

文本自動分類簡稱文本分類(text categorization),是模式識別與自然語言處理密切結合的研究課題.傳統(tǒng)的文本分類是基于文本內容的,研究如何將文本自動劃分為各種類型.文本分類是在預定義的分類體系下,根據文本的特征(內容或屬性),將給定文本與一個或多個類別相關聯(lián)的過程.系統(tǒng)的輸入時需要進行分類處理的文本,系統(tǒng)的輸出則是與文本關聯(lián)的類別.

一個文本分類系統(tǒng)表示為

NLP文本分類主要分為兩大類:

  • 基于傳統(tǒng)機器學習的文本分類:TF-IDF+分類算法,Count Vectors+分類算法

  • 基于深度學習的文本分類:FastText文本分類,TextRNN,TextCNN,基于Bert的文本分類

1 基于傳統(tǒng)機器學習的文本分類(文本特征工程+分類器)

傳統(tǒng)的特征工程分為文本預處理、特征提取、文本表示三個部分。

1.1 特征工程

1.1.1 文本預處理

文本預處理過程是提取文本中的關鍵詞來表示文本的過程。英文語法有空格,因此可以直接以空格進行分割,中文文本處理則需要考慮中文分詞和去停用詞的問題。

常用的文本分詞方法:基于字符串匹配的正向/逆向/雙向最大匹配;基于理解的句法和語法分析,基于統(tǒng)計的互信息/CRF方法,基于深度學習的。

停用詞是文本中一些高頻的代詞、介詞、連詞等對文本分類無意義的詞,類似于我,你,的等。

此外,自然語言處理分析還包括命名實體識別、詞性標注、句法分析、語義分析、篇章分析。

命名實體識別是從文本中識別這些實體指稱及其類別, 即命名實體識別和分類,實體概念在文本中的引用(entity mention, 或稱“指稱項”) 有三種形式: 命名性指稱、 名詞性指稱和代詞性指稱。例如”[[中國] 乒乓球男隊主教練] [劉國梁] 出席了會議,[他] 指出了當前經濟工作的重點。 ”中, 實體概念“劉國梁”的指稱項有三個, 其中, “中國乒乓球男隊主教練”是名詞性指稱, “劉國梁”是命名性指稱, “他”是代詞性指稱。

詞性(part-of-speech) 是詞匯基本的語法屬性, 通常也稱為詞類。詞性標注就是在給定句子中判定每個詞的語法范疇, 確定其詞性并加以標注的過程。
? ? ? ? 句法分析(syntactic parsing) 是自然語言處理中的關鍵技術之一,其基本任務是確定句子的句法結構(syntactic structure) 或句子中詞匯之間的依存關系。

對于不同的語言單位, 語義分析的任務各不相同。 在詞的層次上,語義分析的基本任務是進行詞義消歧(word sense disambiguation,WSD) , 在句子層面上語義角色標注(semantic role labeling, SRL) 則是人們關注的問題, 而在篇章層面上, 指代消歧(coreference resolution)(也稱“共指消解”) 、 篇章語義分析等則是目前研究的重點。 本章主要介紹詞義消歧和語義角色標注的基本方法。

1.1.2 特征提取

特征提取包括特征選擇和特征權重計算兩部分.
? ? ? ? 特征選擇的基本思路是根據某個評價指標獨立的對原始特征項(詞項)進行評分排序,從中選擇得分最高的一些特征項,過濾掉其余的特征項。常用的評價有:文檔頻率、互信息、信息增益、χ2統(tǒng)計量等。
? ? ? ? 特征權重用于衡量某個特征項在文檔表示中的重要程度或者區(qū)分能力的強弱.權重計算的一般是利用文本的統(tǒng)計信息,例如詞頻.主要是經典的TF-IDF方法及其擴展方法。TF-IDF的主要思想是一個詞的重要度與在類別內的詞頻成正比,與所有類別出現(xiàn)的次數(shù)成反比.

1.1.3 文本表示

一個文本表現(xiàn)為一個由文字和標點符號組成的字符串,由字或字符組成詞,由詞組成短語,進而形成句,段,節(jié),章,篇的結構.文本表示的目的是把文本預處理后的轉換成計算機可理解的方式,是決定文本分類質量最重要的部分。傳統(tǒng)做法常用詞袋模型(BOW, Bag Of Words)或向量空間模型(Vector Space Model),最大的不足是忽略文本上下文關系,每個詞之間彼此獨立,并且無法表征語義信息。

1.2 分類算法

機器學習的分類算法有邏輯回歸(LR)、支持向量機(SVM)、決策樹(DT)、XGBoost,LightGBM、CatBoost等。

1.3 文本分類性能評測

參照機器學習的性能評測標準,主要方法有精準率、召回率、F1-score

2 基于深度學習的文本分類

2.1 FastText文本分類

FastText是一種典型的深度學習詞向量的表示方法,它通過Embedding層將單詞映射到稠密空間,然后將句子中所有單詞在Embedding空間中進行平均,進而完成分類操作。

2.2 TextCNN文本分類

TextCNN是利用卷積網絡進行文本分類,輸入的數(shù)據是處理之后的詞向量,卷積核不進行橫向滑動,僅僅向下移動,在不同詞窗上應用不同的卷積核,最終得到不同向量,再對向量進行最大池化并拼接各個池化值,將這個句子的向量送到分類器進行分類。

2.3 TextRNN文本分類問題

TextRNN指的是利用RNN循環(huán)神經網絡解決文本分類問題,其中,可將RNN單元換成Bi-RNN,LSTM,GRU等。

2.4 基于Bert的文本分類

BERT是一個基于Transformer的多層Encoder,通過一系列的預訓練,進而得到深層的上下文表示。基于預訓練語言模型的詞表示由于可以建模上下文信息,進而解決傳統(tǒng)靜態(tài)詞向量不能建模“一詞多義”語言現(xiàn)象的問題。最早用兩個單向的LSTM,將雙向的表示拼接學習上下文詞嵌入。后用Transformer代替LSTM作為編碼器,進行了語言模型預訓練,然后在下游任務微調模型參數(shù),現(xiàn)又提出Bert。

總結

以上是生活随笔為你收集整理的Datawhale-零基础入门NLP-新闻文本分类Task01的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。