第06课:动手实战基于 ML 的中文短文本分类
生活随笔
收集整理的這篇文章主要介紹了
第06课:动手实战基于 ML 的中文短文本分类
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文本分類,屬于有監督學習中的一部分,在很多場景下都有應用,下面通過小數據的實例,一步步完成中文短文本的分類實現,整個過程盡量做到少理論重實戰。
開發環境,我們選擇:
本文使用的數據是我曾經做過的一份司法數據,需求是對每一條輸入數據,判斷事情的主體是誰,比如報警人被老公打,報警人被老婆打,報警人被兒子打,報警人被女兒打等來進行文本有監督的分類操作。
整個過程分為以下幾個步驟:
- 語料加載
- 分詞
- 去停用詞
- 抽取詞向量特征
- 分別進行算法建模和模型訓練
- 評估、計算 AUC 值
- 模型對比
基本流程如下圖所示:
下面開始項目實戰。
1. 首先進行語料加載,在這之前,引入所需要的 Python 依賴包,并將全部語料和停用詞字典讀入內存中。
第一步,引入依賴庫,有隨機數庫、jieba 分詞、pandas 庫等?
總結
以上是生活随笔為你收集整理的第06课:动手实战基于 ML 的中文短文本分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第07课:动手实战基于 ML 的中文短文
- 下一篇: 第03课:动手实战中文文本中的关键字提取