第06课:动手实战基于 ML 的中文短文本分类
生活随笔
收集整理的這篇文章主要介紹了
第06课:动手实战基于 ML 的中文短文本分类
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文本分類,屬于有監(jiān)督學(xué)習(xí)中的一部分,在很多場景下都有應(yīng)用,下面通過小數(shù)據(jù)的實(shí)例,一步步完成中文短文本的分類實(shí)現(xiàn),整個(gè)過程盡量做到少理論重實(shí)戰(zhàn)。
開發(fā)環(huán)境,我們選擇:
本文使用的數(shù)據(jù)是我曾經(jīng)做過的一份司法數(shù)據(jù),需求是對每一條輸入數(shù)據(jù),判斷事情的主體是誰,比如報(bào)警人被老公打,報(bào)警人被老婆打,報(bào)警人被兒子打,報(bào)警人被女兒打等來進(jìn)行文本有監(jiān)督的分類操作。
整個(gè)過程分為以下幾個(gè)步驟:
- 語料加載
- 分詞
- 去停用詞
- 抽取詞向量特征
- 分別進(jìn)行算法建模和模型訓(xùn)練
- 評估、計(jì)算 AUC 值
- 模型對比
基本流程如下圖所示:
下面開始項(xiàng)目實(shí)戰(zhàn)。
1. 首先進(jìn)行語料加載,在這之前,引入所需要的 Python 依賴包,并將全部語料和停用詞字典讀入內(nèi)存中。
第一步,引入依賴庫,有隨機(jī)數(shù)庫、jieba 分詞、pandas 庫等?
總結(jié)
以上是生活随笔為你收集整理的第06课:动手实战基于 ML 的中文短文本分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第07课:动手实战基于 ML 的中文短文
- 下一篇: 第03课:动手实战中文文本中的关键字提取