中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结,第三部分
創(chuàng)建模型需要用到機器學(xué)習(xí)的庫,所以我們先下載sklearn庫
sklearn庫
下載完成后再輸入庫文件,就可以完美運行。
然后就是劃分測試集和訓(xùn)練集,需要注意的是,在從數(shù)據(jù)處理函數(shù)中導(dǎo)入數(shù)據(jù)時,足足運行了有將近30多秒,可見在數(shù)據(jù)處理部分,分詞、添加停用詞等步驟是非常復(fù)雜和消耗資源的,所以我在當(dāng)初講這個課題后提出的,把一次運行完后獲得的分詞數(shù)據(jù)進行保存,以便接下來的詞云繪制和模型構(gòu)建兩步進行快速訪問數(shù)據(jù),還是非常有用的。
往后在Tf-idf權(quán)重計算這一環(huán)節(jié)出現(xiàn)了錯誤
(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())查了百度后,得知解決辦法大致是通過控制面板的高級系統(tǒng)設(shè)置,更改系統(tǒng)給每一個硬盤分區(qū)所分配的內(nèi)存來解決,我試了之后,問題果然解決了。
當(dāng)然嚴格來說這其實是一個悖論,因為要想更改系統(tǒng)給硬盤分配的內(nèi)存生效,就必須重啟計算機,而重啟計算機也會重新使系統(tǒng)給應(yīng)用程序分配內(nèi)存,這樣也可以解決內(nèi)存不足問題。所以說你不可能只讓系統(tǒng)給應(yīng)用分配的內(nèi)存空間設(shè)置生效,而不讓系統(tǒng)重啟,這樣在邏輯上是行不通的。
之后測試集的劃分就順利多了,然后進行機器學(xué)習(xí),輸入測試集評估模型,模型準確度為0.8525
寫到這里整個項目算是完成了,但為了加深印象,我們不妨再看一下其中的幾個數(shù)據(jù)
訓(xùn)練集和測試集
這個是數(shù)據(jù)的TF idf權(quán)重計算。因為得到的是稀疏矩陣,一行中只有很少部分有值,因此我們看到的大多都是零。
我個人認為,Pycharm并不是一個完美的文本編輯器,一是他的每個項目都是一個虛擬環(huán)境,為這個項目所匹配的庫文件并不能為其他項目所適用,如果在另外的項目里邊講引用庫,就要重新下載,當(dāng)然pycharm的作者可能有他自己的想法,但是我個人總覺得,這種想法,似乎并不是很適合我們中國的不是頂尖的大學(xué)的大學(xué)生的思維。
我已經(jīng)在邊角時間給 Python安裝了pip,并成功的給python增加了pandas 庫,所以說理論上,我們在Pycharm里面能完成的工作也能在Python自帶的IDEI里面完成,如果時間允許,我可能會嘗試這樣的操作。
總結(jié)
總結(jié)來說,由于計算機環(huán)境不同,我們不可能完全復(fù)制我們老師所錄制視頻的操作步驟,如果遇到的錯誤老師沒有講過,就要充分利用互聯(lián)網(wǎng)的豐富性和我們個人思維的靈活性,嘗試通過理解編譯器報錯提示和百度搜索這兩種方法來解決問題。
最后,作為python的新學(xué)者,遇到問題首先問身邊的朋友或者老師,但有些問題并不能得到解決。這時我們可以去網(wǎng)絡(luò)上搜索。這里我就推薦新學(xué)者去csdn搜索來解決我們遇到的問題。里面可以解決我們遇到的各種各樣的問題。最后愿天下再無bug。
總結(jié)
以上是生活随笔為你收集整理的中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结,第三部分的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pccad自定义图框_(PCCAD自定义
- 下一篇: 大数据胸_喂母乳会导致胸下垂?!你被这个