當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结，第三部分

發(fā)布時間：2023/12/1 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结，第三部分小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

創(chuàng)建模型需要用到機器學(xué)習(xí)的庫，所以我們先下載sklearn庫

sklearn庫

下載完成后再輸入庫文件，就可以完美運行。

然后就是劃分測試集和訓(xùn)練集，需要注意的是，在從數(shù)據(jù)處理函數(shù)中導(dǎo)入數(shù)據(jù)時，足足運行了有將近30多秒，可見在數(shù)據(jù)處理部分，分詞、添加停用詞等步驟是非常復(fù)雜和消耗資源的，所以我在當(dāng)初講這個課題后提出的，把一次運行完后獲得的分詞數(shù)據(jù)進行保存，以便接下來的詞云繪制和模型構(gòu)建兩步進行快速訪問數(shù)據(jù)，還是非常有用的。

往后在Tf-idf權(quán)重計算這一環(huán)節(jié)出現(xiàn)了錯誤

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())

查了百度后，得知解決辦法大致是通過控制面板的高級系統(tǒng)設(shè)置，更改系統(tǒng)給每一個硬盤分區(qū)所分配的內(nèi)存來解決，我試了之后，問題果然解決了。

當(dāng)然嚴格來說這其實是一個悖論，因為要想更改系統(tǒng)給硬盤分配的內(nèi)存生效，就必須重啟計算機，而重啟計算機也會重新使系統(tǒng)給應(yīng)用程序分配內(nèi)存，這樣也可以解決內(nèi)存不足問題。所以說你不可能只讓系統(tǒng)給應(yīng)用分配的內(nèi)存空間設(shè)置生效，而不讓系統(tǒng)重啟，這樣在邏輯上是行不通的。

之后測試集的劃分就順利多了，然后進行機器學(xué)習(xí)，輸入測試集評估模型，模型準確度為0.8525

寫到這里整個項目算是完成了，但為了加深印象，我們不妨再看一下其中的幾個數(shù)據(jù)

訓(xùn)練集和測試集

這個是數(shù)據(jù)的TF idf權(quán)重計算。因為得到的是稀疏矩陣，一行中只有很少部分有值，因此我們看到的大多都是零。

我個人認為，Pycharm并不是一個完美的文本編輯器，一是他的每個項目都是一個虛擬環(huán)境，為這個項目所匹配的庫文件并不能為其他項目所適用，如果在另外的項目里邊講引用庫，就要重新下載，當(dāng)然pycharm的作者可能有他自己的想法，但是我個人總覺得，這種想法，似乎并不是很適合我們中國的不是頂尖的大學(xué)的大學(xué)生的思維。

我已經(jīng)在邊角時間給 Python安裝了pip，并成功的給python增加了pandas 庫，所以說理論上，我們在Pycharm里面能完成的工作也能在Python自帶的IDEI里面完成，如果時間允許，我可能會嘗試這樣的操作。

總結(jié)

總結(jié)來說，由于計算機環(huán)境不同，我們不可能完全復(fù)制我們老師所錄制視頻的操作步驟，如果遇到的錯誤老師沒有講過，就要充分利用互聯(lián)網(wǎng)的豐富性和我們個人思維的靈活性，嘗試通過理解編譯器報錯提示和百度搜索這兩種方法來解決問題。

最后，作為python的新學(xué)者，遇到問題首先問身邊的朋友或者老師，但有些問題并不能得到解決。這時我們可以去網(wǎng)絡(luò)上搜索。這里我就推薦新學(xué)者去csdn搜索來解決我們遇到的問題。里面可以解決我們遇到的各種各樣的問題。最后愿天下再無bug。

總結(jié)

以上是生活随笔為你收集整理的中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结，第三部分的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pccad自定义图框_(PCCAD自定义
下一篇：大数据胸_喂母乳会导致胸下垂？！你被这个

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结，第三部分

總結(jié)

總結(jié)