生活随笔
收集整理的這篇文章主要介紹了
trate
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import metrics
from text.textpredict import *
from sklearn.cross_validation import *
def chi22():
train_words=["急需 錢用 不用 出售 如圖 價值 千多 便宜 出售 出售 急 ",
"讀 讀 重復 讀好輸 不變 綠 求高人 指點迷津 ",
"誠召搛只呆家小時工,全職媽媽、在校學生、在家待業者、上班族、游戲者皆可做!每天5",
"發福利了 火熱找小蒔工,每天在綫2--3小蒔,蒔澗地點沒限制,薪資鈤結80--150/",
"急招小時工,每天在綫2--3小拭,時間地點沒限制,薪資日結80--150/天,適 急招小時工,每天在綫2--3小拭,時間地點沒限制,薪資日結80--150/天,適合學生黨,手機黨,上班族,有空閑時間者,有興趣繆系,QQ(937117723)咨詢,此處不回?。?,
"發福利來 火熱找小蒔工,每天在綫2--3小蒔,蒔澗地點沒限制,薪資鈤結80--150/",
" 讀 不好 嗚嗚 ","這句 話 總是 知道 連讀 ","求 師傅 交 口語 求有 耐心 老師 基礎 學 ",
"聽到 讀 "
]
train_tags=[1,0,1,1,1,1,0,0,0,0]
"""
##就提取了詞頻CountVectorizer
count_v1 = CountVectorizer(stop_words=None, max_df=0.5)
counts_train = count_v1.fit_transform(train_words)
##卡方檢驗chi,配合selectkbest 對特征進行選擇
chi= SelectKBest(chi2,10)
mychi2 = chi.fit(counts_train, train_tags)
hi2_train = mychi2.transform(counts_train)
clf = MultinomialNB(alpha=0.01)
clf.fit(hi2_train, np.asarray(train_tags))
priediced = cross_val_predict(clf, hi2_train, train_tags)
print metrics.confusion_matrix(train_tags, priediced)
"""
##tf-idf
Tfidf = TfidfVectorizer()
tfidf_train = Tfidf.fit_transform(train_words)
clf = MultinomialNB(alpha=0.01)
clf.fit(tfidf_train, np.asarray(train_tags))
priediced = cross_val_predict(clf, tfidf_train, train_tags)
print metrics.confusion_matrix(train_tags, priediced)
#print hi2_train
chi22()
總結
以上是生活随笔為你收集整理的trate的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。