python计算tfidf sklearn计算
生活随笔
收集整理的這篇文章主要介紹了
python计算tfidf sklearn计算
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
利用python 計算文檔的tfidf,步驟大概如下:
讀入文檔,對文檔進(jìn)行分詞,每一段為一個字符串,分詞用空格隔開,讀入文檔是一個長度為該文檔段數(shù)的列表。
利用vectorizer生成詞頻矩陣X , 再利用tfidftransformer 生成tfidf矩陣。
代碼如下:
import jieba import numpy as np from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizertext = """ 由張一山與唐藝昕主演的新版《鹿鼎記》備受爭議,魔改的劇情和夸張的演技讓人無法直視。作為主演的張一山承受了大部分觀眾的炮火,受盡無數(shù)吐槽。而在劇中扮演韋小寶老婆之一蘇荃的朱珠卻在采訪中直面差評、硬剛網(wǎng)友,為張一山洗白。盡管大家已經(jīng)做好了翻拍不如原版的準(zhǔn)備,然而還是沒有想到這一版本《鹿鼎記》會如此不盡人意,開播前有多受網(wǎng)友期待,開播后就讓人感到有多失望。張一山版《鹿鼎記》在經(jīng)歷了劇情魔改、演員演技浮夸這一系列重創(chuàng)后,最終評分慘不忍睹。原以為有“戲骨”張一山坐鎮(zhèn)扛劇,這部劇再差也不會差到哪里去,誰曾想整部劇最大的槽點(diǎn)就是張一山本人。過于浮夸的演技,油膩做作的肢體語言,被網(wǎng)友稱為“猴式演技”,還有網(wǎng)友無情吐槽張一山“像被鞭子抽了三年的心酸小瘦猴在努力假裝快樂活潑”。而朱珠在劇中扮演的則是韋小寶的御姐老婆蘇荃,性格大氣沉穩(wěn)、臨危不懼。朱珠所飾演的蘇荃其實也并沒有讓人眼前一亮,演技總體來說還是有些流于表面,沒有讓整部劇口碑力挽狂瀾。或許是戲份不多的原因,朱珠在這部戲中并沒有被過多討論,網(wǎng)友的炮火主要還是集中在主演張一山身上。不過朱珠參演的另外一部劇《大秦賦》也同樣備受爭議,并且戲份過多的朱珠還受到不少吐槽。《大秦賦》這部劇算是高開低走的典型,集結(jié)了張魯一、段奕宏、鄔君梅等演技派的歷史大劇,是網(wǎng)友們相當(dāng)期待的一部劇,朱珠在劇中扮演的是一代美人趙姬。作為秦始皇嬴政的生母,趙姬戲份過于拖沓,與嫪?dú)钡那閻奂m葛纏綿不斷,被網(wǎng)友吐槽將《大秦賦》演成了《大情婦》或者是《嫪?dú)眰鳌贰Zw姬這個角色若是演好了定能圈大波粉絲,不過朱珠卻將其演繹成了只會傻笑的“傻白甜”,美則美矣,然而沒有了靈魂。這邊朱珠自己已經(jīng)受到吐槽不斷,受訪時還是為舊搭檔張一山發(fā)聲,與給出差評的觀眾正面剛。朱珠表示張一山雖然看起來古靈精怪,其實是非常成熟并且大男人的一個人,心里也是非常有數(shù)。 """word_list = text.split("\n") word_list new_word_list = [i for i in word_list if i != ""] new_word_listcorpus = [" ".join(jieba.cut(w)) for w in new_word_list] corpusvectorizer = CountVectorizer() X = vectorizer.fit_transform(corpus) word = vectorizer.get_feature_names() word freq = X.toarray() freqtransformer = TfidfTransformer() tfidf = transformer.fit_transform(X)tfidf.toarray()?
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的python计算tfidf sklearn计算的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 烫伤后可以涂牙膏或者酱油吗?
- 下一篇: matplotlib里的fig和ax的区