python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总
python的思維就是讓我們用盡可能少的代碼來(lái)解決問(wèn)題。對(duì)于詞頻的統(tǒng)計(jì),就代碼層面而言,實(shí)現(xiàn)的方式也是有很多種的。之所以單獨(dú)談到統(tǒng)計(jì)詞頻這個(gè)問(wèn)題,是因?yàn)樗诮y(tǒng)計(jì)和數(shù)據(jù)挖掘方面經(jīng)常會(huì)用到,尤其是處理分類(lèi)問(wèn)題上。故在此做個(gè)簡(jiǎn)單的記錄。
統(tǒng)計(jì)的材料如下:
document = [
'look', 'into', 'my', 'eyes', 'look', 'into
本文實(shí)例講述了Python實(shí)現(xiàn)統(tǒng)計(jì)英文文章詞頻的方法。分享給大家供大家參考,具體如下:
應(yīng)用介紹:
統(tǒng)計(jì)英文文章詞頻是很常見(jiàn)的需求,本文利用python實(shí)現(xiàn)。
思路分析:
1、把英文文章的每個(gè)單詞放到列表里,并統(tǒng)計(jì)列表長(zhǎng)度;
2、遍歷列表,對(duì)每個(gè)單詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),并將結(jié)果存儲(chǔ)在字典中;
3、利用步驟1中獲得的列表長(zhǎng)度,求出每個(gè)單詞出現(xiàn)的頻率,并將結(jié)果存儲(chǔ)在頻率字典中;
4、以字典鍵值對(duì)的“值”為標(biāo)準(zhǔn),對(duì)字典進(jìn)行排序,輸出結(jié)果(也可利用切片輸出頻率最大或最小的特定幾
這些對(duì)文本的操作經(jīng)常用到, 那我就總結(jié)一下。 陸續(xù)補(bǔ)充。。。
操作:
strip_html(cls, text) 去除html標(biāo)簽
separate_words(cls, text, min_lenth=3) 文本提取
get_words_frequency(cls, words_list) 獲取詞頻
源碼:
class DocProcess(object):
@classmethod
def strip_html(cls, text):
""&q
本文實(shí)例講述了Python實(shí)現(xiàn)快速計(jì)算詞頻功能。分享給大家供大家參考,具體如下:
這幾天看到一位同事的代碼,方法如下:
def cut_word(body):
temp_dict={}
if body is not None:
temp=jieba.cut(body)
for t in temp:
temp_dict[t]=1
else:
pass
return temp_dict
這個(gè)函數(shù)的功能是,輸入一段字符串,比如
前兩天,班上同學(xué)寫(xiě)論文,需要將很多篇論文題目按照中文的習(xí)慣分詞并統(tǒng)計(jì)每個(gè)詞出現(xiàn)的頻率。
讓我?guī)退龑?shí)現(xiàn)這個(gè)功能,我在網(wǎng)上查了之后發(fā)現(xiàn)jieba這個(gè)庫(kù)還挺不錯(cuò)的。
運(yùn)行環(huán)境:
安裝python2.7.13:https://www.python.org/downloads/release/python-2713/
安裝jieba:pip install jieba
安裝xlwt:pip install xlwt
具體代碼如下:
#!/usr
本文介紹了python實(shí)現(xiàn)簡(jiǎn)單中文詞頻統(tǒng)計(jì)示例,分享給大家,具體如下:
任務(wù)
簡(jiǎn)單統(tǒng)計(jì)一個(gè)小說(shuō)中哪些個(gè)漢字出現(xiàn)的頻率最高
知識(shí)點(diǎn)
1.文件操作
2.字典
3.排序
4.lambda
代碼
import codecs
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指
使用方法:
python wordsworth --filename textfile.txt
python wordsworth -f textfile.txt
分析結(jié)果:
附上github項(xiàng)目地址:https://github.com/autonomoid/wordsworth
總結(jié)
以上是生活随笔為你收集整理的python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Android面试题(五) --重要
- 下一篇: DBLINK 无统计信息导致SQL变慢