日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python统计英文句子每个单词字数_Python小书3-文本英文单词统计

發(fā)布時(shí)間:2023/12/10 python 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python统计英文句子每个单词字数_Python小书3-文本英文单词统计 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

之前寫Python Web小書第三小節(jié)本來用的垃圾郵件的案例三郎:Python貝葉斯推理垃圾郵件分類?zhuanlan.zhihu.com

后來發(fā)現(xiàn)里面的東西,涉及到概率,程序太復(fù)雜了。。。哈哈哈

所以就想著,哪天重寫一下,選來選去,覺得垃圾郵件分類里面的單詞統(tǒng)計(jì),可以深入給大家好好講講這個(gè)小案例。

這里選用的是一部英文哈利波特小說第一部:3496行,443725個(gè)字符

下面我們開始捋思路,我們拿到的是一部有很多單詞和符號(hào)的小說,我們要做的事就是要對(duì)所有的單詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。

第一步,先讀出整部小說的內(nèi)容

第二步,對(duì)小說的內(nèi)容進(jìn)行清洗,只保留所有的單詞

第三步,構(gòu)建字典,遍歷所有單詞,進(jìn)行次數(shù)統(tǒng)計(jì)

是不是感覺好簡(jiǎn)單,那我們上路吧!!!!!!!

首先我們先讀取小說的全部?jī)?nèi)容

fp = open("HarryPotter1.txt",'r')#文件名,r為讀模式

print(fp.read())

打印輸出如下

我們要把上圖里面的這些符號(hào)干掉,有沒有什么好辦法呢,當(dāng)然有啦,這就要用到我們的正則表達(dá)式,代碼如下:

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())#第一個(gè)參數(shù)\W和第二個(gè)參數(shù)空格的意思是替換所有非字符為空格

print(content)

同時(shí),我們發(fā)現(xiàn)一個(gè)單詞如果在句首字母會(huì)大寫,比如The和the如果不處理會(huì)被理解為兩個(gè)詞匯。于是我們繼續(xù)更新代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

print(content)

到現(xiàn)在為止,我們對(duì)初始文本做了過濾標(biāo)點(diǎn)符號(hào)和統(tǒng)一大小寫的預(yù)處理,下面就是把這個(gè)文本分割為一個(gè)個(gè)單詞,代碼如下

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

print(content)

現(xiàn)在我們得到一個(gè)包含所有單詞的列表,下面就可以進(jìn)行單詞統(tǒng)計(jì)了,首先生成空字典word_counter,然后循環(huán)遍歷整個(gè)單詞列表進(jìn)行詞數(shù)統(tǒng)計(jì)

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

print(word_counter)

因?yàn)樯厦婵雌饋砗軇e扭,我想按照順序,一行行打印,于是我試著做如下操作

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter:

print(key,value)

結(jié)果,報(bào)錯(cuò),因?yàn)镈ict不能同時(shí)對(duì)key和value同時(shí)遍歷,所以有三種方式

#1.遍歷鍵,然后索引到值

for key in word_counter:

print(key+':'+word_counter[key])

for key in word_counter.keys():

print(key+':'+word_counter[key])

#2.遍歷值

for value in word_counter.values():

print(value)

#3.遍歷字典項(xiàng)

for kv in word_counter.items():

print(kv)

for key,value in word_counter.items():

print(key+':'+value)

于是,需要將字典轉(zhuǎn)化為列表,也就有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter.items():

print(key,value)

因?yàn)榭刂婆_(tái)太短,無法全部顯示,所以我們保存到文件處理,而且我們關(guān)注的字?jǐn)?shù)統(tǒng)計(jì),更核心的是哪些詞出現(xiàn)的更多,于是有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

fp=open("result.txt","w")

for (key,value) in sort_items:

fp.write(key+" "+str(value)+"\n")

然后我們要注意,文件操作,打開一定要關(guān)閉,這里用到自動(dòng)關(guān)閉的with語句,于是最終的代碼,加了注釋后如下

import re#正則表達(dá)式

#open函數(shù)打開文件會(huì)得到一個(gè)文件對(duì)象fp,'r'讀文件

with open("HarryPotter1.txt",'r') as fp:

#用正則表達(dá)式對(duì)文件內(nèi)容里的標(biāo)點(diǎn)符號(hào)全部清理掉

content = re.sub('\W',' ',fp.read())

#將所有單詞的大寫轉(zhuǎn)化為小寫,方便我們統(tǒng)一處理

content = content.lower()

#split分割所有的單詞,默認(rèn)是用空格做分割點(diǎn)

#得到了一個(gè)單詞列表

content = content.split()

#我們定義一個(gè)空字典,來保存我們的單詞和統(tǒng)計(jì)次數(shù)

word_counter = {}

#對(duì)單詞列表做遍歷循環(huán)每個(gè)單詞

for word in content:

#如果字典里出現(xiàn)了這個(gè)單詞,那就次數(shù)加1

if word in word_counter:

word_counter[word]+=1

#如果沒出現(xiàn)過,那就次數(shù)賦值初始化為1

else:

word_counter[word]=1

#依據(jù)每個(gè)單詞出現(xiàn)的次數(shù),我們來對(duì)整個(gè)單詞表做排序

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

print(sort_items)

#我們?yōu)榱朔奖愫竺娌殚?#xff0c;要把排序好的結(jié)果保存的文件里

#新建一個(gè)文件,以"w"寫文件的模式打開這個(gè)文件

with open("result.txt","w") as fp:

#循環(huán)遍歷我們已經(jīng)排序好的單詞統(tǒng)計(jì)次數(shù)的列表

for (key,value) in sort_items:

#每個(gè)單詞和統(tǒng)計(jì)次數(shù),按照行寫入到我們的文件里

fp.write(key+" "+str(value)+"\n")

旅程結(jié)束,希望能夠幫到你!

總結(jié)

以上是生活随笔為你收集整理的python统计英文句子每个单词字数_Python小书3-文本英文单词统计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。