當前位置：首頁 > 编程语言 > python >内容正文

python

python统计英文句子每个单词字数_Python小书3-文本英文单词统计

發布時間：2023/12/10 python 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 python统计英文句子每个单词字数_Python小书3-文本英文单词统计小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

之前寫Python Web小書第三小節本來用的垃圾郵件的案例三郎：Python貝葉斯推理垃圾郵件分類?zhuanlan.zhihu.com

后來發現里面的東西，涉及到概率，程序太復雜了。。。哈哈哈

所以就想著，哪天重寫一下，選來選去，覺得垃圾郵件分類里面的單詞統計，可以深入給大家好好講講這個小案例。

這里選用的是一部英文哈利波特小說第一部：3496行，443725個字符

下面我們開始捋思路，我們拿到的是一部有很多單詞和符號的小說，我們要做的事就是要對所有的單詞出現的次數進行統計。

第一步，先讀出整部小說的內容

第二步，對小說的內容進行清洗，只保留所有的單詞

第三步，構建字典，遍歷所有單詞，進行次數統計

是不是感覺好簡單，那我們上路吧！！！！！！！

首先我們先讀取小說的全部內容

fp = open("HarryPotter1.txt",'r')#文件名，r為讀模式

print(fp.read())

打印輸出如下

我們要把上圖里面的這些符號干掉，有沒有什么好辦法呢，當然有啦，這就要用到我們的正則表達式，代碼如下：

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())#第一個參數\W和第二個參數空格的意思是替換所有非字符為空格

print(content)

同時，我們發現一個單詞如果在句首字母會大寫，比如The和the如果不處理會被理解為兩個詞匯。于是我們繼續更新代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

print(content)

到現在為止，我們對初始文本做了過濾標點符號和統一大小寫的預處理，下面就是把這個文本分割為一個個單詞，代碼如下

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

print(content)

現在我們得到一個包含所有單詞的列表，下面就可以進行單詞統計了，首先生成空字典word_counter，然后循環遍歷整個單詞列表進行詞數統計

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

print(word_counter)

因為上面看起來很別扭，我想按照順序，一行行打印，于是我試著做如下操作

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter:

print(key,value)

結果，報錯，因為Dict不能同時對key和value同時遍歷，所以有三種方式

#1.遍歷鍵，然后索引到值

for key in word_counter:

print(key+':'+word_counter[key])

for key in word_counter.keys():

print(key+':'+word_counter[key])

#2.遍歷值

for value in word_counter.values():

print(value)

#3.遍歷字典項

for kv in word_counter.items():

print(kv)

for key,value in word_counter.items():

print(key+':'+value)

于是，需要將字典轉化為列表，也就有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter.items():

print(key,value)

因為控制臺太短，無法全部顯示，所以我們保存到文件處理，而且我們關注的字數統計，更核心的是哪些詞出現的更多，于是有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

fp=open("result.txt","w")

for (key,value) in sort_items:

fp.write(key+" "+str(value)+"\n")

然后我們要注意，文件操作，打開一定要關閉，這里用到自動關閉的with語句，于是最終的代碼，加了注釋后如下

import re#正則表達式

#open函數打開文件會得到一個文件對象fp，'r'讀文件

with open("HarryPotter1.txt",'r') as fp:

#用正則表達式對文件內容里的標點符號全部清理掉

content = re.sub('\W',' ',fp.read())

#將所有單詞的大寫轉化為小寫，方便我們統一處理

content = content.lower()

#split分割所有的單詞，默認是用空格做分割點

#得到了一個單詞列表

content = content.split()

#我們定義一個空字典，來保存我們的單詞和統計次數

word_counter = {}

#對單詞列表做遍歷循環每個單詞

for word in content:

#如果字典里出現了這個單詞，那就次數加1

if word in word_counter:

word_counter[word]+=1

#如果沒出現過，那就次數賦值初始化為1

else:

word_counter[word]=1

#依據每個單詞出現的次數，我們來對整個單詞表做排序

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

print(sort_items)

#我們為了方便后面查閱，要把排序好的結果保存的文件里

#新建一個文件，以"w"寫文件的模式打開這個文件

with open("result.txt","w") as fp:

#循環遍歷我們已經排序好的單詞統計次數的列表

for (key,value) in sort_items:

#每個單詞和統計次數，按照行寫入到我們的文件里

fp.write(key+" "+str(value)+"\n")

旅程結束，希望能夠幫到你！

總結

以上是生活随笔為你收集整理的python统计英文句子每个单词字数_Python小书3-文本英文单词统计的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：实验12 编写0号中断的处理程序
下一篇： python中的可变数据类型有列表和元组

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python统计英文句子每个单词字数_Python小书3-文本英文单词统计

總結