當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python文本词频统计是什么_python 大批量文本分词以及词频统计（高效处理案例）...

發(fā)布時間：2025/3/11 python 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 python文本词频统计是什么_python 大批量文本分词以及词频统计（高效处理案例）... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

環(huán)境：python3.6

庫：jieba，xlwt，xlwings，collections

前兩天有個需求要對一張表里的中文語句進(jìn)行分詞，并統(tǒng)計每個詞語出現(xiàn)的次數(shù)。

表格1231.xlsx大致內(nèi)容如下：

由于表格內(nèi)容過大，約有100W條數(shù)據(jù)，普通讀取表格的方式效率非常慢，所以這次用的方法是xlwings，

xlwings是目前看來操作excel最快速、做的比較完善的一個庫，優(yōu)化很好，調(diào)用方式非常靈活。對讀取大表格的有很高的效率

以下是完整的代碼：

import jieba

import xlwt, xlrd

import xlwings as xw

from collections import Counter

# 定義一個空列表

all_word_list = []

# 分詞

def trans_CN(text):

# 接收分詞的字符串

word_list = jieba.cut(text)

# 分詞后在單獨(dú)個體之間加上空格

result = " ".join(word_list)

# 轉(zhuǎn)換成list

result = result.split(" ")

return result

# 判斷詞是否為中文

def is_Chinese(word):

for ch in word:

if '\u4e00' <= ch <= '\u9fff':

return True

return False

start_row = 2 # 處理Excel文件開始行

end_row = 1000000 # 處理Excel結(jié)束行

# 指定不顯示地打開Excel，讀取Excel文件

app = xw.App(visible=False, add_book=False)

wb = app.books.open(r"./1231.xlsx") # 打開Excel文件

sheet = wb.sheets[9] # 選擇第0個表單

# 讀取Excel表單前1000000行的數(shù)據(jù)，讀取Excel表單前1000000行的數(shù)據(jù)

for row in range(start_row, end_row):

print(row)

row_str = str(row)

# 循環(huán)中引用Excel的sheet和range的對象，讀取C列的每一行的值

content_text = sheet.range('C' + row_str).value

# print(content_text)

if not content_text:

continue

if not isinstance(content_text, str):

continue

# 長度小于4的語句過濾

if len(content_text) > 3:

word_list = trans_CN(content_text)

print("分詞后", word_list)

# 判斷列表元素是否為中文，將非中文詞移除

for s in word_list:

if not is_Chinese(s):

word_list.remove(s)

all_word_list += word_list

# 統(tǒng)計列表中元素出現(xiàn)的頻率

counter = Counter(all_word_list)

print("統(tǒng)計頻率完成")

# 將列表中的元素按照頻率大小排序

result_list = sorted(counter.items(), key=lambda x: x[1], reverse=True)

# 將結(jié)果寫入表格

print("開始寫入表格")

myWorkbook = xlwt.Workbook()

mySheet = myWorkbook.add_sheet('Sheet1', cell_overwrite_ok=True)

rows = 0

for i in result_list:

mySheet.write(rows, 0, i[0])

mySheet.write(rows, 1, i[1])

rows += 1

myWorkbook.save('result.xls')

# 保存并關(guān)閉Excel文件

wb.save()

wb.close()

運(yùn)行完成后，保存為result.xls,查看結(jié)果:

A列為分詞，B列為該詞出現(xiàn)的次數(shù)

總結(jié)

以上是生活随笔為你收集整理的python文本词频统计是什么_python 大批量文本分词以及词频统计（高效处理案例）...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ue4模型导出_MAYA动画导出以及导入
下一篇： python代码安全性问题_这个pyth

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python文本词频统计是什么_python 大批量文本分词 以及词频统计 （高效处理案例）...

總結(jié)

python文本词频统计是什么_python 大批量文本分词以及词频统计（高效处理案例）...