python 对excel文件进行分词并进行词频统计_教你背单词 | 利用python分析考研英语阅读并生成词频降序表...
作為一名19考研er
距離我考研結(jié)束已經(jīng)過(guò)去大半年
想和大家分享一下當(dāng)初背單詞的騷操作
眾所周知
考研英語(yǔ)“得閱讀者得天下”
提升詞匯量又是提高閱讀的關(guān)鍵
那么問(wèn)題來(lái)了?
大家都是怎么背單詞的呢
從A到Z拿起磚頭書(shū)就開(kāi)干?
abandon?abandon?放棄... ...
又或是拿起《考研大綱詞匯5500》
背了前面忘了后面
也不能說(shuō)不對(duì)...
只是考研時(shí)間爭(zhēng)分奪秒
這樣 太慢了!
還有一個(gè)問(wèn)題
你背的單詞你確定它考嗎?
你考研大綱5500有多少零頻詞你知道嗎?
一個(gè)生詞死磕半天
卻發(fā)現(xiàn)他從來(lái)沒(méi)在真題中出現(xiàn)過(guò)
難受吧
既然要應(yīng)試
就要有應(yīng)試該有都樣子
考研閱讀如此重要
那最快得辦法就是直接背閱讀里的單詞
背閱讀里的中高頻詞
”啥?“
”我一篇閱讀都還沒(méi)做過(guò)現(xiàn)在直接拿起閱讀看”
“到時(shí)候做起真題豈不是被劇透一臉!”
不不不,還沒(méi)說(shuō)完
下面就來(lái)教你怎么高效的背閱讀里的單詞
首先我設(shè)想的程序是這樣的
輸入:歷年的閱讀真題
輸出:考研真題詞頻降序表
啥是詞頻降序表我先解釋一下
如圖,左邊是歷年真題出現(xiàn)單詞
右邊是此單詞的頻數(shù),也就是出現(xiàn)的次數(shù)
整張表對(duì)出現(xiàn)次數(shù)降序排列下來(lái)
就叫作詞頻降序表
程序的設(shè)計(jì)思路是這樣的
(看不懂就直接跳過(guò)這里吧,文末可直接獲取詞頻表)
先下載好歷年的真題
然后我挑選了其中的閱讀和完形部分
統(tǒng)一整理成一份txt格式的英文文本數(shù)據(jù)
數(shù)據(jù)準(zhǔn)備好了
接下來(lái)開(kāi)始編寫(xiě)程序
我采用python常用的自然語(yǔ)言處理包
NTLK(Natural Language Toolkit)
在控制臺(tái)使用pip install nltk命令安裝NLTK庫(kù)
執(zhí)行如下python語(yǔ)句下載語(yǔ)料庫(kù)
界面彈出包管理界面
選擇all然后Download就行
準(zhǔn)備工作完畢就可以正式的編寫(xiě)代碼
首先用正則表達(dá)式切分特殊字符
比如逗號(hào)、分號(hào)、冒號(hào)等
pat_letter = re.compile(r'[^a-zA-Z \']+')還有特殊的縮寫(xiě)單詞
比如
can't ---> can not
I've--->I have
...
同樣編寫(xiě)它們的正則規(guī)則
緊接著對(duì)文本進(jìn)行分詞操作
#?分詞處理words?=?nltk.word_tokenize(text)再對(duì)無(wú)意義的停用詞和初級(jí)詞匯進(jìn)行過(guò)濾
停用詞可以理解為無(wú)實(shí)意的虛詞,如of、is等
(NLTK英文停用詞庫(kù))
初級(jí)詞匯就是apple、hello這種,都是需要剔除的
剔除的依據(jù)采用BNC采用詞匯
我們從中進(jìn)行挑選出部分初級(jí)詞匯進(jìn)行過(guò)濾
(BNC常用詞匯表)
將停用詞表和初級(jí)詞匯表整合成一個(gè)過(guò)濾詞表
用if語(yǔ)句將屬于過(guò)濾詞表的單詞通通過(guò)濾掉
下一步,詞形還原
gril,grils這種同一個(gè)詞只是形式不同
我們都需要在保持詞性不變的前提下對(duì)這些詞進(jìn)行還原
閱讀的詞匯處理干凈后
就要對(duì)詞語(yǔ)進(jìn)行詞頻的統(tǒng)計(jì)和排序
直接使用python提供的collections.Counter()模塊
對(duì)集合元素進(jìn)行統(tǒng)計(jì)
?#?返回單詞和詞頻?并排序collections.Counter(words).most_common()最后導(dǎo)出成CSV格式
就得到了我們想要的詞頻降序表
對(duì)詞頻表進(jìn)行初步分析
我們可以發(fā)現(xiàn)
有2013個(gè)單詞
只出現(xiàn)一次!
而真正考研反復(fù)出現(xiàn)的單詞
僅僅只有兩千多個(gè)
我們只要按照頻率從高往低背
就可以率先解決閱讀中的大部分生詞
那么問(wèn)題又來(lái)了
難道以后背單詞都要對(duì)著excel背嗎
沒(méi)有中文、沒(méi)有例句、沒(méi)有發(fā)音?
打死我也不會(huì)去用的
誤會(huì)了
到這里還沒(méi)結(jié)束
用過(guò)墨墨背單詞的一定知道
有一個(gè)功能是添加自定義詞庫(kù)
進(jìn)去后的界面如下
復(fù)制詞匯表的第一列單詞
然后粘貼進(jìn)來(lái)
保存后即可生成自定義的單詞本
墨墨背單詞提供了單詞的
發(fā)音、翻譯、例句、記憶方法等功能
并且能夠根據(jù)艾賓浩斯曲線安排復(fù)習(xí)計(jì)劃
將詞頻降序表與墨墨背單詞結(jié)合一起
從此考研詞匯就再也沒(méi)有看不懂的了
從最高頻的詞匯開(kāi)始背起
搶先抓住閱讀的核心詞匯
背的每一個(gè)單詞你都知道他在文章中出現(xiàn)了N次
意味著每背一個(gè)單詞
將來(lái)你都少錯(cuò)N次
視頻教程在這
完
公眾號(hào)發(fā)送考研單詞
即可獲得考研詞匯表
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的python 对excel文件进行分词并进行词频统计_教你背单词 | 利用python分析考研英语阅读并生成词频降序表...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: linux c 读写mbr_一文看懂Li
- 下一篇: python的底层是c_python基本