统计词频 matlab,批量统计若干类词频总数方法
因研究需要統(tǒng)計(jì)語料中的實(shí)詞總數(shù),如果時間允許,當(dāng)然可以一個一個去數(shù)。不過這種方法在今天似乎是不可行的,時間不允許不說,出現(xiàn)的錯誤對研究造成影響也不劃算。
原本想通過AntConc的Advanced
Search基于文件的檢索功能來完成。該文件中放入實(shí)詞的符碼,這樣就一次性完成一批檢索了。文件中實(shí)詞詞性符碼以及相應(yīng)的檢索表達(dá)式如下:
*/n
*/nt
*/nd
*/nl
*/ni
*/nhf
*/nhg
*/ns
*/ni
*/nz
*/v
*/vd
*/vl
*/vu
*/a
*/f
*/m
*/q
*/mq
*/d
不過實(shí)踐了一下并沒有動靜。AntConc的反饋是“No seach term has been
entered?”。看來AntConc并不認(rèn)識以上表達(dá)式。
取消其中的Wildcart變成
/n
/nt
/nd
/nl
/ni
/nhf
/nhg
/ns
/ni
/nz
/v
/vd
/vl
/vu
/a
/f
/m
/q
/mq
/d
這次同樣沒有結(jié)果。不知是什么原因。最后,只好使用正常的檢索功能,不過還是不想一個一個去檢索,因?yàn)檎z索中有一個OR的邏輯表達(dá)式,即用豎線“|”將不同的檢索項(xiàng)分開,就可以將若干項(xiàng)通過OR的邏輯表達(dá)式來檢索了。這次的表倒式為:*/n|*/nt|*/nd|*/nl|*/ni|*/nhf|*/nhg|*/ns|*/ni|*/nz|*/v|*/vd|*/vl|*/vu|*/a|*/f|*/m|*/q|*/mq|*/d|
幸運(yùn),這次AntConc啟動了,并且有了結(jié)果:
雖然結(jié)果已經(jīng)出來了,但是疑問還在,前面兩種方法問題出在哪里呢?
總結(jié)
以上是生活随笔為你收集整理的统计词频 matlab,批量统计若干类词频总数方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 详解 masm + textpad 编译
- 下一篇: wls matlab code,【 MA