當(dāng)前位置:
首頁(yè) >
新词发现想法
發(fā)布時(shí)間:2024/9/30
40
豆豆
參考
http://www.matrix67.com/blog/archives/5044
http://for-ever-young.iteye.com/blog/1133136
1. 通過(guò)用戶(hù)查詢(xún)query發(fā)現(xiàn)
2. 互信息
互信息之統(tǒng)計(jì)模型中衡量2個(gè)隨機(jī)變量X,Y之間的關(guān)聯(lián)程度,而在新詞的識(shí)別中則特指相鄰2個(gè)詞之間的關(guān)聯(lián)程度。
MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))
那么當(dāng)『XY』未在已經(jīng)訓(xùn)練完的詞庫(kù)中出現(xiàn),且該互信息高于某一閥值值,那么我們就假定該詞為新詞。
3. 頻率
當(dāng)某一組連續(xù)相鄰的字在新的語(yǔ)料庫(kù)或網(wǎng)絡(luò)日志中大量出現(xiàn)而未在詞庫(kù)中登記時(shí),那么我們也可假定該詞為新詞。
4. 先分詞,求分詞結(jié)果組合串 出現(xiàn)的頻率
5. matrix67 新詞發(fā)現(xiàn)的工作很有創(chuàng)意
把一個(gè)新詞定位為兩個(gè)維度,一是內(nèi)部凝結(jié)度,可以用互信息描述;二 是外面信息熵
很明顯的是,如果內(nèi)部凝結(jié)度越高,互信息越高
并且 如果左鄰或右鄰的詞的種類(lèi)越多,熵越大
總結(jié)
- 上一篇: 进制思想
- 下一篇: 只用一次+ 求三个整数之和