日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新词发现想法

發(fā)布時間:2024/9/30 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 新词发现想法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考

http://www.matrix67.com/blog/archives/5044

http://for-ever-young.iteye.com/blog/1133136


1. 通過用戶查詢query發(fā)現(xiàn)

2. 互信息

互信息之統(tǒng)計模型中衡量2個隨機(jī)變量X,Y之間的關(guān)聯(lián)程度,而在新詞的識別中則特指相鄰2個詞之間的關(guān)聯(lián)程度。

MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))

那么當(dāng)『XY』未在已經(jīng)訓(xùn)練完的詞庫中出現(xiàn),且該互信息高于某一閥值值,那么我們就假定該詞為新詞。


3. 頻率

當(dāng)某一組連續(xù)相鄰的字在新的語料庫或網(wǎng)絡(luò)日志中大量出現(xiàn)而未在詞庫中登記時,那么我們也可假定該詞為新詞。


4. 先分詞,求分詞結(jié)果組合串 出現(xiàn)的頻率


5. matrix67 新詞發(fā)現(xiàn)的工作很有創(chuàng)意

把一個新詞定位為兩個維度,一是內(nèi)部凝結(jié)度,可以用互信息描述;二 是外面信息熵

很明顯的是,如果內(nèi)部凝結(jié)度越高,互信息越高

并且 如果左鄰或右鄰的詞的種類越多,熵越大



總結(jié)

以上是生活随笔為你收集整理的新词发现想法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。