日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语言统计学中的几个定律,可作为设计检索的参考

發布時間:2023/12/10 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语言统计学中的几个定律,可作为设计检索的参考 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
30定律:出現頻率最高的30個詞占全文本總詞數的30% 如果剔除150個最高頻率的詞(由于df過大被認為是停用詞):倒排表記錄總個數會減少25-30% Zipf定律: 在自然語料庫中所有term的freq(頻度)排名和其freq(頻度)的乘積大致是一個常數 freq_NO1 *?1 =?freq_NO2 *?2?=?freq_NO3 *?3?=?freq_NOn * N 那也就是說排名第二多的詞的頻度是第一多的一半,排名第三的詞頻度是第一的1/3,這樣以此類推 heaps定律,在自然語料庫中不重復term的個數和語料庫數據量成指數關系 因為是指數關系,可以知道下面幾個特征 1 文檔數無限增大,不重復term的個數也不會趨于一個常數 2?隨著文檔數的增加,不重復term的增長率會有所下降,增長率漸漸趨于平穩 Benford law在自然形成的十進制數據中,任何一個數據的第一個數字d出現的概率大致log10(1+1/d)

轉載于:https://www.cnblogs.com/hdflzh/p/4034622.html

總結

以上是生活随笔為你收集整理的语言统计学中的几个定律,可作为设计检索的参考的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。