百度分词ai php,百度分词技术
百度分詞技術(shù)[編輯]
簡介
分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。
分詞的原理
對于等于或小于三個字符的,百度不做切割;而對于三個字符以上的,則會按照以下方向進行切割。
1.字符串匹配的分詞方法
①、正向最大匹配法 :把一個詞從左至右來分詞。
如:“工地方向?qū)А?/p>
采用正向最大匹配法是 “工地、方向、導(dǎo)”。
②、反向最大匹配法:把一個詞從右至左來分詞 。
如:“工地方向?qū)А?/p>
采用反向匹配法是: “工、地方、向?qū)А?/p>
③、采用最短路徑分詞法:就是說一段話里面要求切出的詞數(shù)是最少的。
正向最大匹配法和反向最大匹配法組合起來就可以叫做雙向最大匹配法。
2.詞義分詞法
一種機器語音判斷的分詞方法,進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象來分詞。
這種分詞方法,現(xiàn)在還不成熟,處在測試階段。
3.統(tǒng)計分詞法
根據(jù)詞組的統(tǒng)計,就會發(fā)現(xiàn)兩個相鄰的字出現(xiàn)的頻率最多,那么這個詞就很重要。就可以作為用戶提供字符串中的分隔符,這樣來分詞。
比如,“我的,你的,許多的,這里,這一,那里”等等,這些詞出現(xiàn)的比較多,就從這些詞里面分開來。
總結(jié):
①、百度采用的分詞技術(shù)大多為正向匹配法。
②、全字匹配得到的詞的權(quán)重會高于分開的詞的權(quán)重。
③、根據(jù)搜索量切詞,搜索量大的分詞的權(quán)重比字符匹配的權(quán)重要高
④、人名和地面優(yōu)先匹配
⑤、使用雙向最大匹配。
參考資料:
擴展閱讀:
相關(guān)詞條:
合作編輯:
分享到:
更多
網(wǎng)絡(luò)營銷詞典內(nèi)容均由網(wǎng)友提供,僅供參考。如發(fā)現(xiàn)詞條內(nèi)容有問題,請發(fā)郵件至info # wm23.com。
總結(jié)
以上是生活随笔為你收集整理的百度分词ai php,百度分词技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 洛谷新手指南
- 下一篇: php和吉他哪个难学,【简单粗暴教你掌握