句子相似度比较的归一化
我們將不同長(zhǎng)度的句子(預(yù)處理并分詞之后的長(zhǎng)度)直接做比較其實(shí)是不公平的,舉個(gè)例子:
?
Sentence 1 =? 長(zhǎng)度為2
Sentence 2 = 長(zhǎng)度為1
Sentence 3 = 長(zhǎng)度為3
(在取相似詞TOP4,exp=0.7,的情況下)
即便Sent2與Sent1詞的組成完全不同,base_similarity=0.2513
同樣的,Sent3與Sent1完全不同, ? ? ? base_similarity=0.2063
長(zhǎng)度長(zhǎng)的詞本身就處于劣勢(shì),所以我考慮在相似度的基礎(chǔ)上,減去base_similarity,并加上一個(gè)常數(shù)(純粹為了好看,不然我其實(shí)應(yīng)該使用正態(tài)分布作歸一化,這個(gè)后續(xù)做)
?
此外,exp取0.6是我在分析近義詞的時(shí)候得到的,講道理我應(yīng)該統(tǒng)計(jì)得到TOP1 TOP2 TOP3...的平均值或者中位數(shù),這個(gè)也后續(xù)做把。。。先用經(jīng)驗(yàn)值替代
?
轉(zhuǎn)載于:https://www.cnblogs.com/yjybupt/p/9929362.html
總結(jié)
以上是生活随笔為你收集整理的句子相似度比较的归一化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: TCP连接之报文首部
- 下一篇: react 倒计时 countDown