关于Rocchio算法和向量空间模型反馈
什么是相關(guān)反饋以及向量空間檢索模型在此不敘。
Rocchio公式是這樣的,省掉不相關(guān)部分,因?yàn)橄嚓P(guān)部分更重要。
有研究表明,在用戶只反饋一兩篇相關(guān)文檔的情況下,如果用戶同時標(biāo)明文檔中的哪些段落是相關(guān)的,并允許檢索系統(tǒng)將相關(guān)段落而不是整個相關(guān)文檔的向量表示加入到原始查詢中,那么相關(guān)反饋的效果會明顯提高,為什么呢?
請先看下圖
標(biāo)明哪些段落是相關(guān)的,也就相當(dāng)于增加了相關(guān)的索引詞,通過公式計(jì)算出的新的查詢向量的值也就更加合理,關(guān)于相關(guān)索引詞的相似度也就更大,故檢索效果會顯著提高。
2.同一研究表明,一旦用戶返回了足夠的反饋結(jié)果(比如10-20篇相關(guān)文檔),同時并沒有標(biāo)明文檔中哪些段落是相關(guān)的,如果使用整個相關(guān)文檔的向量加入到原始查詢中,系統(tǒng)同樣可以得到很好的效果,解釋其中的原因。
不標(biāo)明段落相關(guān),但是把整個相關(guān)文檔向量加入到原始查詢中,根據(jù)公式仍然可以知道,這將大大提高新的查詢向量關(guān)于相關(guān)文檔的相似度,從而提高檢索效果。
參考文獻(xiàn)
http://www.docin.com/p-116849541.html
總結(jié)
以上是生活随笔為你收集整理的关于Rocchio算法和向量空间模型反馈的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BM算法的shift1表是在所有情况下移
- 下一篇: 判断一个字符串的所有字符是否都在另一个字