當前位置：首頁 >

论文 | 信息检索结果Ranking的评价指标《RankDCG: Rank-Ordering Evaluation Measure》

發布時間：2024/1/1 48 豆豆

生活随笔收集整理的這篇文章主要介紹了论文 | 信息检索结果Ranking的评价指标《RankDCG: Rank-Ordering Evaluation Measure》小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

未經允許，不得轉載，謝謝~~

一文章簡介

為什么要提出這個新的評價算法？

我們都知道ranking過程對于信息檢索的結果是非常重要的，那么我們就需要有一些算法能評價ranking的結果到底如何。

現有用來評價ranking的常用算法有：Kendall's τ, Average Precision（AP） , Mean Average Precision(MAP)，Discounted Cumulative Gain (DCG)， nDCG.

跟簡單的分類任務只需要一個accuracy不一樣，盡管已經有了那么多的ranking measures，但仍然存在一些問題。

尤其是在解決“對那些具有相同等級分布和傾斜等級分布多個關系的離散值元素進行排序任務時”；

所以本文基于nDCG算法提出了RankDCG，并提出一些標準來測試這些算法，實驗發現只有本文的RankDCG滿足全部的要求。

二排序問題描述

Ordering：用網頁檢索的例子來看就是要在接近無窮大的數據集中找到相應的信息并對它們進行相關性排序。

問題可以用數學的方式定義為：

A為一系列元素： A = [x1,x2,x3,...,xn]；
f(x)度量了元素x與query的相關性，f(x)屬于0-1；
通常我們能在A中的n個元素找到m個相關的元素，并按相關性由高到低進行排序得到目標結果B；
B = [x|x ∈ A,f(x) > 0]，且 B = [ f(x1) > f(x2) > f(x3) > ... > f(xm) ]；

在本文中考慮現實世界中經常出現的排序問題，例如推薦系統和用戶排序；這跟上面提到的網頁檢索有一些不太一樣的地方，包括：

在這里每個元素都是相關的；
待排序的都是離散值；
會出現多個元素具有相同等級的情況；
排序結果可能會出現只有非常少數的top result是相關的情況；

針對上述問題，重新定義了目標結果B的表示為： B = [f(x1) ≥ f(x2) ≥ f(x3) ≥ ... ≥ f(xn)]，并對ranking measure提出了需要能夠正確反映上述4點的要求。

三現有評價方法

信息檢索領域有多個方法來評價rank ordering的好壞，但是沒有一個對上面描述的這種問題是完全適用的，接下來先看看目前常用的一些評價算法。

3.1 F-measure（F-score）

這是一個在IR中非常常見的評價指標；

同時考慮了檢測精度p和召回率r；

但是不適用于所有元素都相關的情況，也沒有將不同的ranks考慮在內，所以不適合作為rank-ordering的評價標準。

3.2 Average Precision and Mean Average Precision

其中：P(k) = precision@k ， ?R(k) = |recall(k?1)?recall(k)|.
其實理論上的AP應該等于綠色的precision-recall線的下方面積，而用近似計算就等于看成是一小塊的長方形的面積之和，即為圖中紅色虛線的下方面積。

MAP

其中：Q 是query的集合，而q是單個的query，即對所有query的AP求平均。

AP,MAP都可以評價rank-ordering問題；

AP，MAP基于rank與rank之間沒有關系的這個前提，沒有考慮多個元素會是同一個rank的情況；

AP，MAP對所有的rank values都是用相同的cost對待，沒有考慮需要將更多的注意力放在少數幾個high-rank的元素上。

3.3 Kendall’s τ

這個算法考慮了給定list和結果list之間元素對之間的匹配程度；

c表示匹配的元素對的數量，d表示不匹配的元素對數量；

這個算法仍然沒有考慮多個元素值相同rank，與非常少的top-k個相關元素分布情況。

關于這個算法這里給出一個具體的例子:

3.4 Discounted Cumulative Gain （DCG）

這個算法考慮了rank排序的問題，是目前文章中介紹過的唯一一個用了cost function的算法；

本文也是自己與這個算法做的改進；

rel（）指的是相關度度量函數，i 表示元素所在的位置；

這里有一個很不錯的例子哦.

標準的DCG根據元素所在的位置不同給出不同的cost；

而文章作者認為[9,1,1]對于結果[1,9,1]與[1,1,9]應該是一樣的（因為只有一個9是top-1，而且都出錯了）

四本文評價算法：RankDCG

從一個例子開始分析：

下面兩張圖為standard DCG與別人改進的DCG在各個元素上的cost圖：

不足之處：這兩個算法都將一般以上的cost放在了最高rank的元素上，這會導致整個評價算法引導ranking的走向找到top-rank的元素而不是做好ordering工作。

所以文章做的第一個工作：提出了新的rel（）函數，具體體現為將原來的變成：

具體步驟是：在L中有10個rank值，但是只有4個不同的rank，所以按照rank value對元素進行分組，得到4，那個第一個sublist的rankvalue就改成4，后面的sublist依次遞減。

這樣可以得都到以下的結果圖，可以看到整個cost下降更均衡了。

現在這樣其實還有一個問題，基于位置的折損函數cost會導致本來rank value一樣的值最后得到的cost卻是不一樣的，例如最后4個1。

文章做的第二個工作就是將基于位置的折損改成新的折損系統，具體方法是對L‘的rank value做一個翻轉，將值依次賦給各個sublist。最后得到：

這時候的cost圖為：

最后也模仿DCG->nDCG的過程，做了一次歸一化，即最終的RankDCG算法等于：

寫在最后

寫完了嘻嘻~~

簡書不支持公式真的有點小小的不方便，所有的公式都來自論文presentation的截圖。

最后，不是做信息檢索的，這篇論文只是課程的一個報告，有理解不正確或者不到位之處歡迎大佬評論獲或者私信謝謝ヾ(?°?°?)ﾉﾞ

</div>

總結

以上是生活随笔為你收集整理的论文 | 信息检索结果Ranking的评价指标《RankDCG: Rank-Ordering Evaluation Measure》的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Financial Report财务报表
下一篇： adc0809 c语言程序,ADC080

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片