日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

IR领域标准

發(fā)布時間:2025/4/14 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 IR领域标准 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

信息檢索評價是對信息檢索系統(tǒng)性能(主要滿足用戶信息需求的能力)進(jìn)行評估的活動。通過評估可以評價不同技術(shù)的優(yōu)劣,不同因素對系統(tǒng)的影響,從而促進(jìn)本領(lǐng)域研究水平的不斷提高。信息檢索系統(tǒng)的目標(biāo)是較少消耗情況下盡快、全面返回準(zhǔn)確的結(jié)果。

IR的評價指標(biāo),通常分為三個方面:
(1)效率(Efficiency)—可以采用通常的評價方法:時間開銷、空間開銷、響應(yīng)速度。
(2)效果(Effectiveness):返回的文檔中有多少相關(guān)文檔、所有相關(guān)文檔中返回了多少、返回得靠不靠前。
(3)其他指標(biāo):覆蓋率(Coverage)、訪問量、數(shù)據(jù)更新速度。

如何評價不同檢索系統(tǒng)的效果呢?一般是針對相同的文檔集合,相同的查詢主題集合,相同的評價指標(biāo),不同的檢索系統(tǒng)進(jìn)行比較。相關(guān)的評測系統(tǒng)有:
(1)The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文檔集合)
(2)SMART System,Gerald Salton, 1964-1988 (數(shù)千篇文檔集合)
(3)TREC(Text Retrieval Conference), Donna Harman, 美國標(biāo)準(zhǔn)技術(shù)研究所, 1992 -(上百萬篇文檔),信息檢索的“奧運會”

信息檢索的評價指標(biāo)可以分為兩類:
(1)對單個查詢進(jìn)行評估的指標(biāo):對單個查詢得到一個結(jié)果
(2)對多個查詢進(jìn)行評估的指標(biāo)(通常用于對系統(tǒng)的評價):求平均

?

一、單個查詢的評價指標(biāo)
P&R

召回率(Recall)=檢出的相關(guān)文檔數(shù)/相關(guān)文檔數(shù),也稱為查全率,R∈[0,1]
準(zhǔn)確率(Precision)=檢出的相關(guān)文檔數(shù)/檢出文檔數(shù),也稱為查準(zhǔn)率,P∈[0,1]
假設(shè):文本集中所有文獻(xiàn)已進(jìn)行了檢查

關(guān)于召回率的計算
(1)對于大規(guī)模語料集合,列舉每個查詢的所有相關(guān)文檔是不可能的事情,因此,不可能準(zhǔn)確地計算召回率
(2)緩沖池(Pooling)方法:對多個檢索系統(tǒng)的Top N個結(jié)果組成的集合進(jìn)行標(biāo)注,標(biāo)注出的相關(guān)文檔集合作為整個相關(guān)文檔集合。這種做法被驗證是可行的,在TREC會議中被廣泛采用。

雖然Precision和Recall都很重要,但是不同的應(yīng)用、不用的用戶可能會對兩者的要求不一樣。因此,實際應(yīng)用中應(yīng)該考慮這點。
(1)垃圾郵件過濾:寧愿漏掉一些垃圾郵件,但是盡量少將正常郵件判定成垃圾郵件。
(2)有些用戶希望返回的結(jié)果全一點,他有時間挑選;有些用戶希望返回結(jié)果準(zhǔn)一點,他不需要結(jié)果很全就能完成任務(wù)。


F值和E值
(1)F值:召回率R和正確率P的調(diào)和平均值,if P=0 or R=0, then F=0, else 采用下式計算:

或者公式:

F值也被稱為F1值(F1 measure),因為recall和precision的權(quán)重一樣。
更通用的公式如下:

其中F2值(更重視召回率)和F0.5值(更重視準(zhǔn)確率)也是非常常用的指標(biāo)值。

(2)E值:召回率R和正確率P的加權(quán)平均值,b>1表示更重視P

或者公式:

F和E的關(guān)系如下:

引入序的作用

R-Precision:計算序列中前R個位置文獻(xiàn)的準(zhǔn)確率。R指與當(dāng)前查詢相關(guān)的文獻(xiàn)總數(shù)。

P-R曲線
P-R曲線是正確率-召回率曲線(precision versus recall curve)。檢索結(jié)果以排序方式排列,用戶不可能馬上看到全部文檔,因此,在用戶觀察的過程中,正確率和召回率在不斷變化(vary)。可以求出在召回率分別為:0%,10%,20%,30%,…, 90%,100%上對應(yīng)的正確率,然后描出圖像。
某個查詢q的標(biāo)準(zhǔn)答案集合為:Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
某個IR系統(tǒng)對q的檢索結(jié)果如下:

繪成曲線圖如下:

P-R曲線的插值問題,對于前面的例子,假設(shè)Rq={d3,d56,d129}
(1)3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
(2)不存在10%, 20%,…,90%的召回率點,而只存在33.3%, 66.7%, 100%三個召回率點
(3)在這種情況下,需要利用存在的召回率點對不存在的召回率點進(jìn)行插值(interpolate)
(4)對于t%,如果不存在該召回率點,則定義t%為從t%到(t+10)%中最大的正確率值。
(5)對于上例,0%,10%,20%,30%上正確率為0.33,40%~60%對應(yīng)0.25,70%以上對應(yīng)0.2

P-R曲線的優(yōu)點:簡單直觀;既考慮了檢索結(jié)果的覆蓋度,又考慮了檢索結(jié)果的排序情況
P-R曲線的缺點:單個查詢的P-R曲線雖然直觀,但是難以明確表示兩個查詢的檢索結(jié)果的優(yōu)劣。

P-R曲線如何可以轉(zhuǎn)化為單一指標(biāo)呢?一般有兩種方法:
(1)Break Point:P-R曲線上P=R的那個點。這樣可以直接進(jìn)行單值比較
(2)11點平均正確率(11 point average precision):在召回率分別為0,0.1,0.2,…,1.0的十一個點上的正確率求平均,等價于插值的AP。


AP
平均正確率(Average Precision, AP):對不同召回率點上的正確率進(jìn)行平均。
(1)未插值的AP: 某個查詢Q共有6個相關(guān)結(jié)果,某系統(tǒng)排序返回了5篇相關(guān)文檔,其位置分別是第1,第2,第5,第10,第20位,則AP=(1/1+2/2+3/5+4/10+5/20+0)/6
(2)插值的AP:在召回率分別為0,0.1,0.2,…,1.0的十一個點上的正確率求平均,等價于11點平均
(3)只對返回的相關(guān)文檔進(jìn)行計算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5,傾向那些快速返回結(jié)果的系統(tǒng),沒有考慮召回率。

不考慮召回率情況下,單個查詢評價指標(biāo)還有:
(1)Precision@N:在第N個位置上的正確率,對于搜索引擎,考慮到大部分作者只關(guān)注前一、兩頁的結(jié)果,P@10,?P@20對大規(guī)模搜索引擎非常有效
(2)NDCG:后面詳細(xì)介紹。
(3)Bpref:Binary preference,2005年首次引入到TREC的Terabyte任務(wù)中。


NDCG
每個文檔不僅僅只有相關(guān)和不相關(guān)兩種情況,而是有相關(guān)度級別,比如0,1,2,3。我們可以假設(shè),對于返回結(jié)果:相關(guān)度級別越高的結(jié)果越多越好;相關(guān)度級別越高的結(jié)果越靠前越好。
NDCG(Normalized Discounted Cumulative Gain):計算相對復(fù)雜。對于排在結(jié)位置n處的NDCG的計算公式如下圖所示:

在MAP中,四個文檔和query要么相關(guān),要么不相關(guān),也就是相關(guān)度非0即1。NDCG中改進(jìn)了下,相關(guān)度分成從0到r的r+1的等級(r可設(shè)定)。當(dāng)取r=5時,等級設(shè)定如下圖所示:(應(yīng)該還有r=1那一級,原文檔有誤,不過這里不影響理解。當(dāng)然注意Value這一項,咱們也可以直接定義分值,如0-3分值。求了2方實際上把Value的差異變大了,便于對比評測)

例如現(xiàn)在有一個query={abc},返回下圖左列的Ranked List(URL),當(dāng)假設(shè)用戶的選擇與排序結(jié)果無關(guān)(即每一級都等概率被選中),則生成的累計增益值(從1到n的所有的位置上的貢獻(xiàn)值都被加起來作為最終的評價結(jié)果,這樣,一個一定長度的文檔序列被轉(zhuǎn)換成了一個相關(guān)分值的序列)。如下圖最右列所示:

考慮到一般情況下用戶會優(yōu)先點選排在前面的搜索結(jié)果,所以應(yīng)該引入一個折算因子(discounting factor): log(2)/log(1+rank)。(也就是1/log2(1+rank))。這時將獲得DCG值(Discounted Cumulative Gain)如下如所示:

最后,為了使不同等級上的搜索結(jié)果的得分值容易比較,需要將DCG值歸一化的到NDCG值。操作如下圖所示,首先計算理想返回結(jié)果List的DCG值:

然后用DCG/MaxDCG就得到NDCG值,如下圖所示:

畫出圖如下:

NDCG優(yōu)點:圖形直觀,易解釋;支持非二值的相關(guān)度定義,比P-R曲線更精確;能夠反映用戶的行為特征(如:用戶的持續(xù)性persistence)
NDCG缺點:相關(guān)度的定義難以一致;需要參數(shù)設(shè)定。


Bpref
Bpref(Binary preference),2005年首次引入到TREC的Terabyte任務(wù)中。只考慮對返回結(jié)果列表中的經(jīng)過判斷后的文檔進(jìn)行評價。在相關(guān)性判斷完整的情況下,bpref具有與MAP相一致的評價結(jié)果。在測試集相關(guān)性判斷不完全的情況下,bpref依然具有很好的應(yīng)用(比MAP更好)。這個評價指標(biāo)主要關(guān)心不相關(guān)文檔在相關(guān)文檔之前出現(xiàn)的次數(shù)。具體公式為:

其中,對每個Topic,已判定結(jié)果中有R個相關(guān)結(jié)果。r 是相關(guān)文檔,n是Top R篇不相關(guān)文檔集合的子集。(n ranked higher than r是指當(dāng)前相關(guān)結(jié)果項之前有n個不相關(guān)的結(jié)果)

下面舉個例子來說明bpref的性能,假設(shè)檢索結(jié)果集S為:
S ={D1 ,D2 ?,D3 * ,D4 * ,D5 ?,D6 ,D7 ?,D8 ,D9 ,D10 }
其中D2、D5 和D7是相關(guān)文檔,D3 和D4為未經(jīng)判斷的文檔。
對這個例子來說,R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]。


二、多個查詢的評價指標(biāo)
多個查詢的評價指標(biāo),一般就是對單個查詢的評價進(jìn)行求平均。平均的求法一般有兩種:
(1)宏平均(Macro Average):對每個查詢求出某個指標(biāo),然后對這些指標(biāo)進(jìn)行算術(shù)平均
(2)微平均(Micro Average):將所有查詢視為一個查詢,將各種情況的文檔總數(shù)求和,然后進(jìn)行指標(biāo)的計算
例如:Micro Precision=(對所有查詢檢出的相關(guān)文檔總數(shù))/(對所有查詢檢出的文檔總數(shù))
宏平均對所有查詢一視同仁,微平均受返回相關(guān)文檔數(shù)目比較大的查詢影響。
宏平均和微平均的例子:
兩個查詢q1、q2的標(biāo)準(zhǔn)答案數(shù)目分別為100個和50個,某系統(tǒng)對q1檢索出80個結(jié)果,其中正確數(shù)目為40,系統(tǒng)對q2檢索出30個結(jié)果,其中正確數(shù)目為24,則:
P1=40/80=0.5, R1=40/100=0.4
P2=24/30=0.8, R2=24/50=0.48
MacroP=(P1+P2)/2=0.65
MacroR=(R1+R2)/2=0.44
MicroP=(40+24)/(80+30)=0.58
MicroR=(40+24)/(100+50)=0.43

?

MAP
MAP(MeanAP:Mean Average Precision):對所有查詢的AP求宏平均。具體而言,單個主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值。主集合的平均準(zhǔn)確率(MAP)是每個主題的平均準(zhǔn)確率的平均值。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。系統(tǒng)檢索出來的相關(guān)文檔越靠前(rank 越高),MAP就可能越高。如果系統(tǒng)沒有返回相關(guān)文檔,則準(zhǔn)確率默認(rèn)為0。
多個查詢下的查準(zhǔn)率/查全率曲線,可通過計算其平均查準(zhǔn)率得到,公式如下(Nq為查詢的數(shù)量) :

P(r) 是指查全率為r時的平均查準(zhǔn)率, Pi(r)指查全率為r時的第i個查詢的查準(zhǔn)率 .

例如:假設(shè)有兩個主題,主題1有4個相關(guān)網(wǎng)頁,主題2有5個相關(guān)網(wǎng)頁。某系統(tǒng)對于主題1檢索出4個相關(guān)網(wǎng)頁,其rank分別為1, 2, 4, 7;對于主題2檢索出3個相關(guān)網(wǎng)頁,其rank分別為1,3,5。對于主題1,平均準(zhǔn)確率為(1/1+2/2+3/4+4/7)/4=0.83。對于主題2,平均準(zhǔn)確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64。”

MRR
MRR(Mean Reciprocal Rank) :對于某些IR系統(tǒng)(如問答系統(tǒng)或主頁發(fā)現(xiàn)系統(tǒng)),只關(guān)心第一個標(biāo)準(zhǔn)答案返回的位置(Rank),越前越好,這個位置的倒數(shù)稱為RR,對問題集合求平均,則得到MRR。(把標(biāo)準(zhǔn)答案在被評價系統(tǒng)給出結(jié)果中的排序取倒數(shù)作為它的準(zhǔn)確度,再對所有的問題取平均)
例子:兩個問題,系統(tǒng)對第一個問題返回的標(biāo)準(zhǔn)答案的Rank是2,對第二個問題返回的標(biāo)準(zhǔn)答案的Rank是4,則系統(tǒng)的MRR為(1/2+1/4)/2=3/8
再舉個例子:有3個query如下圖所示:(黑體為返回結(jié)果中最匹配的一項)

可計算這個系統(tǒng)的MRR值為:(1/3 + 1/2 + 1)/3 = 11/18=0.61。

GMAP
GMAP(Geometric MAP):TREC2004 Robust 任務(wù)引進(jìn)。
先看一個例子:從MAP(宏平均)來看,系統(tǒng)A好于系統(tǒng)B,但是從每個查詢來看,3個查詢中有2個Topic B比A有提高,其中一個提高的幅度達(dá)到300%。

因此,我們計算幾何平均值:

例子中:GMAPa=0.056,GMAPb=0.086。GMAPa<GMAPb
GMAP和MAP各有利弊,可以配合使用,如果存在難Topic時,GMAP更能體現(xiàn)細(xì)微差別。

?

三、面向用戶的評價指標(biāo)
前面的指標(biāo)都沒有考慮用戶因素。而相關(guān)不相關(guān)由用戶判定。假定用戶已知的相關(guān)文檔集合為U,檢索結(jié)果和U的交集為Ru,則可以定義覆蓋率(Coverage) C=|Ru|/|U|,表示系統(tǒng)找到的用戶已知的相關(guān)文檔比例。假定檢索結(jié)果中返回一些用戶以前未知的相關(guān)文檔Rk,則可以定義出新穎率(Novelty Ratio)N=|Rk|/(|Ru|+|Rk|),表示系統(tǒng)返回的新相關(guān)文檔的比例。
相對查全率:檢索系統(tǒng)檢索出的相關(guān)文檔數(shù)量與用戶期望得到的相關(guān)文檔的數(shù)量的比例。
查全努力:用戶期望得到的相關(guān)文檔與為了得到這些相關(guān)文檔而在檢索結(jié)果中審查文檔數(shù)量的比率。


圖示覆蓋率和新穎率


四、評價指標(biāo)總結(jié)
最基本的評價指標(biāo):召回率、準(zhǔn)確率
不足:
1、一些評價指標(biāo),如R-Precision,MAP,P@10等,都只考慮經(jīng)過Pooling技術(shù)之后判斷的相關(guān)文檔的排序。
2、對判斷不相關(guān)文檔與未經(jīng)判斷的文檔的差別并沒有考慮。
3、測試集越來越大,由于相關(guān)性判斷還基本上是人工判斷,因此建立完整的相關(guān)性判斷變得越來越難。


參考資料:
http://wenku.baidu.com/view/1c6fb7d7b9f3f90f76c61b74.html
http://en.wikipedia.org/wiki/Precision_and_recall
http://www.cnblogs.com/eyeszjwang/articles/2368087.html

轉(zhuǎn)載請注明出處:互聯(lián)網(wǎng)旁觀者~黃言之?http://blog.sina.com.cn/netreview/

?

總結(jié)

以上是生活随笔為你收集整理的IR领域标准的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。