日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文《learning to link with wikipedia》

發(fā)布時(shí)間:2023/12/13 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文《learning to link with wikipedia》 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

learning to link with wikipedia

一、本文目標(biāo):

???????? 如何自動(dòng)識(shí)別非結(jié)構(gòu)化文本中提到的主題,并將其鏈接到適當(dāng)?shù)腤ikipedia文章中進(jìn)行解釋。

?

二、主要借鑒論文:

???? Mihalcea and Csomai----Wikify!: linking documents to encyclopedic knowledge

???????? 第一步:detection(identifying the terms and phrases from which links should be made):

link probabilities:它作為錨的維基百科文章數(shù)量,除以提及它的文章數(shù)量。

?????? 第二步:disambiguation:從短語(yǔ)和上下文的單詞中提取特征。

??????

???? Medelyan et al.---- Topic Indexing with Wikipedia.

???????? Disambiguation:

Balancing the commonness (or prior probability) of each sense and how the sense relates to its surrounding context.

?

?

?

三、兩大步驟:link disambiguation and link detection

Link disambiguation:

????? Commonness and Relatedness

  1.The commonness of a sense is defined by the number of times it is used as a destination in Wikipedia.

?

  2.Our algorithm identifies these cases by comparing each possible sense with its surrounding context. This is a cyclic problem because these terms may also be ambiguous

????????

???????? where a and b are the two articles of interest, A and B are the sets of all articles that link to a and b respectively, and W is set of all articles in Wikipedia.

????????

????? Some context terms are better than others

???????? 1.單詞The是明確的,因?yàn)樗挥糜阪溄拥轿恼碌恼Z(yǔ)法概念,但是對(duì)于消除其他概念的歧義,它沒(méi)有任何價(jià)值。

?????? link probability 可以解決這個(gè)問(wèn)題。很多文章提到the,但沒(méi)有把它作為鏈接使用。

  2. 許多上下文術(shù)語(yǔ)都是與文檔的中心無(wú)關(guān)的. 我們可以使用Relatedness的度量方法,通過(guò)計(jì)算一個(gè)術(shù)語(yǔ)與所有其他上下文術(shù)語(yǔ)的平均語(yǔ)義關(guān)聯(lián),來(lái)確定該術(shù)語(yǔ)與這個(gè)中心線程的關(guān)系有多密切。

  

  These two variables—link probability and relatedness—are averaged to provide a weight for each context term.

????????

????? Combining the features

圖中,大多關(guān)于“樹”是與本文是不相關(guān)的,因?yàn)樵撐臋n顯然是關(guān)于計(jì)算機(jī)科學(xué)的。如果在上下文不明確或混淆的情況下,則應(yīng)選擇最常用。這在大多數(shù)情況下都是正確的。

?????? 引入最后一個(gè)feature: context quality

???????? This takes into account the number of terms involved, the extent they relate to each other, and how often they are used as Wikipedia links.

????????

???????? the commonness of each sense,its relatedness to the surrounding context,context quality

這三個(gè)feature來(lái)訓(xùn)練一個(gè)分類器。

注:這個(gè)分類器并不是為每一項(xiàng)選擇最好的詞義,而是獨(dú)立考慮每一種候選,并產(chǎn)生它的概率。

????????

?

???????? 訓(xùn)練階段需要考慮的問(wèn)題:參數(shù),分類器。

?????????????????? 參數(shù):specifies the minimum probability of senses that are considered by the algorithm.

??????????????????????????? ---- 2%

?????????????????? 分類器:C4.5

?

????????

?

link detection:

link detection首先收集文檔中的所有n-grams,并保留那些概率超過(guò)非常低的閾值(這用于丟棄無(wú)意義的短語(yǔ)和停止詞)。使用分類器消除所有剩余短語(yǔ)的歧義。

?

?

1.會(huì)有幾個(gè)鏈接與之相關(guān)的情況。就像Democrats and Democratic Party的情況一樣。

? 2.如果分類器發(fā)現(xiàn)多個(gè)可能的情況,術(shù)語(yǔ)可能指向多個(gè)候選。例如,民主黨人可以指該黨或任何民主的支持者。

Features of these articles are used to inform the classifier about which topics should and should not be linked:

Link Probability

Mihalcea and Csomai’s link probability to recognize the majority of links

???????? 引入兩個(gè)feature: the average and the maximum

???????? the average: expected to be more consistent

???????? the maxinum: be more indicative of links

比如:Democratic Party 比 the party 有更高的鏈接可能性。

Relatedness

此文中,讀者更可能對(duì)克林頓、奧巴馬和民主黨感興趣,而不是佛羅里達(dá)州或密歇根州。

希望與文檔中心線相關(guān)的主題更有可能被鏈接。

引入feature: ?the average relatedness

between each topic and all of the other candidates.

Disambiguation Confidence

使用分類器的結(jié)果作為置信度。

引入兩個(gè)feature: average and maximum values

Generality

對(duì)于讀者來(lái)說(shuō),為他們不知道的主題提供鏈接要比為那些不需要解釋的主題提供鏈接更有用。

為一個(gè)鏈接定義一個(gè)generality表示它位于Wikipedia類別樹中的最小深度。

通過(guò)從構(gòu)成Wikipedia組織層次結(jié)構(gòu)根的基本類別開始執(zhí)行廣度優(yōu)先搜索來(lái)計(jì)算。

Location and Spread

? ? ? ? ?三個(gè)feature: Frequency ??????? first occurrence??????? last occurrence

???????? 第一次和最后一次出現(xiàn)的距離用于體現(xiàn)文檔討論主題的一致性。????????

?

  訓(xùn)練階段唯一要配置的變量是初始鏈接概率閾值,用于丟棄無(wú)意義的短語(yǔ)和停止單詞。

???????? --6.5%

?

四.WIKIFICATION IN THE WILD

???????? Data: Xinhua News Service, the New York Times, and the Associated Press.

????????

?

????????

?

轉(zhuǎn)載于:https://www.cnblogs.com/dhName/p/11078596.html

總結(jié)

以上是生活随笔為你收集整理的论文《learning to link with wikipedia》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。