日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

信息检索名词解释

發(fā)布時(shí)間:2025/3/15 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息检索名词解释 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

·布爾查詢(Boolean query)

由詞項(xiàng)的布爾組合構(gòu)成的查詢. "information and retrieval", "vision or

sight", "Clinton and (not Gore)".

·分類(Classificaiton)

確定給定文件所屬相應(yīng)范疇的過程. 例如, 確定一篇文章該發(fā)到哪個(gè)News Group,

或是一個(gè)email消息該歸入哪個(gè)子目錄, 或是一篇文章的主題.

·聚類(Cluster)

相似文件的表示之分組. 在向量空間模型下, 檢索可通過對(duì)查詢向量和聚類重心之

比較來進(jìn)行. 在一個(gè)聚類之內(nèi), 搜索可以更有針對(duì)性的方式繼續(xù).

·協(xié)同過濾(Collaborative Filtering)

通過參考與特定用戶具有相似興趣和需求的其他用戶的選擇來決定如何為該用戶的

文件進(jìn)行過濾的過程. 又叫"社會(huì)過濾(Social Filtering)".

·文件集(Collection)

用戶準(zhǔn)備從中獲取信息的一組文件. 另見"測(cè)試文件集(test collection)".

·文件集融合(Collection Fusion)

取自多個(gè)文件集的搜索結(jié)果的綜合問題. 這里面有許多技巧, 因?yàn)橛行┲笜?biāo)在不同

文件集中是不同的, IDF. 而且, 如果一共只要求檢索固定個(gè)數(shù)的文件, 從哪個(gè)

文件集里該取多少也是不清楚的.

·基于內(nèi)容的過濾(Content-Based Filtering)

從文件正文中抽取特征以確定文件的相關(guān)程度的過程. 另見"認(rèn)知過濾(cognitive

filtering)".

·余弦相似度(Cosine Similarity)

"相似度(Similarity)".

·文件(Document)

用戶可能要檢索的一條信息. 它可以是一個(gè)文本文件, 一個(gè)WWW page, Newsgroup

里的一篇文章, 一幅圖象, 或者是某本書里的一句話.

·標(biāo)引(Indexing)

把文件集轉(zhuǎn)換成易于查找和檢索的合適形式的過程.

·信息抽取(Information Extraction)

試圖從格式不受限制的文本中找出語義結(jié)構(gòu)及其他類型的信息的研究方向.

·信息過濾(Information Filtering)

從給定的大量數(shù)據(jù)中選出用戶所需要的數(shù)據(jù). 這是信息檢索問題的標(biāo)準(zhǔn)形式.

·信息需求(Information Need)

用戶真正要知道的東西. 一個(gè)查詢是信息需求的一個(gè)近似表達(dá).

·信息檢索(Information Retrieval)

研究對(duì)數(shù)據(jù), 特別是對(duì)文本及其他非結(jié)構(gòu)化形式的數(shù)據(jù)進(jìn)行標(biāo)引、搜索和查遍的系

統(tǒng)的學(xué)科.

·倒排頻度(Inverse Document Frequency)

簡(jiǎn)稱IDF, 是反映一個(gè)特定的詞項(xiàng)在一個(gè)文件集中按文件統(tǒng)計(jì)出現(xiàn)的頻繁程度的指

標(biāo). 通常用log(文件集中文件總數(shù)/文件集中包含該詞項(xiàng)的文件數(shù))來定義. 因此,

常用詞的倒排頻度很低, 只在唯一文件里出現(xiàn)的詞項(xiàng)的倒排頻度很高. 本指標(biāo)在

為模型中的參數(shù)加權(quán)時(shí)非常有用.

·倒排文件(Inverted File)

文件集的一種表示形式, 本質(zhì)上是一種索引. 它對(duì)每一個(gè)詞或詞項(xiàng), 記錄其出現(xiàn)

的所有位置. 這種表示形式對(duì)于處理布爾查詢特別有用.

·查準(zhǔn)率(Precision)

信息檢索的標(biāo)準(zhǔn)性能指標(biāo), 定義為: 查到的相關(guān)文件數(shù)/查到的文件總數(shù). 例如, 設(shè)

在文件集里有80篇有關(guān)widgets的文件, 某系統(tǒng)查出60篇文件, 其中40篇與widgets

有關(guān), 則該系統(tǒng)的查準(zhǔn)率為40/60=76%. 最理想的查準(zhǔn)率是100%. 這并不難做到(

如只返回1篇文件). 然而, 信息檢索要求系統(tǒng)在查準(zhǔn)率和查全率(recall)上要同時(shí)

做到盡可能地大.

·概率模型(Probabilistic Model)

任何考慮詞項(xiàng)或概念在文件中的出現(xiàn)概率或文件滿足信息需求的概率的模型都是

概率模型. 貝葉斯推理網(wǎng)絡(luò)是這類模型的很好的框架. INQUERY系統(tǒng)是其最成功的實(shí)

.

·查詢(Query)

刻畫用戶的信息需求的一串詞. 注意它不必是和語法的自然語言句子.

·查詢擴(kuò)充(Query Expansion)

根據(jù)原有查詢構(gòu)造新的查詢的過程. 新詞可以是從其他文件里添加過來的相關(guān)反饋,

也可以是從某個(gè)主題詞表上添加過來的同義詞.

·問題解答(Question Answering)

從大規(guī)模文件集中尋找恰好能夠回答用戶用自然語言提出的問題的文件.

·查全率(Recall)

信息檢索的標(biāo)準(zhǔn)性能指標(biāo), 定義為: 查到的相關(guān)文件數(shù)/文件集中的相關(guān)文件總數(shù).

例如, 設(shè)文件集里有80篇有關(guān)widgets的文件, 某系統(tǒng)查出60篇文件, 其中40篇與

widgets有關(guān), 則該系統(tǒng)的查全率為40/80=50%. 最理想的查準(zhǔn)率是100%. 這并不難

做到(比如把文件集里所有的文件都返回). 然而, 信息檢索要求系統(tǒng)在查準(zhǔn)率和查

全率上要同時(shí)做到盡可能地大.

·相關(guān)(Relevance)

一個(gè)文件滿足用戶的信息需求的程度的抽象指標(biāo). 理想情況下, 系統(tǒng)可以把用戶需

要的相關(guān)文件都檢索出來. 可惜這是一個(gè)主觀的概念, 很難量化.

·相關(guān)反饋(Relevance Feedback)

對(duì)已知查詢結(jié)果進(jìn)行求精的過程. 由用戶指定已知查詢結(jié)果中哪些是與其查詢最相

關(guān)的. 系統(tǒng)從用戶指定的文件里抽取共同詞項(xiàng)添加到原查詢上構(gòu)成一個(gè)新查詢,

新查詢繼而給出新結(jié)果, 如此可循環(huán)任意多次, 直至用戶滿意為止.

·機(jī)器人(Robot)

"網(wǎng)蟲"(Spider).

·分檢(Routing)

與信息過濾相似, 指從連續(xù)的輸入信息流中檢索出用戶需要的數(shù)據(jù)("長(zhǎng)期信息過

").

·SIGIR

全稱是ACM信息過濾專題組(ACM special interest group on Information retrieval).

他們出版《SIGIR論壇》, 并舉辦年會(huì).

·簽名文件(Signiture File)

是文件集的一種表示, 其中文件被散列成二進(jìn)制位串. 這是一種壓縮技巧, 旨在提高

查找效率.

·相似度(Similarity)

度量?jī)蓚€(gè)文件或一個(gè)文件與一個(gè)查詢之間相似程度的指標(biāo). 在向量空間模型中, 相似度

往往理解為兩個(gè)向量表示之間的靠近程度. 流行的方法是計(jì)算兩個(gè)向量夾角的余弦.

·"網(wǎng)蟲"(Spider)

也叫機(jī)器人, 是在Web上搜尋URL地址的程序. 它從特定的Web Page出發(fā), 依次訪問從

Page能訪問到的一切連接, 從而遍歷WWW組成的圖. 它可以在此過程中紀(jì)錄各服務(wù)器

上的信息, 以便建立索引或其他查找工具. 幾乎所有的查找工具都是用"網(wǎng)蟲"搞起來

. 使用"網(wǎng)蟲"的一個(gè)問題是: 如果編程不當(dāng), 會(huì)在短時(shí)間內(nèi)頻繁訪問同一服務(wù)器,

造成系統(tǒng)性能下降.

·詞根還原(Stemming)

從文件或查詢中去掉詞的前后綴, 用以形成和系統(tǒng)內(nèi)部模型里一致的詞項(xiàng). 做這件

事是為了把具有同樣概念意義的詞(walk, walked, walker, walking)統(tǒng)一處理,

樣用戶查詢時(shí)就不必拘泥了. Porter是一個(gè)眾所周知的詞根還原算法.但是要小心:

"porter"這個(gè)詞送到Porter系統(tǒng)里去還原成"port"將導(dǎo)致把關(guān)于船和葡萄酒的文章也

都查出來! (在英語里, "porter"是搬運(yùn)工的意思, "port"有港口和酒桶閥門的意思).

·停用詞(Stopword)

指象介詞或冠詞這類具有很少語義內(nèi)容的詞. 也指在文件集的各個(gè)文件里都有很高出

現(xiàn)頻率的詞. 停用詞由于出現(xiàn)在很多文件里, 故對(duì)檢索沒什么貢獻(xiàn). 這樣的詞一般都

要從文件的內(nèi)部模型或查詢中去掉.

某些系統(tǒng)事先規(guī)定好哪些詞是它的"停用詞". 然而, 一個(gè)詞是否停用詞這件事可能是

與上下文有關(guān)的. 例如在有關(guān)計(jì)算機(jī)科學(xué)的文件集里, "computer"就被當(dāng)做停用詞;

但在從《消費(fèi)者報(bào)告》中選出的文章組成的文件集中, "computer"就不是停用詞.

·詞項(xiàng)(Term)

一個(gè)出現(xiàn)在文件或查詢中的單詞或概念. 有時(shí)也指原始文本里的詞.

·詞頻(Term Frequency)

簡(jiǎn)拼為TF. 指特定詞項(xiàng)在給定文件或查詢中的出現(xiàn)次數(shù). 可用于為模型中的參數(shù)加

權(quán).

·測(cè)試文件集(Test Collection)

專門為評(píng)價(jià)實(shí)驗(yàn)性信息檢索系統(tǒng)而建立的文件集. 通常伴隨一套查詢題庫(kù), 以及由人

類專家做出的文件與查詢相關(guān)與否的標(biāo)記(相當(dāng)于標(biāo)準(zhǔn)答案). TIPSTER是當(dāng)前最流行的

測(cè)試文件集.

·TIPSTER

一個(gè)正在進(jìn)行中的項(xiàng)目, 集中了若干單位和組織的資源來對(duì)信息提取和分檢進(jìn)行攻關(guān).

總的框架是: 每個(gè)團(tuán)隊(duì)負(fù)責(zé)一部分工作, 完成后只須插到總體結(jié)構(gòu)即可. 該項(xiàng)目有一

個(gè)很大的測(cè)試文件集.

·TREC

全文是Text REtrieval Conference(文本檢索協(xié)會(huì)). 該組織為信息檢索研究者提供公

用測(cè)試文件集和公用評(píng)價(jià)系統(tǒng). 這樣系統(tǒng)之間就可以在同樣數(shù)據(jù)的基礎(chǔ)上進(jìn)行比較和對(duì)

.

·向量空間模型(Vector Space Model)

文件或查詢轉(zhuǎn)換成向量的一種表示. 向量的特征通常是出現(xiàn)在對(duì)應(yīng)文件或查詢中的詞,

當(dāng)然經(jīng)過了詞根還原并濾掉了停用詞. 向量往往做過加權(quán)處理, 以突出對(duì)確定意義因而

對(duì)信息檢索有典型貢獻(xiàn)的詞項(xiàng). 在檢索過程中, 要拿查詢向量與每個(gè)文件向量作比較.

與查詢向量靠近的被認(rèn)為是相似的, "查到"處理. SMART是使用向量空間模型的最有

名的系統(tǒng).

·加權(quán)處理(Weighting)

通常對(duì)詞項(xiàng)而言, 指突出更重要的一些詞項(xiàng)的某些參數(shù)的過程. 在向量空間模型下,

此過程施用于向量的某些特征. 比較流行的加權(quán)方式是TF*IDF. 還有布爾方式(詞項(xiàng)

出現(xiàn)為1, 不出現(xiàn)為0)以及只用TF的方式. 在向量空間模型下, 權(quán)值往往進(jìn)行歸一化(

量總和為1), 或每個(gè)分量都除以所有分量的平方和的平方根(模為1).??????

與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的信息检索名词解释的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。