日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索与机器学习

發(fā)布時間:2025/3/21 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索与机器学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

搜索與機器學習

(2012-03-23 20:34:30) 轉(zhuǎn)載▼
標簽:

搜索

信息檢索

機器學習

分類: 科研介紹

中國計算機學會《技術(shù)動態(tài)》人工智能專題。http://www.ccf.org.cn/sites/ccf/rgzn.jsp

?

今年是圖靈誕辰100周年。如果圖靈在世的話,他會驚喜地發(fā)現(xiàn)互聯(lián)網(wǎng)搜索引擎已經(jīng)能在自己當年設(shè)計的人工智能測試上取得相當好的成績,因為在主要的搜索引擎上提出各種各樣的問題,比如“理想國的作者?”或者“從知春路到清華東門怎么坐公交車?”,都能找到正確的答案。毫無疑問,互聯(lián)網(wǎng)搜索引擎已成為當今最為實用、最具代表性的智能系統(tǒng)。

?

1.互聯(lián)網(wǎng)搜索技術(shù)

據(jù)統(tǒng)計,約有60%的互聯(lián)網(wǎng)用戶每天至少使用一次搜索引擎,約有90%的互聯(lián)網(wǎng)用戶每周至少使用一次搜索引擎。搜索引擎已經(jīng)成為人們訪問互聯(lián)網(wǎng)的必經(jīng)通道。對一般用戶來說,除了搜索,沒有其他手段可以幫助更方便地獲得網(wǎng)上的信息。

?



1. 互聯(lián)網(wǎng)搜索引擎架構(gòu)圖

?

搜索引擎能看到萬億(trillion)量級的URL,需要成千上萬臺的計算機抓取、分析、索引網(wǎng)頁;每天有幾十億的用戶查詢,需要將最相關(guān)、最新、最全的結(jié)果提供給用戶。互聯(lián)網(wǎng)搜索的發(fā)展取決于軟件、硬件、系統(tǒng)等多方面的計算機技術(shù)的研發(fā)與創(chuàng)新。

?

圖1是互聯(lián)網(wǎng)搜索引擎的架構(gòu)示意圖。簡單地說,搜索引擎由抓取器、索引器、排序器、用戶界面組成。抓取器從互聯(lián)網(wǎng)上抓取網(wǎng)頁,將垃圾網(wǎng)頁過濾;索引器分析網(wǎng)頁的內(nèi)容,計算網(wǎng)頁的重要度,將網(wǎng)頁索引;用戶界面接受查詢語句,分析查詢語句的內(nèi)容;排序器從索引中檢索出含有查詢詞的網(wǎng)頁,實行查詢語句與網(wǎng)頁的匹配,將網(wǎng)頁按相關(guān)度、重要度等進行排序;用戶界面將排序結(jié)果展示給用戶,同時收集用戶搜索行為數(shù)據(jù)。

?

可以認為互聯(lián)網(wǎng)搜索主要建立在兩大領(lǐng)域的技術(shù)之上,即大規(guī)模分布式計算與統(tǒng)計機器學習。搜索引擎的規(guī)模巨大,必須采用大規(guī)模分布式處理。搜索屬于智能處理,必定是數(shù)據(jù)驅(qū)動,基于統(tǒng)計機器學習的。

?

從使用的數(shù)據(jù),以及相關(guān)的技術(shù)的觀點來看,互聯(lián)網(wǎng)搜索經(jīng)歷了三代的發(fā)展歷程。第一代搜索,將互聯(lián)網(wǎng)網(wǎng)頁看作文本,采用傳統(tǒng)信息檢索的方法。第二代搜索,利用互聯(lián)網(wǎng)的超文本結(jié)構(gòu),有效地計算網(wǎng)頁的相關(guān)度與重要度,代表的算法有PageRank。第三代搜索,有效利用日志數(shù)據(jù)與統(tǒng)計學習,使網(wǎng)頁相關(guān)度與重要度計算的精度有了進一步的提升,代表的技術(shù)包括排序?qū)W習、網(wǎng)頁重要度學習、匹配學習、話題模型學習、查詢語句轉(zhuǎn)化學習。

?

2.機器學習在互聯(lián)網(wǎng)搜索中的應(yīng)用

下面介紹一些基于統(tǒng)計機器學習的最前沿的互聯(lián)網(wǎng)搜索技術(shù)。

?

排序?qū)W習

對給定的查詢語句,將檢索到的網(wǎng)頁進行排序是排序?qū)W習的任務(wù)。排序?qū)W習將此問題形式化為監(jiān)督學習的問題,將網(wǎng)頁表示為特征向量,其中特征表示網(wǎng)頁與查詢語句的匹配程度或網(wǎng)頁的重要度,基于標注數(shù)據(jù)學習一個排序模型。現(xiàn)在最常用的方法是LambdaMART [1]。該方法將排序問題轉(zhuǎn)換為二類分類問題,利用Boosting算法優(yōu)化學習目標函數(shù)。其最大特點是不顯示地定義損失函數(shù),而定義損失函數(shù)的梯度函數(shù),以解決排序損失函數(shù)不易優(yōu)化的問題。其他代表的排序?qū)W習方法還有Rank SVM [5]、 IR SVM [2]、AdaRank [10]等。

?

網(wǎng)頁重要度學習

網(wǎng)頁重要度學習旨在計算出每個網(wǎng)頁的重要度,排序時將重要的網(wǎng)頁盡量排在前面。傳統(tǒng)的網(wǎng)頁重要度計算基于超鏈接與PageRank算法。直觀上,有許多鏈接指向的網(wǎng)頁重要,網(wǎng)頁的重要度可以通過鏈接在網(wǎng)上傳播;PageRank用馬爾可夫模型實現(xiàn)這一直觀。可以認為最近提出的BrowseRank算法 [6]是PageRank算法的擴展與補充。BrowseRank首先根據(jù)用戶行為數(shù)據(jù)構(gòu)建用戶瀏覽圖。然后再在用戶瀏覽圖上定義連續(xù)時間馬爾可夫過程,用其平穩(wěn)分布表示網(wǎng)頁的重要度。直觀上,用戶在網(wǎng)頁上平均停留時間越長,網(wǎng)頁就越重要;轉(zhuǎn)移到網(wǎng)頁的次數(shù)越高,網(wǎng)頁就越重要。基于用戶的互聯(lián)網(wǎng)使用行為數(shù)據(jù),BrowseRank能夠更好地計算網(wǎng)頁重要度。

?

匹配學習

查詢語句與網(wǎng)頁的相關(guān)性靠兩者的匹配程度決定,匹配結(jié)果直接影響搜索結(jié)果。比如,查詢“ny times”應(yīng)與含有“new york times”的網(wǎng)頁匹配。理想的匹配應(yīng)該是語義上的匹配,而不是關(guān)鍵字上的匹配。匹配學習的目的在于將字面上并不相同,但語義相同的查詢語句與網(wǎng)頁匹配上,將語義相關(guān)的網(wǎng)頁排在搜索結(jié)果的前面。代表的方法有翻譯模型 [3]與隱空間模型 [9]。日志數(shù)據(jù)中記錄了用戶點擊。比如用戶搜索“ny”,因為既含有“ny”又含有“new york”的網(wǎng)頁會被搜到,所以兩者通過用戶搜索中的點擊得以聯(lián)系。隱空間模型方法基于點擊數(shù)據(jù)將查詢語句與網(wǎng)頁投影到隱空間,在隱空間中學習到查詢語句與網(wǎng)頁之間的相似度,也就是匹配關(guān)系,進而能對新的查詢語句與網(wǎng)頁的匹配程度作出判斷。比如,學到“ny”與“new york”的相似度,判斷“ny times”與“new york times”是可以匹配的。

?

話題模型學習

查詢語句與網(wǎng)頁應(yīng)該在話題上也能匹配,比如,查詢語句是“jaguar car”,那么關(guān)于jaguar汽車的網(wǎng)頁是與查詢相關(guān)的,而關(guān)于動物jaguar的網(wǎng)頁即使含有jaguar與car這兩個字,往往也是不相關(guān)的。話題模型學習旨在自動從索引網(wǎng)頁中抽出所有可能的話題,以及每個網(wǎng)頁的話題,以便在搜索時,進行查詢語句與網(wǎng)頁在話題上的匹配。話題模型學習的方法很多,有概率方法,如PLSI、LDA,也有非概率方法,如LSI、NMF、RLSI。互聯(lián)網(wǎng)搜索需要處理大規(guī)模網(wǎng)頁數(shù)據(jù),最近提出的RLSI [7] 方法有很好的擴展性、能夠在大規(guī)模網(wǎng)頁數(shù)據(jù)上進行高效的話題模型學習。

?

查詢語句轉(zhuǎn)換學習

10-15%的英文查詢語句含有拼寫錯誤;中文查詢語句中含有許多拼音漢字轉(zhuǎn)換錯誤,如“新浪”被誤轉(zhuǎn)換為“新郎”。除此之外,查詢語句中還有許多不規(guī)范、不準確的表述。搜索引擎一般能夠自動糾正拼寫等錯誤,將不正確的查詢語句轉(zhuǎn)換為正確的查詢語句。代表的方法有CRF-QF [3]、LogLinear [8]等。例如,LogLinear方法從日志數(shù)據(jù)中收集大量的含有拼寫錯誤的查詢語句,以及相應(yīng)的正確的查詢語句,從中提取轉(zhuǎn)換規(guī)則,自動學習拼寫轉(zhuǎn)換的對數(shù)線形模型。搜索時,對新的查詢語句試用各種轉(zhuǎn)換規(guī)則,根據(jù)對數(shù)線形模型,找出最有可能的轉(zhuǎn)換,即糾正,如果轉(zhuǎn)換的概率足夠大,就對查詢語句實施轉(zhuǎn)換。

?

3.互聯(lián)網(wǎng)搜索的挑戰(zhàn)與機遇

幫助用戶盡快、盡準、盡全地找到信息,從本質(zhì)上需要對用戶需求(查詢語句),以及互聯(lián)網(wǎng)上的文本、圖像、視頻等多種數(shù)據(jù)的內(nèi)容進行“理解”。也就是要解決人工智能的挑戰(zhàn)。這種意義上,互聯(lián)網(wǎng)搜索永遠需要面對且克服這一挑戰(zhàn)。

?

互聯(lián)網(wǎng)搜索遵循冪率分布,有頭部查詢(高頻查詢)與尾部查詢(低頻查詢)。人工智能挑戰(zhàn)在尾部與頭部體現(xiàn)出不同的特點。

?

回到圖靈測試。也許經(jīng)過幾輪測試,圖靈就會發(fā)現(xiàn)互聯(lián)網(wǎng)搜索對頭部的查詢能給出很好的結(jié)果,但是對尾部的查詢結(jié)果常常不很理想。互聯(lián)網(wǎng)搜索主要還是基于關(guān)鍵字匹配。因為尾部查詢沒有足夠多的信號,比如點擊數(shù)據(jù),有時查詢語句與網(wǎng)頁不能有很好的匹配,搜索引擎無法做出正確的相關(guān)度判斷。匹配學習能解決一部分問題,但是還有很長的路要走。

?

另一方面,頭部查詢的結(jié)果往往會很多,雖然相關(guān),但是用戶會感到難于掌握全貌。如何將這些結(jié)果進行摘要總結(jié)變成另一個挑戰(zhàn)。問題也需要內(nèi)容的理解,同樣是極其困難的任務(wù)。

?

4.搜索的發(fā)展趨勢

過去10多年里,互聯(lián)網(wǎng)搜索是搜索中的“主戰(zhàn)場”。但是可以預見,今后10年,搜索的重點將從互聯(lián)網(wǎng)搜索逐漸轉(zhuǎn)移到移動搜索。搜索技術(shù)也會發(fā)生革命性的變化,產(chǎn)生范式轉(zhuǎn)移(paradigm shift)。新一代的搜索應(yīng)該有以下幾個特點:移動、多樣化、任務(wù)指向、自然與個性化。

?

移動中的搜索

雖然在臺式機、智能手機、平板電腦、電視屏幕等各種終端上的搜索都會增加,但是搜索的主要終端將從臺式機轉(zhuǎn)變?yōu)橹悄苁謾C、平板電腦等移動設(shè)備。通過語音與觸摸屏的搜索會更加普遍。

?

多樣化的搜索

搜索的內(nèi)容也將從互聯(lián)網(wǎng)網(wǎng)頁,轉(zhuǎn)變?yōu)槎喾N信息的融合。具體表現(xiàn)如下。跨越信息種類,可以統(tǒng)一搜索文本、圖片、視頻、圖表、實體;跨越信息源,可以同時搜索互聯(lián)網(wǎng)、社區(qū)網(wǎng)、社會媒體、數(shù)據(jù)庫的信息;跨越樣式,可以通過文字、語音、圖片搜索;跨越語言,可以用一種語言搜索其它語言。

?

任務(wù)指向的搜索

搜索會幫助用戶直接完成某項任務(wù),比如,訂機票、買家具。搜索與終端上的應(yīng)用的結(jié)合會極大改變用戶體驗。

?

自然的搜索

搜索會變得更加自然,搜索引擎會變成用戶的“信息仆人”。用戶可以用自己認為最自然的方式搜索,比如,關(guān)鍵詞、自然語言問句、以及其組合。搜索會越來越像問答系統(tǒng)。搜索將不會是“一錘子買賣”,而是與用戶的交互。

?

個性化的搜索

搜索會根據(jù)不同的用戶提供不同的內(nèi)容,“投其所好”。從用戶的社會網(wǎng)絡(luò)、地理位置、行為紀錄會得到更多信息幫助加深對用戶的理解,使個性化搜索變得更加可能。

?

5.結(jié)束語

可以看出統(tǒng)計機器學習在搜索中起著舉足輕重的作用。事實上,互聯(lián)網(wǎng)搜索引擎所展現(xiàn)的不是個體智慧,而是群體智慧。 能回答文獻作者、公交車路線等問題是因為網(wǎng)上有大量的內(nèi)容數(shù)據(jù),搜索引擎積累了大量的用戶行為數(shù)據(jù),而搜索引擎能夠通過機器學習有效地將這些數(shù)據(jù)聯(lián)系、組織、利用起來,在大規(guī)模的分布式計算平臺上為用戶提供服務(wù)。互聯(lián)網(wǎng)搜索如此,今后的移動搜索亦將是如此。

?

圖靈誕辰200周年的時候,搜索會變成什么樣,我們無法具體想像。但是有一點是肯定的,搜索會越來越接近通過圖靈測試的目標。

?

6.參考文獻

[1] Burges, From RankNet to LambdaRank to LambdaMART, MSR-TR-2010-82.

[2] Cao et al., Adapting Ranking SVM to Document Retrieval, SIGIR 2006.

[3] Gao et al., Click-through-based Translation Models for Web Search: from Word Models to Phrase Models. CIKM 2010.

[4] Guo et al., A Unified and Discriminative Model for Query Refinement. SIGIR, 2008.

[5] Herbrich et al., Large Margin Rank Boundaries for Ordinal Regression, Advances in Large Margin Classifiers, 2000.

[6] Liu et al., BrowseRank: Letting Users Vote for Page Importance, SIGIR 2008.

[7] Wang, et al., Regularized Latent Semantic Indexing, SIGIR 2011.

[8] Wang, et al., A Fast and Accurate Method for Approximate String Search, ACL-HLT, 2011.

[9] Wu, et al., Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata. Microsoft Research Technical Report, 2011.

[10] Xu and Li, AdaRank: A Boosting Algorithm for Information Retrieval, SIGIR 2007.

總結(jié)

以上是生活随笔為你收集整理的搜索与机器学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。