日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

谈谈对搜索技术Elastic SearchLucene的理解

發布時間:2025/4/5 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 谈谈对搜索技术Elastic SearchLucene的理解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

十一一直陪家人,所以也沒時間寫文章。最近剛好趕上Elastic Search上市,其實在圈子里還是挺轟動的,因為這個也是少數的靠賣開源軟件服務上市的公司。大家都知道ES是做搜索服務的,今天就聊聊我對搜索的認識

從業務屬性講

搜索的話,其實是大家接觸最多的一類業務。其實說機器學習,其實是一門技術,而搜索是一項業務,機器學習可以應用到搜索業務中去,同時中間件技術、數據庫技術等都跟搜索密不可分。

從業務屬性上講搜索的話,在我眼里分為兩種。一種是簡單的匹配類搜索,一種是業務導向類。前者的追求是最高效率的找到跟輸入信息匹配的內容,Google、百度做的事情就是這種。業務導向型,更多地是將搜索賦予業務邏輯,比如A在電商平臺搜索以一個包,電商平臺可以根據A的消費能力去匹配最合適的產品,甚至返回的不是包而是一個跟包搭配的裙子。

倒排索引/正派索引

真正的搜索業務不會是暴力的從全部數據中遍歷搜索的。一定是將一類數據建成索引。倒排或者正排表示的是索引建立的方法,這個索引建立也就是數據建模過程,是搜索系統的核心。

上圖是一種索引關系,正排索引是以Document,也就是文章ID為主key,如果要搜索某個關鍵詞,需要遍歷每一篇文章,搜索的時候計算量很大,好處是建模容易。

倒排索引就是以詞為主key,搜索的時候找到詞之后返回這個詞所在的文章。這種方式搜索的時候計算量小,建模比較難。倒排索引也是目前的主流搜索索引建模方法。

Lucene

Lucene是非常有名的搜索引擎了,包含下面的整套架構,從上面提的索引創建,到用戶的訪問。

Elastic Search其實是在這一套上面做了分布式服務,規范了各種訪問和查詢接口,支持多點容災和查詢。

未來的搜索

現在的搜索其實已經內嵌了很多機器學習相關的組件,比如建索引的時候會有分詞、文本理解相關的應用。未來隨著人工智能的發展我覺得搜索這項業務的本質會發生變化。

現在搜索做的事情是匹配用戶輸入的信息和世界上已經存在的信息。未來隨著類似于深度學習GAN模型的發展,或者其它生成類技術的發展。

搜索會變成自動生成用戶輸入的內容,比如現在用戶輸入“黃片兒”,搜索引擎是利用爬蟲去找已經存在的黃片,未來可能就直接現場人工智能造一個黃片返回,甚至能根據用戶習慣自定義。

這個就是想說的內容,未來機器學習在搜索領域一定大有可為,持續關注這個業務方向~

總結

以上是生活随笔為你收集整理的谈谈对搜索技术Elastic SearchLucene的理解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。