日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch生态技术峰会 | Elasticsearch在企查查的应用实践

發布時間:2024/8/23 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch生态技术峰会 | Elasticsearch在企查查的应用实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介:?開源最大的特征就是開放性,云生態則讓開源技術更具開放性與創造性,Elastic 與阿里云的合作正是開源與云生態共生共榮的典范。值此合作三周年之際,我們邀請業界資深人士相聚云端,共話云上Elasticsearch生態與技術的未來。

開源最大的特征就是開放性,云生態則讓開源技術更具開放性與創造性,Elastic 與阿里云的合作正是開源與云生態共生共榮的典范。值此合作三周年之際,我們邀請業界資深人士相聚云端,共話云上Elasticsearch生態與技術的未來。

?

?

本篇內容是企查查搜索部門經理范兆明分享的Elasticsearch在企查查的應用實踐。
分享人:企查查搜索部門經理范兆明

視頻地址:http://cloud.video.taobao.com/play/u/3177173649/p/1/e/6/t/1/297441406466.mp4

眾所周知,企查查是一家專業做工商查詢的公司,所有的業務入口都是基于查詢完成的,可以說查詢是實現企查查價值的主要入口。所以,本篇內容將介紹Elasticsearch在企查查的應用實踐。

企查查遇到阿里云ES時的狀況是,海量的數據無法存儲,存儲后的數據無法做大規模的分析,實時的用戶行為得不到到監控?;谶@些痛點,讓企查查在尋找解決辦法的過程中遇到并認識了阿里云ES。通過搭建ELK日志分析平臺、日志分析、全文檢索等功能,充分的了解和熟悉了ES。

ES主要的技術革新和特點,總結而言有三個:架構天生分布式、檢索全文和結構、分析實時聚合。

架構天生分布式

ES天生的分布式架構可以通過硬件擴容的方式實現海量數據的膨脹,并且它的副本模式能夠解決數據安全問題。

?

?

檢索全文和結構

通過Lucene的倒排索引、Bm25的全文檢索和高效的結構化檢索,能夠滿足大部分搜索場景。

分析實時聚合

實時的海量聚合能力和多聚合模式能夠完成大部分分析場景。

基于以上ES的能力,最終企查查選擇了阿里云ES。那么阿里云在ES的基礎上又帶來了哪些方面的便捷呢?

?

?

優秀的NLP分詞器

阿里云ES具有優秀的NLP分詞器能力。目前主流的ES中文分詞器有IK和ANSJ等主要的幾種,企查查選擇了IK和ANSJ后,清洗了大約百萬級的基礎數據,然后導入到IK和ANSJ。通過阿里云分詞器對比了IK和ANSJ分詞器發現,基于NLP的阿里云分詞器更優秀。

區別就在于,基于NLP的阿里云分詞器可以在不同場景解析出不同的語義,完成不同分詞,所以企查查最終的解決方案是,以阿里云分詞器為主,以ANSJ分詞器為輔做了兩套分詞模式,同時應用于文檔搜索。

一站式管理和高效擴展

這兩個特點原本就是云平臺的天然優勢,這也是為什么中小企業和高速發展企業會選擇云平臺的根本原因。

企查查基于阿里云Elasticsearch設計的應用實踐,這里給大家介紹幾個核心的數據。

?

?

5000+QPS
5000+QPS是指實時峰值QPS達到每秒5000;

200+應用
200+是指目前有200個數據維度參與了實時搜索;

8TB數據
8TB是指所有實時搜索數據加起來超過8TB。

從下圖企查查的發展歷程可以發現,2014年企查查只有單一的工傷搜索維度;發展到2020年底,企查查已經超過了200多個搜索維度??焖俚陌姹镜?、數據爆炸式的增長、爆炸式的用戶請求等等都在阿里云ES上都得到了很好的體現。因為阿里云具有足夠穩定、快速擴容、大大減少運營成本和搜索故障等特點,在這些年的發展中不斷的提升企查查的搜索體驗。

?

?

企查查的技術特點

企查查涉及到的其他技術特點跟全文檢索特點是一樣的,包括高并發、海量數據、實時聚合和分詞等特點。高并發和實時聚合也是ES所擅長的,再加上阿里云優秀的NLP分詞器,兩兩作用后讓企查查搜索體驗更優秀。

?

?

搜索的目的

我們越來越重視搜索并不斷提高搜索體驗,那么搜索需要呈現的結果是怎樣的呢?

?

?

第一個是精準搜索。顧名思義,就是把搜索詞和文本詞完全匹配的結果返回給用戶;

第二個是分詞匹配。分詞匹配是目前搜索技術的主流,也是最難實現的。難度在于,雖然有基于語義的分詞器,如基于NLP的阿里云,但仍然會有分詞異常和分詞歧義的時候?;A數據的權重配比、清洗排序能否達到用戶預期和搜索意圖,都是長期迭代的任務。

第三個是意義搜索。意思是當用戶搜索的詞,在精準搜索和分詞搜索都沒有匹配,但實際上意義是一樣時提供的服務,比如番茄和西紅柿,或是同音字和形近字,這個時候就會需要意義搜索。意義搜索就是把同義字、同音字和形近字都反饋給搜索用戶。

第四個是意圖搜索。當用戶搜了一大段內容,但是在分詞、精準和意義搜索里都沒有辦法找到搜索結果時,就需要提取用戶搜索的核心詞, 然后用核心詞再去搜索并反饋給用戶結果。

第五個是部分匹配搜索。意思是當上述四個搜索都沒有結果的時候,需要將部分匹配出的結果反饋給用戶。

Elasticsearch還能帶來什么?

目前ES在機器學習方面做了持續迭代,可以自動發現實時數據異常,自動實現業務的實時監控。

ES可以做更深層次的數據分析,還可以將發現數據的核心詞和數據的特點推薦給搜索的用戶。

?

原文鏈接

本文為阿里云原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的Elasticsearch生态技术峰会 | Elasticsearch在企查查的应用实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。