當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

ElasticSearch 大数据搜索查询分析全指南

發(fā)布時(shí)間：2023/12/3 综合教程 47 生活家

生活随笔收集整理的這篇文章主要介紹了 ElasticSearch 大数据搜索查询分析全指南小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

專欄亮點(diǎn)

本專欄采用最新的 ElasticSearch7.x 版本

同市面上大部分的 ElasticSearch6.x 教程相比較，7 版本更新改動(dòng)很大，比如新增 KQL（Kibana Query Language），內(nèi)部索引類型限定為 _doc ，還是 ES for python API 接口的改變等。

眾所周知，在技術(shù)更新如此快的年代，掌握最新的技術(shù)就能夠在未來使用它的時(shí)候不會(huì)那么快就被淘汰。比如從 Java 的 iBatis 到 MyBatis ，從 Struts2 到 Spring MVC 再到 Spring Boot 。雖然你不能夠停止學(xué)習(xí)的腳步，但是你可以選擇插隊(duì)學(xué)習(xí)，彎道超越，直接學(xué)習(xí)最新的最流行的技術(shù)，這樣就比別人更領(lǐng)先一步。
本專欄將針對(duì) ES 在業(yè)務(wù)中的核心概念進(jìn)行解析，讓你不僅明白為什么使用它還能了解該怎樣選擇。

ES 作為目前大數(shù)據(jù)方向必須掌握的技能，主要是作為工具分析挖掘業(yè)務(wù)數(shù)據(jù)，因此專欄會(huì)有大量的實(shí)踐案例，涵蓋了工作中常見的業(yè)務(wù)場(chǎng)景，無論你是初入職場(chǎng)的小白，還是即將畢業(yè)的學(xué)生黨，專欄能夠給你提供各種實(shí)踐操作，手把手帶你玩轉(zhuǎn)起 ES 。而且我也將在專欄里針對(duì)大廠面試中常見的問題給出正確的解答思路。
本專欄將介紹在 Java 和 Python 框架下如何運(yùn)用 ElasticSearch。

本專欄講究變學(xué)邊做，把學(xué)的到東西能夠立即投入到公司實(shí)際業(yè)務(wù)中，所以會(huì)介紹如何在 Python 與 Java 框架下使用 ES。同時(shí)，比如制作業(yè)務(wù)分析表、Dashboard、檢測(cè)異常值、篩選數(shù)據(jù)、分組統(tǒng)計(jì)數(shù)據(jù)等功能，本專欄中不會(huì)單純貼幾個(gè) Demo，而是會(huì)以一個(gè)更系統(tǒng)的案例來演示。
專欄將針對(duì) ES 的重要搜索功能 DSL 進(jìn)行業(yè)務(wù)分析。

DSL 之于 ES 的重要性不言而喻，就相當(dāng)于 SQL 對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)而言。關(guān)于如何使用 DSL，對(duì)查詢效率較差語句如何進(jìn)行提高查詢效率，本專欄將針對(duì) DSL 的查詢結(jié)合不同的業(yè)務(wù)需求進(jìn)行實(shí)現(xiàn)，從簡(jiǎn)單到深入一步步理解 DSL 。
專欄前部分偏重理論，后部分偏實(shí)踐。

實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)，職場(chǎng)中講究的是效率，先把工具用起來，當(dāng)使用一段時(shí)間后，再去理解不同的概念，相信你會(huì)有醍醐灌頂?shù)母杏X。就像在大學(xué)里上關(guān)于數(shù)據(jù)庫(kù)的課，老師會(huì)先讓你做個(gè)學(xué)生數(shù)據(jù)庫(kù)，在慢慢告訴你什么是索引、表連接、范式等。
豐富的圖片展示進(jìn)行原理和案例講解。

🔺 如何查看相應(yīng)數(shù)據(jù)🔺 如何范圍查詢🔺 餅狀圖開發(fā)案例🔺 數(shù)據(jù)可視化案例

專欄目錄

我們首先會(huì)介紹 ElasticSearch 的基本原理概念，對(duì) ES 有個(gè)整體的把控。

實(shí)踐是最好的學(xué)習(xí)方式，專欄之后會(huì)用 Kibana 對(duì)常見的業(yè)務(wù)需求進(jìn)行分析，作為學(xué)習(xí) ES 的開始，然后到進(jìn)階 ES 分析，對(duì) ES 高階的分析組件進(jìn)行學(xué)習(xí)。

然后會(huì)詳細(xì)介紹 ES 開發(fā)的核心部分 DSL 的詳細(xì)介紹講解，結(jié)合目前主流的開發(fā)語言，Python 與 Java 模擬工作中常見的業(yè)務(wù)進(jìn)行開發(fā)分析。

為了加強(qiáng)對(duì) ES 的理解，專欄最后會(huì)結(jié)合多種需求案例進(jìn)行系統(tǒng)的學(xué)習(xí)。

一 ElasticSearch 基本原理與環(huán)境搭建

關(guān)系型數(shù)據(jù)庫(kù)與 ElasticSearch 對(duì)比
ElasticSearch 搜索原理之倒排索引
ElasticSearch 不同角色分工
分片及副本原理
基于 Docker 部署單節(jié)點(diǎn) ElasticSearch
基于 Docker 安裝 Kibana
基于 Docker 一鍵式部署分布式 ElasticSearch

二運(yùn)用 ElasticSearch 做業(yè)務(wù)分析

Discover 如何查看相應(yīng)的業(yè)務(wù)數(shù)據(jù)
如何篩選只包含某個(gè)字段的業(yè)務(wù)數(shù)據(jù)
如何自定義的查看某個(gè)時(shí)間段的數(shù)據(jù)
折線圖繪制過程與應(yīng)用場(chǎng)景
柱狀圖繪制過程與應(yīng)用場(chǎng)景
餅狀圖繪制過程與應(yīng)用場(chǎng)景

三 ElasticSearch 高級(jí)數(shù)據(jù)分析可視化

熱力圖在數(shù)據(jù)分析中的應(yīng)用
主題分析之標(biāo)簽云圖
業(yè)務(wù)分析進(jìn)階之腳本字段
高階時(shí)間序列數(shù)據(jù)可視化
Timelion 在時(shí)間序列中的應(yīng)用
Dashboard 專題數(shù)據(jù)分析可視化

四深入理解 ElasticSearch 之搜索

基于 Rest API 的 ElasticSearch 增刪改查（1）
基于 Rest API 的 ElasticSearch 增刪改查（2）
基于 Rest API 的 ElasticSearch 增刪改查（3）
如何運(yùn)用強(qiáng)大的 ElasticSearch 核心 DSL
組合查詢?cè)趺赐?/p>
如何根據(jù)聚合求取各種數(shù)值指標(biāo)
什么是深入嵌套聚合的萬用套法
優(yōu)化 Query 查詢效率之 Scroll 查詢
優(yōu)化聚合數(shù)據(jù)查詢效率之 Partition

五基于 Python/Java 開發(fā)案例解析

Python Elasticsearch Client 實(shí)戰(zhàn)
天氣指標(biāo)監(jiān)控?cái)?shù)據(jù)實(shí)戰(zhàn)
天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)
結(jié)合指標(biāo)數(shù)據(jù)場(chǎng)景優(yōu)化查詢效率實(shí)戰(zhàn)
Java Elasticsearch Client 實(shí)戰(zhàn)
基于 Java 進(jìn)行天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)
基于Java 優(yōu)化效率查詢

六 ElasticSearch 實(shí)戰(zhàn)業(yè)務(wù)案例上手

基于 ELK 天氣指標(biāo)監(jiān)控在線實(shí)時(shí)監(jiān)控案例
基于機(jī)器學(xué)習(xí)的 ElasticSearch 異常值檢測(cè)案例
基于 MovieLens 的電影搜索案例

你將獲得什么？

最新的 ElasticSearch 特性運(yùn)用
ElasticSearch 業(yè)務(wù)核心技能比如 Kibana 業(yè)務(wù)分析方法，這些方法將會(huì)滿足絕大多數(shù)公司需求，餅圖，折線圖，柱狀圖，聚合分析，分桶等。
ElasticSearch 大數(shù)據(jù)搜索分析高級(jí)玩法比如 DSL 查詢語法的基礎(chǔ)與高級(jí)用法，了解如何使用 DSL 為全文檢索服務(wù)，了解如何把 ES 當(dāng)做數(shù)據(jù)庫(kù)，使用 DSL 實(shí)現(xiàn)各種 SQL 操作。
Java 和 Python 框架下如何運(yùn)用 ElasticSearch
ElasticSearch 環(huán)境部署和搭建比如集群搭建，了解分片，實(shí)例，節(jié)點(diǎn)角色概念，什么是倒排索引，對(duì) ES 有個(gè)整體的把握。

適讀人群

ElasticSearch 愛好者，對(duì) ES 有強(qiáng)烈的好奇心
大數(shù)據(jù)工程師，Java/Python/ES 運(yùn)維工程師，數(shù)據(jù)分析與挖掘工程師
初入職場(chǎng)的或者即將找工作面試的同學(xué)
急需 ES 解決當(dāng)前公司的業(yè)務(wù)需求

作者介紹

作者 zhupc，有豐富的大數(shù)據(jù)與機(jī)器學(xué)習(xí)工作經(jīng)驗(yàn)。目前在某上市外企公司研發(fā)中心任職，負(fù)責(zé) ES 數(shù)據(jù)分析與機(jī)器學(xué)習(xí)開發(fā)工作。

擅長(zhǎng) Java、Python、機(jī)器學(xué)習(xí)、Kafka 和 ES 等項(xiàng)目開發(fā)與管理。

購(gòu)買須知

本專欄為圖文內(nèi)容，共計(jì) 38 篇。每周更新 2 篇，預(yù)計(jì)從 2020 年 4 月 8 日至 2020 年 6 月 15 日左右更新完畢。
本專欄為虛擬產(chǎn)品，一經(jīng)付費(fèi)概不退款，敬請(qǐng)諒解。
本專欄可在 GitChat 服務(wù)號(hào)、App 及網(wǎng)頁(yè)端 gitbook.cn 上購(gòu)買，一端購(gòu)買，多端閱讀。

訂閱福利

訂購(gòu)本專欄可獲得專屬海報(bào)（在 GitChat 服務(wù)號(hào)領(lǐng)取），分享專屬海報(bào)每成功邀請(qǐng)一位好友購(gòu)買，即可獲得 25% 的返現(xiàn)獎(jiǎng)勵(lì)，多邀多得，上不封頂，立即提現(xiàn)。
提現(xiàn)流程：在 GitChat 服務(wù)號(hào)中點(diǎn)擊「我-我的邀請(qǐng)-提現(xiàn)」。
購(gòu)買本專欄后，服務(wù)號(hào)會(huì)自動(dòng)彈出入群二維碼和暗號(hào)。如果你沒有收到那就先關(guān)注微信服務(wù)號(hào)「GitChat」，或者加我們的小助手「GitChatty6」咨詢。（入群方式可查看第 4 篇文末說明）。

課程內(nèi)容

ElasticSearch 是什么？

為什么要學(xué)習(xí) ElasticSearch ？

ElasticSearch（ES）作為一款優(yōu)秀的分布式搜索分析引擎，越來越受到許多互聯(lián)網(wǎng)公司的關(guān)注，像小米、滴滴出行、攜程旅游、阿里云和騰訊云等都在使用 ElasticSearch 。

最知名的應(yīng)用公司就是 GitHub，它采用 ES 作為搜索引擎對(duì)代碼進(jìn)行搜索。雖然它是一款優(yōu)秀的分布式搜索引擎，但是它強(qiáng)大的查詢、分析、聚合能力使得它與數(shù)據(jù)庫(kù)的邊界越來越模糊。因此很多大公司都喜歡用 ES 作為數(shù)據(jù)庫(kù)來存儲(chǔ)日志或者其他業(yè)務(wù)數(shù)據(jù)，最常見的結(jié)合就是通過 Kafka 、 Redis 來作為數(shù)據(jù)源，logstash 進(jìn)行轉(zhuǎn)化，ES 對(duì)數(shù)據(jù)存儲(chǔ)，kibana 對(duì)數(shù)據(jù)進(jìn)行展示， ES+logstash+kibana（ELK）一體化的日志分析、業(yè)務(wù)指標(biāo)分析。

越來越多的公司使用 ElasticSearch ，這門技術(shù)已經(jīng)不僅僅是大數(shù)據(jù)工程師必須要掌握的了，ES 還提供了 Java ，python 等 API，因此 ES 將會(huì)成為 Java 工程師與 Python 工程師必不可缺的工具，靈活應(yīng)用 ES 將會(huì)成為你未來最有競(jìng)爭(zhēng)力的能力。

為什么不使用 MySQL，Oracle 或者 Hbase

傳統(tǒng)數(shù)據(jù)庫(kù)優(yōu)點(diǎn)是結(jié)構(gòu)化查詢，查詢速度快、安全。但是當(dāng)數(shù)據(jù)量較大時(shí)候，無論是查詢還是插入都會(huì)變的十分緩慢，當(dāng)然 MySQL 也可以做成分布式，但是部署以及維護(hù)成本較高。Oracle 查詢速度是很快的，即使數(shù)據(jù)量較大，查詢速度也不會(huì)很慢，但是有多少公司愿意負(fù)擔(dān)這個(gè)費(fèi)用呢？

為什么不使用 Redis 或者 Hbase 呢？

對(duì)于文檔數(shù)據(jù)庫(kù)，每個(gè)數(shù)據(jù)庫(kù)都有其應(yīng)對(duì)的需求，就 Redis 而言，Redis 更適合做緩存數(shù)據(jù)庫(kù)，查詢速度非常快，但是它的數(shù)據(jù)結(jié)構(gòu)是鍵值對(duì)，不能夠進(jìn)行復(fù)雜的需求查詢，只能給一個(gè) key 然后返回結(jié)果。Hbase 是基于Hadoop 的數(shù)據(jù)庫(kù)，它的特點(diǎn)是能夠存儲(chǔ)海量數(shù)據(jù)，并且擴(kuò)展起來簡(jiǎn)單，因?yàn)榈讓邮腔?HDFS 的。對(duì)于實(shí)時(shí)需求任務(wù)，以及在線分析就比較困難，不可能把所有數(shù)據(jù)都加載出來，或者寫一個(gè) MapReduce job 來進(jìn)行任務(wù)分析，這樣的工程是比較耗費(fèi)資源的。

ES 是分布式的，并且在數(shù)據(jù)量超大的情況下其查詢速度也嗖嗖的快。另外對(duì)象中無論是怎樣的復(fù)雜關(guān)系，都可以用 JSON 格式表達(dá)出來，可讀性較高，ES 就是以 JSON 數(shù)據(jù)格式存儲(chǔ)數(shù)據(jù)。并且支持在線分析、實(shí)時(shí)分析。ES 是基于存儲(chǔ)、查詢、聚合分析和可視化于一體的解決方案。

什么樣的數(shù)據(jù)適合存進(jìn)去呢？

日志數(shù)據(jù)，一般如果程序遇到什么問題都可以通過查詢?nèi)罩痉治鰜矶ㄎ诲e(cuò)誤的地方，這種需求肯定是能夠過關(guān)鍵字查詢，能夠在線可視化分析。這個(gè)需求就不合適放在傳統(tǒng)數(shù)據(jù)庫(kù)中，因?yàn)槿罩救哂啻?#xff0c;而且涉及很多文本查詢，使用傳統(tǒng)數(shù)據(jù)庫(kù)是非常不方便的，Redis 等文檔數(shù)據(jù)庫(kù)更不適合。ES 正好就是全文本檢索系統(tǒng)，且是分布式的適合這個(gè)需求。另外指標(biāo)數(shù)據(jù)也是適合存進(jìn)去的，指標(biāo)實(shí)時(shí)在線監(jiān)控、報(bào)警等，ES 提供了一整套解決方案。

所以說不同的數(shù)據(jù)庫(kù)或者全文檢索系統(tǒng)都有其專門的應(yīng)用場(chǎng)景，當(dāng)涉及到實(shí)時(shí)，文本檢索，數(shù)據(jù)量大，可視化分析，聚合分析的時(shí)候都可以考慮使用 ES 來作為解決方案。

ElasticSearch 能夠做什么？

從數(shù)據(jù)獲取，存儲(chǔ)計(jì)算到可視化，ES 開發(fā)了一整套解決方案，Logstash 、Beat 負(fù)責(zé)數(shù)據(jù)抓取，ES 負(fù)責(zé)存儲(chǔ)計(jì)算，kibana 對(duì)數(shù)據(jù)進(jìn)行展示分析。另外還有收費(fèi)的 X-Pack 可以實(shí)現(xiàn)安全、告警、監(jiān)控和 ML 等更豐富的功能。ES 在搜索、日志分析、指標(biāo)分析和安全分析等領(lǐng)域應(yīng)用廣泛。從前端到后端到數(shù)據(jù)分析，從云服務(wù)到最流行的機(jī)器學(xué)習(xí)，ES 都提供了一整套解決方案。

ElasticSearch 項(xiàng)目的起源是什么？

ES 起源于一款優(yōu)秀的基于 Java 開發(fā)的搜索引擎類庫(kù)——Lucene。Lucene 具有高性能、易擴(kuò)展的優(yōu)點(diǎn)，但是它只是一個(gè)類庫(kù)，與業(yè)務(wù)結(jié)合的比較緊密。筆者曾使用過 C# 的 Lucene.net ，當(dāng)時(shí)的業(yè)務(wù)場(chǎng)景是對(duì)農(nóng)村宅地基信息進(jìn)行搜索，我那時(shí)候研究類庫(kù)的使用方法，首先如何對(duì)文本分詞，分詞后如何建立索引……之后終于完成了一個(gè)全文搜索功能，踩了很多坑，學(xué)習(xí)曲線很陡峭。

另外如果有其他的項(xiàng)目也需要全文搜索功能，那你只能重新寫全文搜索功能業(yè)務(wù)。全文搜索只是一個(gè)功能，不應(yīng)該跟業(yè)務(wù)耦合的這么緊密，因此將這個(gè)功能單獨(dú)抽離出來作為一個(gè)服務(wù)，只需要提供一個(gè)接口，就可以實(shí)現(xiàn)這個(gè)功能。因此出現(xiàn)了 Solr（Apache 開源項(xiàng)目），Elastic Inc（開源軟件/上市公司）的 ES ，Splunk（商業(yè)上市公司）。

圖（a）是使用 Lucene 開發(fā)項(xiàng)目，與業(yè)務(wù)耦合緊密，不同的項(xiàng)目需要重新開發(fā)全文搜索功能。

圖（b）是將全文搜索業(yè)務(wù)抽離出來作為一個(gè)云服務(wù)。

ElasticSearch 在互聯(lián)網(wǎng)開發(fā)中有多火爆？多流行？

市場(chǎng)上存在很多搜索引擎，相對(duì)于 Java 工程師來說 Solr 應(yīng)該是最為熟悉的，當(dāng)然 Solr 也火爆了很多年，而 Splunk 鮮為人知些，因?yàn)樗鞘召M(fèi)的。查看最近幾年搜索引擎的排名情況，可以看出，2016 年是個(gè)分水嶺，2013 年到 2016 年 Solr 都遠(yuǎn)遠(yuǎn)超過 ES，但是 ES 在 2016 年之后，開始飛速的增長(zhǎng)，以至超過 solr 跟 Splunk ，成為最受歡迎的一款搜索引擎。

伴隨而來就是 ElasticSearch 相關(guān)的崗位在招聘市場(chǎng)中陡然大增，一度出現(xiàn)供不應(yīng)求的現(xiàn)象。平均薪資水平也遠(yuǎn)高于行業(yè)內(nèi)其他工種。

關(guān)系型數(shù)據(jù)庫(kù)與 ElasticSearch 對(duì)比

基本概念對(duì)比

關(guān)系型數(shù)據(jù)庫(kù)，像最常見的 Mysql , SqlServer 都是屬于關(guān)系型數(shù)據(jù)庫(kù)，關(guān)系型數(shù)據(jù)中有這幾種概念：數(shù)據(jù)庫(kù)、表、行、列、Schema，還有 SQL 查詢語句。

以學(xué)生數(shù)據(jù)庫(kù)為例，回憶一下數(shù)據(jù)庫(kù)過程：

建學(xué)生數(shù)據(jù)庫(kù)
見一個(gè)學(xué)生表
配置學(xué)生字段，如名稱 varchar、性別 char 等
一行代表一個(gè)學(xué)生，不同的列代表這個(gè)學(xué)生不同的屬性

ES 也與關(guān)系型數(shù)據(jù)庫(kù)如出一轍，只是叫法不同，在 ES 中建一個(gè)學(xué)生數(shù)據(jù)庫(kù)步驟如下：

在 ES 中啟動(dòng)一個(gè) ES 實(shí)例，這個(gè)實(shí)例就相當(dāng)于數(shù)據(jù)庫(kù)，表在 ES 中被稱為索引 Index，行稱為文檔 Document，列稱為字段 Field ，Schema 被稱為 Mapping ，數(shù)據(jù)庫(kù)中查詢語句 SQL 在 ES 中有相應(yīng)的 DSL 查詢語句。

因此建學(xué)生索引：

配置 ES，啟動(dòng)一個(gè) ES 實(shí)例
新建一個(gè)學(xué)生索引
不需要配置字段屬性，ES 會(huì)自動(dòng)識(shí)別
一個(gè) JSON 字符串代表一個(gè)學(xué)生，JSON 字符串中有學(xué)生屬性字段 Field

具體對(duì)應(yīng)關(guān)系如下表：

RDBMS	ES
Table	Index(Type)
Row	Document
Column	Field
Schema	Mapping
SQL	DSL

創(chuàng)建 Table/Index 對(duì)比

傳統(tǒng)數(shù)據(jù)創(chuàng)建方式如下，使用簡(jiǎn)單的 SQL 語句就能夠輕松創(chuàng)建，但是前提是要定義好表結(jié)構(gòu)以及數(shù)據(jù)類型。

CREATE TABLE Student(    name varchar(20),    sex char(2),    age int);

ES 基于 Http 協(xié)議的，增刪改查的接口都基于 Http ,因此它需要使用 ES 的 Rest API 才能夠創(chuàng)建，只需要將 JSON 格式的學(xué)生數(shù)據(jù)利用 Rest API PUT 給 ES 即可自動(dòng)創(chuàng)建，并且可以選擇性的更改 ES 自動(dòng)創(chuàng)建好的數(shù)據(jù)字段的類型，后面的課時(shí)中有詳細(xì)的介紹如何對(duì) ES 進(jìn)行增刪改查。

下面的這個(gè)語法，是基于 ES 的可視化界面 Kibana 來做的，使用 PUT 的方式，索引是 student，操作是 _create 創(chuàng)建。這樣的話就會(huì)自動(dòng)創(chuàng)建好索引，以及數(shù)據(jù)字段的類型，比如 name 是 text 類型，age 是數(shù)字類型。

PUT student/_create/1{  "name":"xiaoming",  "sex":"male",  "age":18}

Row/Document 對(duì)比

傳統(tǒng)數(shù)據(jù)庫(kù)中，row 就是一行數(shù)據(jù)，每行數(shù)據(jù)是一條記錄。查詢結(jié)果如下：

name     | sex  |age xiaoming | male | 18

但是在 ES 中數(shù)據(jù)記錄的方式是 documet ，插入數(shù)據(jù)是將數(shù)據(jù)看做 documet 然后以 JSON 的格式插入進(jìn)行，因此查詢返回的結(jié)果也是 JSON。

{  "took" : 10,  "timed_out" : false,  "_shards" : {    "total" : 1,    "successful" : 1,    "skipped" : 0,    "failed" : 0  },  "hits" : {    "total" : {      "value" : 1,      "relation" : "eq"    },    "max_score" : 1.0,    "hits" : [      {        "_index" : "student",        "_type" : "_doc",        "_id" : "1",        "_score" : 1.0,        "_source" : {          "name" : "xiaoming",          "sex" : "male",          "age" : 18        }      }    ]  }}

Column/ Field 對(duì)比

傳統(tǒng)數(shù)據(jù)的話每列代表一個(gè)屬性，name 列都是都是姓名并且類型是 varchar(20)。

ES 根據(jù)字段類型自動(dòng)創(chuàng)建，會(huì)給 name 字段自動(dòng)定義為 String 類型。

Schema /Mapping 對(duì)比

傳統(tǒng)數(shù)據(jù)庫(kù) Schema 說明了表之間的聯(lián)系結(jié)構(gòu)，字段關(guān)系主外鍵等。

而 ES 是沒有這么多復(fù)雜的關(guān)系，不存在主外鍵，表與表之間相互聯(lián)系，因此 ES 是將一個(gè)對(duì)象的 JSON 實(shí)體直接存到 ES 中，通過 mapping 來查看具體結(jié)構(gòu)。

{  "mapping": {    "properties": {      "age": {        "type": "long"      },      "name": {        "type": "text",        "fields": {          "keyword": {            "type": "keyword",            "ignore_above": 256          }        }      },      "sex": {        "type": "text",        "fields": {          "keyword": {            "type": "keyword",            "ignore_above": 256          }        }      }    }  }}

SQL/DSL 對(duì)比

兩者都是一種語法，SQL 是針對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的，DSL 是針對(duì) ES 的。在 “創(chuàng)建 Table/Index 對(duì)比” 這個(gè)部分已經(jīng)能夠很好的說明了兩者的區(qū)別與聯(lián)系，語法不通，但是應(yīng)用場(chǎng)景非常的相似，像增刪改查，分組等，兩者都具備這樣的功能。

小結(jié)

本節(jié)我們明白了兩者之間的異同，就能夠很好的理解ES各個(gè)概念，本課時(shí)對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)與 ES 做了一個(gè)粗略的對(duì)比，只通過本課時(shí)想要把握兩者的具體與聯(lián)系是比較困難的，想要了解更多的 ES 特性請(qǐng)多關(guān)注后面的實(shí)戰(zhàn)課時(shí)。

ElasticSearch 搜索原理之倒排索引

倒排索引作用

試想一下這個(gè)情景，你也記不清什么時(shí)候讀過這個(gè)一段話：“老劉,老劉,食量大似牛,吃一個(gè)老母豬不抬頭.”，只記得是紅樓夢(mèng)里面的臺(tái)詞，上學(xué)的時(shí)候語文老師還解讀過，現(xiàn)在覺得特別有意思，想看看完整的這個(gè)故事。

于是你買了一本《紅樓夢(mèng)》，打開目錄，定位不同章節(jié)的位置，然后按照順序一章一章的遍歷，找找哪一章里面有這么一句話。終于經(jīng)過你不懈的努力終于找到這句話來自于“劉姥姥進(jìn)大觀園”哪一章。

這個(gè)檢索的過程，映射關(guān)系是從文檔到關(guān)鍵詞，因?yàn)槲覀兪欠啿煌恼鹿?jié)文檔來檢索哪里出現(xiàn)了這么一句話。

這都能忍？也是服了。如何解決這個(gè)問題呢？為了查找某一個(gè)或多個(gè)關(guān)鍵詞，不得不查詢遍歷所有文檔，得出這些關(guān)鍵詞出現(xiàn)在哪些文檔中。這種方式未免也太耗時(shí)耗力了，有沒有一種方法能夠快速檢索到呢？

思考一下，我們要避免根據(jù)章節(jié)一章章的取遍歷查詢，能不能夠根據(jù)詞來定位到章節(jié)呢？像新華字典那樣，查找某個(gè)詞，然后定位到某個(gè)詞的頁(yè)數(shù)，如果也對(duì)《紅樓夢(mèng)》這本書也建立那樣的索引，起步不是非常的方便？

這個(gè)建索引的過程，就是所謂的倒排索引，是從關(guān)鍵詞到文檔，這是一個(gè)反過程。英文叫 invert index ，你也可以理解為反索引，或者逆索引，只不過這種索引方式，大部分譯為倒排索引。

創(chuàng)建倒排索引

針對(duì)《紅樓夢(mèng)》這本書，我們搭建一個(gè)搜索引擎，因此人為的查找實(shí)在是太變態(tài)了。

首先以章節(jié)為 ID 建立一個(gè)《紅樓夢(mèng)》數(shù)據(jù)庫(kù)。

ID	Text
0	老劉,老劉,食量大似牛,吃一個(gè)老母豬不抬頭
1	女兒是水作的骨肉，男人是泥作的骨肉。
2	必得兩個(gè)女兒伴著我讀書，我方能認(rèn)得字

常規(guī)的檢索方法，遍歷 ID ，通過 ID 查找對(duì)應(yīng)的 Text 是否包含”老劉,老劉,食量大似牛,吃一個(gè)老母豬不抬頭“這句話。如果使用倒排索引該怎么做呢？

首先對(duì)文檔分詞，并統(tǒng)計(jì)詞在哪個(gè)章節(jié) ID 里面
生成一張"詞-章節(jié)"映射表
對(duì)查找句子進(jìn)行分詞，拿著這些詞到映射表中查找，在哪個(gè)章節(jié)里面
計(jì)算并排序相似度，相似度的 topN 推薦給用戶

建設(shè)倒排索引映射表（為了減少冗余，這里分詞結(jié)果沒有被全部列出）：

Word	ID
老劉	0
食量	0
老母豬	0
女兒	1，2
男人	1
骨肉	1
讀書	2
方能	2
兩個(gè)	2

基于倒排索引查詢

假設(shè)映射表如上，我們?cè)賹?duì)”老劉,老劉,食量大似牛,吃一個(gè)老母豬不抬頭“這句話進(jìn)行檢索，首先這句話會(huì)被分詞處理成”老劉，食量，老母豬“。

得到了這三個(gè)詞，到索引表中檢索，得到的結(jié)果是（0，3，100%），0代表章節(jié)的ID，4代表詞在對(duì)應(yīng)章節(jié)中命中的次數(shù)，100%代表通過某種相似度計(jì)算方法得出的相似度（這里相似度的計(jì)算方法，假設(shè)為”相似度=檢索語句命中的詞個(gè)數(shù)/檢索語句總的詞個(gè)數(shù)“），因此就能輕易的得出，這句話很有可能出現(xiàn)在《紅樓夢(mèng)》的第一章中。

再對(duì)一句話進(jìn)行檢索”女兒一定要學(xué)會(huì)讀書寫字“，這句話將會(huì)被分詞處理成”女兒，讀書，寫字“。

再到索引表中去檢索，得到

（1，1，33%），第一個(gè)1代表章節(jié)ID，第二個(gè)1代表三個(gè)詞在這個(gè)章節(jié)中只命中了一個(gè)，33%代表我使用相似度方法計(jì)算的相似度。
（2，2，66%），第一個(gè)2代表章節(jié)ID，第二個(gè)2代表三個(gè)詞在第2章節(jié)中命中了2個(gè)，66%是計(jì)算的相似度。

對(duì)相似度進(jìn)行排序，自然搜索引擎將會(huì)把文檔2推薦出來。這里可能會(huì)有個(gè)疑問，為什么把2推薦出來呢？這句話在紅樓夢(mèng)中并不存在啊？從這里就可以看出，搜索引擎只是根據(jù)相似度進(jìn)行推薦，而并不能保證推薦的一定是對(duì)的。搜索引擎只是將數(shù)據(jù)庫(kù)中相似的案例推薦給你。

小結(jié)

通過本小節(jié)我們明白了，什么是倒排索引，以及如何建立倒排索引。對(duì)搜索引擎原理有個(gè)大致的了解，明白了搜索引擎原理，原來搜索引擎是通過相似度的指標(biāo)將文檔推薦出來，怪不得使用百度搜索關(guān)鍵詞是總是出來很多鏈接，并且越往后的鏈接越是跟想要搜索的內(nèi)容不相關(guān)。

ElasticSearch 不同角色分工

節(jié)點(diǎn)作用

ES 是一個(gè)分布式全文檢索引擎，既然是分布式那一定是設(shè)計(jì)多個(gè)節(jié)點(diǎn)甚至多個(gè)集群。為什么需要分布式呢？試想一下，如果 ES 節(jié)點(diǎn)只設(shè)計(jì)成一個(gè)，那么這個(gè)節(jié)點(diǎn)會(huì)涉及哪些工作呢？

首先該節(jié)點(diǎn)應(yīng)該具備響應(yīng)用戶的讀寫操作
該節(jié)點(diǎn)應(yīng)該具備存儲(chǔ)數(shù)據(jù)的能力
ES應(yīng)該具備協(xié)調(diào)多個(gè)用戶集體請(qǐng)求的操作
另外 ES 會(huì)自動(dòng)映射用戶輸入的數(shù)據(jù)類型，因此ES應(yīng)該具備自動(dòng)映射數(shù)據(jù)類型的操作

節(jié)點(diǎn)優(yōu)化

當(dāng)然這些只是這個(gè)節(jié)點(diǎn)最基本，最應(yīng)該做到的功能，節(jié)點(diǎn)應(yīng)該具備的功能絕不會(huì)僅限于此。這么多工作都讓這個(gè)單個(gè)節(jié)點(diǎn)來做，服務(wù)器撐得住恐怕這個(gè)節(jié)點(diǎn)也不樂意了。當(dāng)多個(gè)用戶觸發(fā)寫操作，節(jié)點(diǎn)會(huì)協(xié)調(diào)多個(gè)用戶的請(qǐng)求，然后再把寫的數(shù)據(jù)進(jìn)行類型轉(zhuǎn)換，然后再把數(shù)據(jù)寫到磁盤中。整個(gè)過程，可以說任何一個(gè)過程都能夠輕易的達(dá)到瓶頸。

請(qǐng)求響應(yīng)瓶頸：這個(gè)不難理解，如果請(qǐng)求過多，服務(wù)器宕機(jī)也不為過
讀寫瓶頸：磁盤的寫入能力是有限的，也就是經(jīng)常說的 I/O 瓶頸
協(xié)調(diào)請(qǐng)求以及自動(dòng)映射數(shù)據(jù)類型：這個(gè)瓶頸來自于服務(wù)器 CPU 性能，CPU 需要協(xié)調(diào)多個(gè)線程來做這些事

節(jié)點(diǎn)分工

這個(gè)單個(gè)節(jié)點(diǎn)可以把它比喻為牛批的全棧工程師，啥都會(huì)，啥都干，但是一個(gè)的精力總是有限的，現(xiàn)在不是一個(gè)人單打獨(dú)斗就能解決問題，需要有一個(gè)好的 Team 才能夠成就偉大的事。ES 也是如此，既然單個(gè)節(jié)點(diǎn)不能夠滿足需求，那就按照任務(wù)多分配幾個(gè)節(jié)點(diǎn)，將任務(wù)具體到節(jié)點(diǎn)，不同的節(jié)點(diǎn)負(fù)責(zé)不同的任務(wù)。

因此 ES 為分配不同的任務(wù)，定義了以下幾個(gè)節(jié)點(diǎn)角色：Master,Data Node,Coordinating Node,Ingest Node

Master 節(jié)點(diǎn)：每個(gè) ES 節(jié)點(diǎn)啟動(dòng)之前都會(huì)有個(gè)默認(rèn)配置 node.master:true ,也就是說每個(gè)節(jié)點(diǎn)都有可能成為 Master 節(jié)點(diǎn)，這些節(jié)點(diǎn)被稱作 Master-eligible nodes ，就是合格的有資格成為 Master 節(jié)點(diǎn)的節(jié)點(diǎn)。

當(dāng)然 Master 只能有一個(gè)，所以會(huì)通過選舉的方法對(duì)這啟動(dòng)的節(jié)點(diǎn)選舉，被選中的節(jié)點(diǎn)才會(huì)成為 Master 節(jié)點(diǎn)。 Master 節(jié)點(diǎn)主要是負(fù)責(zé)維護(hù)集群的狀態(tài)，像所有節(jié)點(diǎn)的信息，所有的索引和它相關(guān)的 Mapping 關(guān)系，配置信息，分片的路由等。既然 Master 節(jié)點(diǎn)維護(hù)了這么重要的信息，玩意它掛了怎么辦？

掛了的話，將會(huì)對(duì)其他的有資格成為 Master 節(jié)點(diǎn)的節(jié)點(diǎn)重新選舉出另一個(gè) Master 節(jié)點(diǎn)，因此這就說明了其他 Master-eligible nodes 也會(huì)保存集群信息，但是只有 Master 節(jié)點(diǎn)有權(quán)限能夠修改，試想如果其他節(jié)點(diǎn)也能修改的話，這將會(huì)導(dǎo)致數(shù)據(jù)不一致的問題。

Data Node 節(jié)點(diǎn)：這個(gè)節(jié)點(diǎn)從字面上就很容易理解，數(shù)據(jù)節(jié)點(diǎn)，這個(gè)節(jié)點(diǎn)主要負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)，在數(shù)據(jù)擴(kuò)展上起到了至關(guān)重要的作用。也就是說讀寫數(shù)據(jù)都會(huì)找到相應(yīng)的 Data Node 節(jié)點(diǎn)。

Coordinating Node 節(jié)點(diǎn)：協(xié)調(diào)節(jié)點(diǎn)主要負(fù)責(zé)協(xié)調(diào)客戶端的請(qǐng)求，將接收到的請(qǐng)求分發(fā)給合適的節(jié)點(diǎn)，并把結(jié)果匯集到一起。比如客戶端請(qǐng)求查詢某個(gè)索引的數(shù)據(jù)，協(xié)調(diào)節(jié)點(diǎn)將會(huì)把請(qǐng)求分發(fā)給保存相關(guān)的數(shù)據(jù)的 DataNode 節(jié)點(diǎn)，找到相應(yīng)的分片，并把查詢到的結(jié)果都匯集返回。并且每個(gè)節(jié)點(diǎn)都默認(rèn)起到了 Coordinating Node 的職責(zé)。

Ingest Node: Ingest node 專門對(duì)索引的文檔做預(yù)處理,發(fā)生在對(duì)真實(shí)文檔建立索引之前。在建立索引對(duì)文檔預(yù)處理之前，先定義一個(gè)管道（pipeline），管道里指定了一系列的處理器。每個(gè)處理器能夠把文檔按照某種特定的方式轉(zhuǎn)換。比如在管道里定義一個(gè)從某個(gè)文檔中移除字段的處理器，緊接著一個(gè)重命名字段的處理器。集群的狀態(tài)也會(huì)被存儲(chǔ)到配置的管道內(nèi)。

定義一個(gè)管道，簡(jiǎn)單的在索引或者bulk request(一種批量請(qǐng)求方法)操作上定義 pipeline 參數(shù),這樣 ingest node 就會(huì)知道哪個(gè)管道在使用。這個(gè)節(jié)點(diǎn)在使用過程中用的也不多，所以大概了解一下就行。

小結(jié)

本次課講述了 ES 的不同節(jié)點(diǎn)角色功能，從簡(jiǎn)單的單節(jié)點(diǎn) ES 可能會(huì)遇到的問題，引述到需要分布式才能解決這些問題，然后分布式需要不同的角色功能協(xié)助才能夠完成，因此我們明白了為什么 ES 節(jié)點(diǎn)需要哪些角色，以及這些角色能起到什么作用？

分片及副本原理

基于 Docker 部署單節(jié)點(diǎn) ElasticSearch

基于 Docker 安裝 Kibana

基于 Docker 一鍵式部署分布式 ElasticSearch

Discover 如何查看相應(yīng)的業(yè)務(wù)數(shù)據(jù)

如何篩選只包含某個(gè)字段的業(yè)務(wù)數(shù)據(jù)

如何自定義的查看某個(gè)時(shí)間段的數(shù)據(jù)

折線圖繪制過程與應(yīng)用場(chǎng)景

柱狀圖繪制過程與應(yīng)用場(chǎng)景

餅狀圖繪制過程與應(yīng)用場(chǎng)景

熱力圖在數(shù)據(jù)分析中的應(yīng)用

主題分析之標(biāo)簽云圖

業(yè)務(wù)分析進(jìn)階之腳本字段

高階時(shí)間序列數(shù)據(jù)可視化

Timelion 在時(shí)間序列中的應(yīng)用

Dashboard 專題數(shù)據(jù)分析可視化

基于 Rest API 的 ElasticSearch 增刪改查（1）

基于 Rest API 的 ElasticSearch 增刪改查(（2）

基于 Rest API 的 ElasticSearch 增刪改查（3）

如何運(yùn)用強(qiáng)大的 ElasticSearch 核心 DSL

組合查詢?cè)趺赐?/strong>

如何根據(jù)聚合求取各種數(shù)值指標(biāo)

什么是深入嵌套聚合的萬用套法

優(yōu)化 Query 查詢效率之 Scroll 查詢

優(yōu)化聚合數(shù)據(jù)查詢效率之 Partition

Python Elasticsearch Client 實(shí)戰(zhàn)

天氣指標(biāo)監(jiān)控?cái)?shù)據(jù)實(shí)戰(zhàn)

天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)

結(jié)合指標(biāo)數(shù)據(jù)場(chǎng)景優(yōu)化查詢效率實(shí)戰(zhàn)

Java Elasticsearch Client 實(shí)戰(zhàn)

基于 Java 進(jìn)行天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)

基于Java 優(yōu)化效率查詢實(shí)戰(zhàn)

基于 ELK 天氣指標(biāo)監(jiān)控在線實(shí)時(shí)監(jiān)控案例

基于機(jī)器學(xué)習(xí)的 ElasticSearch 異常值檢測(cè)案例

基于 MovieLens 的電影搜索案例

閱讀全文: http://gitbook.cn/gitchat/column/5e8553f36a28093c950e1614

總結(jié)

以上是生活随笔為你收集整理的ElasticSearch 大数据搜索查询分析全指南的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据

指南

Elasticsearch

歡迎分享！

轉(zhuǎn)載請(qǐng)說明來源于"生活随笔"，并保留原作者的名字。

本文地址：ElasticSearch 大数据搜索查询分析全指南

上一篇：【图吧导航】非常好的手机导航软件Mapb

下一篇：幸福航空落地福州冲出跑道 5乘客受伤多航

最新發(fā)布

怎么创建具有真实纹理的CG场景岩石？

如何渲染出逼真的CG场景水流效果？

为何CG场景的光影效果如此逼真？

如何扩展Deepseek以支持更多数据类型？

为啥Deepseek的资源消耗相对较低？

熱門推薦

749局是真实存在的吗（中国749局简介）

辅警省厅有备案吗？

圆明园总价值值多少亿（圆明园占地面积约350公顷）

电脑版通用邮箱软件(办公常用的邮箱软件)

typora安装自定义主题小计

標(biāo)簽云

连接数据库

单元格

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

visiting

星条旗

蔡国庆

浩哥拍

来福枪

五米长三米宽

改一般

世界文化遗产

parents

人均可支配

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

ElasticSearch 大数据搜索查询分析全指南

專欄亮點(diǎn)

專欄目錄

一 ElasticSearch 基本原理與環(huán)境搭建

二 運(yùn)用 ElasticSearch 做業(yè)務(wù)分析

三 ElasticSearch 高級(jí)數(shù)據(jù)分析可視化

四 深入理解 ElasticSearch 之搜索

五 基于 Python/Java 開發(fā)案例解析

六 ElasticSearch 實(shí)戰(zhàn)業(yè)務(wù)案例上手

你將獲得什么？

適讀人群

作者介紹

購(gòu)買須知

訂閱福利

課程內(nèi)容

ElasticSearch 是什么？

為什么要學(xué)習(xí) ElasticSearch ？

為什么不使用 MySQL，Oracle 或者 Hbase

為什么不使用 Redis 或者 Hbase 呢？

什么樣的數(shù)據(jù)適合存進(jìn)去呢？

ElasticSearch 能夠做什么？

ElasticSearch 項(xiàng)目的起源是什么？

ElasticSearch 在互聯(lián)網(wǎng)開發(fā)中有多火爆？多流行？

關(guān)系型數(shù)據(jù)庫(kù)與 ElasticSearch 對(duì)比

基本概念對(duì)比

創(chuàng)建 Table/Index 對(duì)比

Row/Document 對(duì)比

Column/ Field 對(duì)比

SQL/DSL 對(duì)比

小結(jié)

ElasticSearch 搜索原理之倒排索引

倒排索引作用

創(chuàng)建倒排索引

基于倒排索引查詢

小結(jié)

ElasticSearch 不同角色分工

節(jié)點(diǎn)作用

節(jié)點(diǎn)優(yōu)化

節(jié)點(diǎn)分工

小結(jié)

分片及副本原理

基于 Docker 部署單節(jié)點(diǎn) ElasticSearch

基于 Docker 安裝 Kibana

基于 Docker 一鍵式部署分布式 ElasticSearch

Discover 如何查看相應(yīng)的業(yè)務(wù)數(shù)據(jù)

如何篩選只包含某個(gè)字段的業(yè)務(wù)數(shù)據(jù)

如何自定義的查看某個(gè)時(shí)間段的數(shù)據(jù)

折線圖繪制過程與應(yīng)用場(chǎng)景

柱狀圖繪制過程與應(yīng)用場(chǎng)景

餅狀圖繪制過程與應(yīng)用場(chǎng)景

熱力圖在數(shù)據(jù)分析中的應(yīng)用

主題分析之標(biāo)簽云圖

業(yè)務(wù)分析進(jìn)階之腳本字段

高階時(shí)間序列數(shù)據(jù)可視化

Timelion 在時(shí)間序列中的應(yīng)用

Dashboard 專題數(shù)據(jù)分析可視化

基于 Rest API 的 ElasticSearch 增刪改查（1）

基于 Rest API 的 ElasticSearch 增刪改查(（2）

基于 Rest API 的 ElasticSearch 增刪改查（3）

如何運(yùn)用強(qiáng)大的 ElasticSearch 核心 DSL

組合查詢?cè)趺赐?/strong>

如何根據(jù)聚合求取各種數(shù)值指標(biāo)

什么是深入嵌套聚合的萬用套法

優(yōu)化 Query 查詢效率之 Scroll 查詢

優(yōu)化聚合數(shù)據(jù)查詢效率之 Partition

Python Elasticsearch Client 實(shí)戰(zhàn)

天氣指標(biāo)監(jiān)控?cái)?shù)據(jù)實(shí)戰(zhàn)

天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)

結(jié)合指標(biāo)數(shù)據(jù)場(chǎng)景優(yōu)化查詢效率實(shí)戰(zhàn)

Java Elasticsearch Client 實(shí)戰(zhàn)

基于 Java 進(jìn)行天氣指標(biāo)數(shù)據(jù)篩選實(shí)戰(zhàn)

基于Java 優(yōu)化效率查詢實(shí)戰(zhàn)

基于 ELK 天氣指標(biāo)監(jiān)控在線實(shí)時(shí)監(jiān)控案例

基于機(jī)器學(xué)習(xí)的 ElasticSearch 異常值檢測(cè)案例

基于 MovieLens 的電影搜索案例

總結(jié)

二運(yùn)用 ElasticSearch 做業(yè)務(wù)分析

四深入理解 ElasticSearch 之搜索

五基于 Python/Java 開發(fā)案例解析