當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

转载：Elasticsearch面试题汇总与解析

發(fā)布時間：2024/5/15 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了转载：Elasticsearch面试题汇总与解析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原始鏈接：https://www.wenyuanblog.com/blogs/elasticsearch-interview-questions.html

Elasticsearch面試題匯總與解析

總結(jié)一些ES相關(guān)的面試題，既是對日常工作所學(xué)知識的回顧與梳理，也可以查漏補缺。
題目來自于網(wǎng)絡(luò)，只整理一些我個人覺得還不錯的，有些答案是我根據(jù)自己的理解給出的，僅供參考。
既然是面試題，每個人都會有自己的結(jié)合業(yè)務(wù)場景的答案，沒有100分的標準的答案。
如果有不同的理解，歡迎大家在評論區(qū)留言指正，感謝大家！

1. 什么是Elasticsearch？

Elasticsearch 是一個基于 Lucene 的搜索引擎。它提供了具有 HTTP Web 界面和無架構(gòu) JSON 文檔的分布式，多租戶能力的全文搜索引擎。
Elasticsearch 是用 Java 開發(fā)的，根據(jù) Apache 許可條款作為開源發(fā)布。

2. ES中的倒排索引是什么？

傳統(tǒng)的檢索方式是通過文章，逐個遍歷找到對應(yīng)關(guān)鍵詞的位置。
倒排索引，是通過分詞策略，形成了詞和文章的映射關(guān)系表，也稱倒排表，這種詞典 + 映射表即為倒排索引。

其中詞典中存儲詞元，倒排表中存儲該詞元在哪些文中出現(xiàn)的位置。
有了倒排索引，就能實現(xiàn) O(1) 時間復(fù)雜度的效率檢索文章了，極大的提高了檢索效率。

加分項：
倒排索引的底層實現(xiàn)是基于：FST（Finite State Transducer）數(shù)據(jù)結(jié)構(gòu)。

Lucene 從 4+ 版本后開始大量使用的數(shù)據(jù)結(jié)構(gòu)是 FST。FST 有兩個優(yōu)點：
1）空間占用小。通過對詞典中單詞前綴和后綴的重復(fù)利用，壓縮了存儲空間；
2）查詢速度快。O(len(str)) 的查詢時間復(fù)雜度。

3. ES是如何實現(xiàn)master選舉的？

前置條件：
1）只有是候選主節(jié)點（master：true）的節(jié)點才能成為主節(jié)點。
2）最小主節(jié)點數(shù)（min_master_nodes）的目的是防止腦裂。

Elasticsearch 的選主是 ZenDiscovery 模塊負責(zé)的，主要包含 Ping（節(jié)點之間通過這個RPC來發(fā)現(xiàn)彼此）和 Unicast（單播模塊包含一個主機列表以控制哪些節(jié)點需要 ping 通）這兩部分；
獲取主節(jié)點的核心入口為 findMaster，選擇主節(jié)點成功返回對應(yīng) Master，否則返回 null。

選舉流程大致描述如下：
第一步：確認候選主節(jié)點數(shù)達標，elasticsearch.yml 設(shè)置的值 discovery.zen.minimum_master_nodes;
第二步：對所有候選主節(jié)點根據(jù)nodeId字典排序，每次選舉每個節(jié)點都把自己所知道節(jié)點排一次序，然后選出第一個（第0位）節(jié)點，暫且認為它是master節(jié)點。
第三步：如果對某個節(jié)點的投票數(shù)達到一定的值（候選主節(jié)點數(shù)n/2+1）并且該節(jié)點自己也選舉自己，那這個節(jié)點就是master。否則重新選舉一直到滿足上述條件。

補充：
- 這里的 id 為 string 類型。
- master 節(jié)點的職責(zé)主要包括集群、節(jié)點和索引的管理，不負責(zé)文檔級別的管理；data 節(jié)點可以關(guān)閉 http 功能。

4. 如何解決ES集群的腦裂問題

所謂集群腦裂，是指 Elasticsearch 集群中的節(jié)點（比如共 20 個），其中的 10 個選了一個 master，另外 10 個選了另一個 master 的情況。

當(dāng)集群 master 候選數(shù)量不小于 3 個時，可以通過設(shè)置最少投票通過數(shù)量（discovery.zen.minimum_master_nodes）超過所有候選節(jié)點一半以上來解決腦裂問題；
當(dāng)候選數(shù)量為兩個時，只能修改為唯一的一個 master 候選，其他作為 data 節(jié)點，避免腦裂問題。

5. 詳細描述一下ES索引文檔的過程？

這里的索引文檔應(yīng)該理解為文檔寫入 ES，創(chuàng)建索引的過程。

第一步：客戶端向集群某節(jié)點寫入數(shù)據(jù)，發(fā)送請求。（如果沒有指定路由/協(xié)調(diào)節(jié)點，請求的節(jié)點扮演協(xié)調(diào)節(jié)點的角色。）
第二步：協(xié)調(diào)節(jié)點接受到請求后，默認使用文檔 ID 參與計算（也支持通過 routing），得到該文檔屬于哪個分片。隨后請求會被轉(zhuǎn)到另外的節(jié)點。

bash

# 路由算法：根據(jù)文檔id或路由計算目標的分片id shard = hash(document_id) % (num_of_primary_shards)

第三步：當(dāng)分片所在的節(jié)點接收到來自協(xié)調(diào)節(jié)點的請求后，會將請求寫入到 Memory Buffer，然后定時（默認是每隔 1 秒）寫入到F ilesystem Cache，這個從 Momery Buffer 到 Filesystem Cache 的過程就叫做 refresh；
第四步：當(dāng)然在某些情況下，存在 Memery Buffer 和 Filesystem Cache 的數(shù)據(jù)可能會丟失，ES 是通過 translog 的機制來保證數(shù)據(jù)的可靠性的。其實現(xiàn)機制是接收到請求后，同時也會寫入到 translog 中，當(dāng) Filesystem cache 中的數(shù)據(jù)寫入到磁盤中時，才會清除掉，這個過程叫做 flush；
第五步：在 flush 過程中，內(nèi)存中的緩沖將被清除，內(nèi)容被寫入一個新段，段的 fsync 將創(chuàng)建一個新的提交點，并將內(nèi)容刷新到磁盤，舊的 translog 將被刪除并開始一個新的 translog。
第六步：flush 觸發(fā)的時機是定時觸發(fā)（默認 30 分鐘）或者 translog 變得太大（默認為 512 M）時。

補充：關(guān)于 Lucene 的 Segement
- Lucene 索引是由多個段組成，段本身是一個功能齊全的倒排索引。
- 段是不可變的，允許 Lucene 將新的文檔增量地添加到索引中，而不用從頭重建索引。
- 對于每一個搜索請求而言，索引中的所有段都會被搜索，并且每個段會消耗 CPU 的時鐘周、文件句柄和內(nèi)存。這意味著段的數(shù)量越多，搜索性能會越低。
- 為了解決這個問題，Elasticsearch 會合并小段到一個較大的段，提交新的合并段到磁盤，并刪除那些舊的小段。（段合并）

6. 詳細描述一下ES更新和刪除文檔的過程？

刪除和更新也都是寫操作，但是 Elasticsearch 中的文檔是不可變的，因此不能被刪除或者改動以展示其變更。

磁盤上的每個段都有一個相應(yīng)的 .del 文件。當(dāng)刪除請求發(fā)送后，文檔并沒有真的被刪除，而是在 .del 文件中被標記為刪除。該文檔依然能匹配查詢，但是會在結(jié)果中被過濾掉。當(dāng)段合并時，在 .del 文件中被標記為刪除的文檔將不會被寫入新段。

在新的文檔被創(chuàng)建時，Elasticsearch 會為該文檔指定一個版本號，當(dāng)執(zhí)行更新時，舊版本的文檔在 .del 文件中被標記為刪除，新版本的文檔被索引到一個新段。舊版本的文檔依然能匹配查詢，但是會在結(jié)果中被過濾掉。

7. 詳細描述一下ES搜索的過程？

搜索被執(zhí)行成一個兩階段過程，即 Query Then Fetch；
Query階段：
查詢會廣播到索引中每一個分片拷貝（主分片或者副本分片）。每個分片在本地執(zhí)行搜索并構(gòu)建一個匹配文檔的大小為 from + size 的優(yōu)先隊列。PS：在搜索的時候是會查詢Filesystem Cache的，但是有部分數(shù)據(jù)還在Memory Buffer，所以搜索是近實時的。
每個分片返回各自優(yōu)先隊列中?所有文檔的 ID 和排序值?給協(xié)調(diào)節(jié)點，它合并這些值到自己的優(yōu)先隊列中來產(chǎn)生一個全局排序后的結(jié)果列表。
Fetch階段：
協(xié)調(diào)節(jié)點辨別出哪些文檔需要被取回并向相關(guān)的分片提交多個 GET 請求。每個分片加載并豐富文檔，如果有需要的話，接著返回文檔給協(xié)調(diào)節(jié)點。一旦所有的文檔都被取回了，協(xié)調(diào)節(jié)點返回結(jié)果給客戶端。

8. 在并發(fā)情況下，ES如果保證讀寫一致？

可以通過版本號使用樂觀并發(fā)控制，以確保新版本不會被舊版本覆蓋，由應(yīng)用層來處理具體的沖突；
另外對于寫操作，一致性級別支持quorum/one/all，默認為quorum，即只有當(dāng)大多數(shù)分片可用時才允許寫操作。但即使大多數(shù)可用，也可能存在因為網(wǎng)絡(luò)等原因?qū)е聦懭敫北臼?#xff0c;這樣該副本被認為故障，分片將會在一個不同的節(jié)點上重建。
對于讀操作，可以設(shè)置replication為sync(默認)，這使得操作在主分片和副本分片都完成后才會返回；如果設(shè)置replication為async時，也可以通過設(shè)置搜索請求參數(shù)_preference為primary來查詢主分片，確保文檔是最新版本。

9. ES對于大數(shù)據(jù)量（上億量級）的聚合如何實現(xiàn)？

Elasticsearch 提供的首個近似聚合是cardinality 度量。它提供一個字段的基數(shù)，即該字段的distinct或者unique值的數(shù)目。它是基于HLL算法的。HLL 會先對我們的輸入作哈希運算，然后根據(jù)哈希運算的結(jié)果中的 bits 做概率估算從而得到基數(shù)。其特點是：可配置的精度，用來控制內(nèi)存的使用（更精確＝更多內(nèi)存）；小的數(shù)據(jù)集精度是非常高的；我們可以通過配置參數(shù)，來設(shè)置去重需要的固定內(nèi)存使用量。無論數(shù)千還是數(shù)十億的唯一值，內(nèi)存使用量只與你配置的精確度相關(guān)。

10. 對于GC方面，在使用ES時要注意什么？

1）倒排詞典的索引需要常駐內(nèi)存，無法GC，需要監(jiān)控data node上segment memory增長趨勢。
2）各類緩存，field cache, filter cache, indexing cache, bulk queue等等，要設(shè)置合理的大小，并且要應(yīng)該根據(jù)最壞的情況來看heap是否夠用，也就是各類緩存全部占滿的時候，還有heap空間可以分配給其他任務(wù)嗎？避免采用clear cache等“自欺欺人”的方式來釋放內(nèi)存。
3）避免返回大量結(jié)果集的搜索與聚合。確實需要大量拉取數(shù)據(jù)的場景，可以采用scan & scroll api來實現(xiàn)。
4）cluster stats駐留內(nèi)存并無法水平擴展，超大規(guī)模集群可以考慮分拆成多個集群通過tribe node連接。
5）想知道heap夠不夠，必須結(jié)合實際應(yīng)用場景，并對集群的heap使用情況做持續(xù)的監(jiān)控。

11. 說說你們公司ES的集群架構(gòu)，索引數(shù)據(jù)大小，分片有多少，以及一些調(diào)優(yōu)手段？

根據(jù)實際情況回答即可，如果是我的話會這么回答：
我司有多個ES集群，下面列舉其中一個。該集群有20個節(jié)點，根據(jù)數(shù)據(jù)類型和日期分庫，每個索引根據(jù)數(shù)據(jù)量分片，比如日均1億+數(shù)據(jù)的，控制單索引大小在200GB以內(nèi)?！?br /> 下面重點列舉一些調(diào)優(yōu)策略，僅是我做過的，不一定全面，如有其它建議或者補充歡迎留言。
部署層面：
1）最好是64GB內(nèi)存的物理機器，但實際上32GB和16GB機器用的比較多，但絕對不能少于8G，除非數(shù)據(jù)量特別少，這點需要和客戶方面溝通并合理說服對方。
2）多個內(nèi)核提供的額外并發(fā)遠勝過稍微快一點點的時鐘頻率。
3）盡量使用SSD，因為查詢和索引性能將會得到顯著提升。
4）避免集群跨越大的地理距離，一般一個集群的所有節(jié)點位于一個數(shù)據(jù)中心中。
5）設(shè)置堆內(nèi)存：節(jié)點內(nèi)存/2，不要超過32GB。一般來說設(shè)置export ES_HEAP_SIZE=32g環(huán)境變量，比直接寫-Xmx32g -Xms32g更好一點。
6）關(guān)閉緩存swap。內(nèi)存交換到磁盤對服務(wù)器性能來說是致命的。如果內(nèi)存交換到磁盤上，一個100微秒的操作可能變成10毫秒。再想想那么多10微秒的操作時延累加起來。不難看出swapping對于性能是多么可怕。
7）增加文件描述符，設(shè)置一個很大的值，如65535。Lucene使用了大量的文件，同時，Elasticsearch在節(jié)點和HTTP客戶端之間進行通信也使用了大量的套接字。所有這一切都需要足夠的文件描述符。
8）不要隨意修改垃圾回收器（CMS）和各個線程池的大小。
9）通過設(shè)置gateway.recover_after_nodes、gateway.expected_nodes、gateway.recover_after_time可以在集群重啟的時候避免過多的分片交換，這可能會讓數(shù)據(jù)恢復(fù)從數(shù)個小時縮短為幾秒鐘。
索引層面：
1）使用批量請求并調(diào)整其大小：每次批量數(shù)據(jù) 5–15 MB 大是個不錯的起始點。
2）段合并：Elasticsearch默認值是20MB/s，對機械磁盤應(yīng)該是個不錯的設(shè)置。如果你用的是SSD，可以考慮提高到100-200MB/s。如果你在做批量導(dǎo)入，完全不在意搜索，你可以徹底關(guān)掉合并限流。另外還可以增加 index.translog.flush_threshold_size 設(shè)置，從默認的512MB到更大一些的值，比如1GB，這可以在一次清空觸發(fā)的時候在事務(wù)日志里積累出更大的段。
3）如果你的搜索結(jié)果不需要近實時的準確度，考慮把每個索引的index.refresh_interval 改到30s。
4）如果你在做大批量導(dǎo)入，考慮通過設(shè)置index.number_of_replicas: 0 關(guān)閉副本。
5）需要大量拉取數(shù)據(jù)的場景，可以采用scan & scroll api來實現(xiàn)，而不是from/size一個大范圍。
存儲層面：
1）基于數(shù)據(jù)+時間滾動創(chuàng)建索引，每天遞增數(shù)據(jù)?？刂茊蝹€索引的量，一旦單個索引很大，存儲等各種風(fēng)險也隨之而來，所以要提前考慮+及早避免。
2）冷熱數(shù)據(jù)分離存儲，熱數(shù)據(jù)（比如最近3天或者一周的數(shù)據(jù)），其余為冷數(shù)據(jù)。對于冷數(shù)據(jù)不會再寫入新數(shù)據(jù)，可以考慮定期force_merge加shrink壓縮操作，節(jié)省存儲空間和檢索效率。

?

總結(jié)

以上是生活随笔為你收集整理的转载：Elasticsearch面试题汇总与解析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Linux 下载.deb文件后的操作
下一篇：【重要程序】判断闰年