阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较
開源搜索引擎分類
1.Lucene系搜索引擎,java開發(fā),包括:
- Lucene
- Solr
- Elasticsearch
- Katta、Compass等都是基于Lucene封裝。
你可以想象Lucene系有多強(qiáng)大。
2.Sphinx搜素引擎,c++開發(fā),簡單高性能。
以下重點(diǎn)介紹最常用的開源搜素引擎:Lucene、Solr、Elasticsearch、Sphinx的特點(diǎn)和優(yōu)劣勢選型比較。
Lucene
1.Lucene簡介
Lucene的開發(fā)語言是Java,也是Java家族中最為出名的一個開源搜索引擎,在Java世界中已經(jīng)是標(biāo)準(zhǔn)的全文檢索程序,它提供了完整的查詢引擎和索引引擎,沒有中文分詞引擎,需要自己去實(shí)現(xiàn),因此用Lucene去做一個搜素引擎需要自己去架構(gòu),另外它不支持實(shí)時搜索。但是solr和elasticsearch都是基于Lucene封裝。
2.Lucene的優(yōu)劣勢
優(yōu)點(diǎn):
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續(xù)快速的進(jìn)步。龐大而活躍的開發(fā)社區(qū),大量的開發(fā)人員。它只是一個類庫,有足夠的定制和優(yōu)化空間:經(jīng)過簡單定制,就可以滿足絕大部分常見的需求;經(jīng)過優(yōu)化,可以支持 10億+ 量級的搜索。
缺點(diǎn):
需要額外的開發(fā)工作。所有的擴(kuò)展,分布式,可靠性等都需要自己實(shí)現(xiàn);非實(shí)時,從建索引到可以搜索中間有一個時間延遲,而當(dāng)前的“近實(shí)時”(Lucene Near Real Time search)搜索方案的可擴(kuò)展性有待進(jìn)一步完善
Apache Solr
1.Slor簡介
Solr是一個高性能,采用Java開發(fā),基于Lucene的全文搜索服務(wù)器。
文檔通過Http利用XML加到一個搜索集合中。
查詢該集合也是通過 http收到一個XML/JSON響應(yīng)來實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù)制來提高可用性,提 供一套強(qiáng)大Data Schema來定義字段,類型和設(shè)置文本分析,提供基于Web的管理界面等。
2.Solr的優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
缺點(diǎn)
Elastic Search
1.ElasticSearch簡介
ElasticSearch是一個基于Lucene構(gòu)建的開源,分布式,RESTful搜索引擎。設(shè)計用于云計算中,能夠達(dá)到實(shí)時搜索,穩(wěn)定,可靠,快速,安裝使用方便。支持通過HTTP使用JSON進(jìn)行數(shù)據(jù)索引。
2.Elasticsearch的優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
缺點(diǎn)
Elasticsearch 與 Solr 的比較總結(jié)
- 二者安裝都很簡單;
- Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調(diào)管理功能;
- Solr 支持更多格式的數(shù)據(jù),而 Elasticsearch 僅支持json文件格式;
- Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
- Solr 在傳統(tǒng)的搜索應(yīng)用中表現(xiàn)好于 Elasticsearch,但在處理實(shí)時搜索應(yīng)用時效率明顯低于 Elasticsearch。
總之,Solr 是傳統(tǒng)搜索應(yīng)用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時搜索應(yīng)用。
Sphinx
1.Sphinx簡介
Sphinx一個基于SQL的全文檢索引擎,特別為一些腳本語言(PHP,Python,Perl,Ruby)設(shè)計搜索API接口。
Sphinx是一個用C++語言寫的開源搜索引擎,也是現(xiàn)在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準(zhǔn)度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時搜索,使用起來比較簡單方便.
Sphinx可以非常容易的與SQL數(shù)據(jù)庫和腳本語言集成。當(dāng)前系統(tǒng)內(nèi)置MySQL和PostgreSQL 數(shù)據(jù)庫數(shù)據(jù)源的支持,也支持從標(biāo)準(zhǔn)輸入讀取特定格式 的XML數(shù)據(jù)。通過修改源代碼,用戶可以自行增加新的數(shù)據(jù)源(例如:其他類型的DBMS 的原生支持)
2.Sphinx的特點(diǎn)
- 高速的建立索引(在當(dāng)代CPU上,峰值性能可達(dá)到10 MB/秒);
- 高性能的搜索(在2 – 4GB 的文本數(shù)據(jù)上,平均每次檢索響應(yīng)時間小于0.1秒);
- 可處理海量數(shù)據(jù)(目前已知可以處理超過100 GB的文本數(shù)據(jù), 在單一CPU的系統(tǒng)上可 處理100 M 文檔);
- 提供了優(yōu)秀的相關(guān)度算法,基于短語相似度和統(tǒng)計(BM25)的復(fù)合Ranking方法;
- 支持分布式搜索;
- 支持短語搜索
- 提供文檔摘要生成
- 可作為MySQL的存儲引擎提供搜索服務(wù);
- 支持布爾、短語、詞語相似度等多種檢索模式;
- 文檔支持多個全文檢索字段(最大不超過32個);
- 文檔支持多個額外的屬性信息(例如:分組信息,時間戳等);
- 支持?jǐn)嘣~;
你可能也喜歡:
總結(jié)
以上是生活随笔為你收集整理的阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文征集 | 2019 Joint In
- 下一篇: 论文浅尝 | 利用冻结语言模型的多模态少