當前位置：首頁 > 编程语言 > java >内容正文

java

Java微服务篇3——Lucene

發布時間：2025/3/12 java 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 Java微服务篇3——Lucene 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Java微服務篇3——Lucene

1、數據分類

1.1、結構化數據

具有固定格式或有限長度的數據，如數據庫，元數據等

常見的結構化數據也就是數據庫中的數據，在數據庫中搜索很容易實現，通常都是使用 sql語句進行查詢，而且能很快的得到查詢結果

數據庫中的數據存儲是有規律的，有行有列而且數據格式、數據長度都是固定的，所以搜索很容易

1.2、非結構化數據

不定長或無固定格式的數據，如郵件，word 文檔等磁盤上的文件

1.2.1、順序掃描

順序掃描，比如要找內容包含某一個字符串的文件，就是一個文檔一個文檔的看，對于每一個文檔，從頭看到尾，如果此文檔包含此字符串，則此文檔為我們要找的文件，接著看下一個文件，直到掃描完所有的文件。如利用 windows 的搜索也可以搜索文件內容，只是相當的慢

1.2.2、全文檢索

全文檢索是指計算機索引程序通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置，當用戶查詢時，檢索程序就根據事先建立的索引進行查找，并將查找的結果反饋給用戶的檢索方法。這個過程類似于通過字典的目錄查字的過程

2、全文檢索（Lucene）

Lucene 是 apache 下的一個開放源代碼的全文檢索引擎工具包。提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言），Lucene 的目的是為軟件開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能。

2.1、Lucene優點

穩定、索引性能高

每小時能夠索引150GB以上的數據
對內存的要求小，只需要1MB的堆內存
增量索引和批量索引一樣快
索引的大小約為索引文本大小的20%~30%

高效、準確、高性能的搜索算法

良好的搜索排序
強大的查詢方式支持：短語查詢、通配符查詢、臨近查詢、范圍查詢等
支持字段搜索（如標題、作者、內容）可根據任意字段排序
支持多個索引查詢結果合并
支持更新操作和查詢操作同時進行
支持高亮、join、分組結果功能
速度快
可擴展排序模塊，內置包含向量空間模型、BM25模型可選
可配置存儲引擎

跨平臺

純java編寫
作為Apache開源許可下的開源項目，你可以在商業或開源項目中使用
Lucene有多種語言實現版（如C，C++、Python等），不僅僅是JAVA

2.2、架構圖

2.3、Lucene實現全文檢索流程

2.4、應用場景

單機軟件的搜索：word、markdown

站內搜索：京東、淘寶、拉勾，索引源是數據庫

搜索引擎：百度、Google，索引源是爬蟲程序抓取的數據

3、Lucene實戰

3.1、項目搭建

job_info.sql文件百度云：https://pan.baidu.com/s/1Iw7Hfd4kHSVptDKdQ2bmaQ提取碼：m27x

導入依賴

<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId></dependency><dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.2.0</version></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId><version>4.10.3</version></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-common</artifactId><version>4.10.3</version></dependency></dependencies>

實體類

public class JobInfo {private Long id;private String company_name;private String company_addr;private String company_info;private String job_name;private String job_addr;private String job_info;private int salary_min;private int salary_max;private String url;private String time; }

mapper

@Mapper public interface JobInfoMapper {@Select("select * from job_info")public List<JobInfo> selectJobInfo(); }

service

public interface JobInfoService {public List<JobInfo> selectJobInfo(); } @Service public class JobInfoServiceImpl implements JobInfoService {@AutowiredJobInfoMapper jobInfoMapper;@Overridepublic List<JobInfo> selectJobInfo() {return jobInfoMapper.selectJobInfo();} }

controller

@RestController public class JobInfoController {@AutowiredJobInfoServiceImpl jobInfoService;@RequestMapping("/")public String hello(){return "hello,lucene!";}@RequestMapping("/selectJobInfo")public List<JobInfo> selectJobInfo(){return jobInfoService.selectJobInfo();} }

application.yaml

mybatis:type-aliases-package: cn.winkto.beanmapper-locations: classpath:mapper/*.xml spring:datasource:driver-class-name: com.mysql.cj.jdbc.Driverusername: rootpassword: blingbling123.url: jdbc:mysql://localhost:3306/job?useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=Asia/Shanghaiapplication:name: product server:port: 8099

啟動類

@SpringBootApplication @MapperScan("cn.winkto.mapper") public class LuceneApplication {public static void main(String[] args) {SpringApplication.run(LuceneApplication.class, args);}}

3.2、Filed類型

Field類型數據類型是否分詞是否索引是否存儲說明

StringField(FieldName, FieldValue, Store.YES)	字符串	N	Y	Y/N	字符串類型Field, 不分詞, 作為一個整體進行索引(如: 身份證號, 訂單編號), 是否需要存儲由Store.YES或Store.NO決定
StoredField(FieldName, FieldValue)	重載方法, 支持多種類型	N	N	Y	構建不同類型的Field, 不分詞, 不索引, 要存儲. (如: 商品圖片路徑)
TextField(FieldName, FieldValue, Store.NO)	文本類型	Y	Y	Y/N	文本類型Field, 分詞并且索引, 是否需要存儲由Store.YES或Store.NO決定

3.3、索引創建

3.4、索引查詢

@Test void contextLoads1() throws IOException {// 索引文件存儲的位置 D:\indexDirectory directory= FSDirectory.open(Paths.get("D:\\index"));DirectoryReader reader = DirectoryReader.open(directory);IndexSearcher indexSearcher = new IndexSearcher(reader);TermQuery termQuery = new TermQuery(new Term("companyName", "北"));TopDocs search = indexSearcher.search(termQuery, 100);System.out.println(search.totalHits);ScoreDoc[] scoreDocs = search.scoreDocs;for (ScoreDoc scoreDoc : scoreDocs) {int id=scoreDoc.doc;Document doc = indexSearcher.doc(id);System.out.println(doc.get("companyName"));System.out.println("========================");} }

3.5、中文分詞器

導入依賴

<dependency><groupId>com.janeluo</groupId><artifactId>ikanalyzer</artifactId><version>2012_u6</version> </dependency>

測試類

@SpringBootTest class LuceneApplicationTests {@AutowiredJobInfoServiceImpl jobInfoService;@Testvoid contextLoads() throws IOException {// 索引文件存儲的位置 D:\indexDirectory directory= FSDirectory.open(new File("D:\\index"));// 分詞器// StandardAnalyzer standardAnalyzer = new StandardAnalyzer();IKAnalyzer standardAnalyzer = new IKAnalyzer();// 索引創建配置對象IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LATEST,standardAnalyzer);// 索引創建對象IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);// 刪除已有索引indexWriter.deleteAll();// 元數據查詢List<JobInfo> jobInfos = jobInfoService.selectJobInfo();for (JobInfo jobInfo : jobInfos) {// 文檔對象 import org.apache.lucene.document.*;Document indexableFields = new Document();// 添加元數據indexableFields.add(new StringField("id", String.valueOf(jobInfo.getId()), Field.Store.YES));indexableFields.add(new TextField("companyName", jobInfo.getCompany_name(), Field.Store.YES));indexableFields.add(new TextField("companyAddr", jobInfo.getCompany_addr(), Field.Store.YES));// 添加文檔indexWriter.addDocument(indexableFields);}indexWriter.close();}@Testvoid contextLoads1() throws IOException {// 索引文件存儲的位置 D:\indexDirectory directory= FSDirectory.open(new File("D:\\index"));DirectoryReader reader = DirectoryReader.open(directory);IndexSearcher indexSearcher = new IndexSearcher(reader);TermQuery termQuery = new TermQuery(new Term("companyName", "瓜子"));TopDocs search = indexSearcher.search(termQuery, 100);System.out.println(search.totalHits);ScoreDoc[] scoreDocs = search.scoreDocs;for (ScoreDoc scoreDoc : scoreDocs) {int id=scoreDoc.doc;Document doc = indexSearcher.doc(id);System.out.println(doc.get("companyName"));System.out.println("========================");}} } 創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Java微服务篇3——Lucene的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

JAVA
Lucene

上一篇： lux系统服务器安装后多大,服务器环境搭
下一篇： java线程初始方法三种_Java 多线