當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）

發(fā)布時(shí)間：2024/9/27 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

開(kāi)始此篇之前，我已經(jīng)假定你已經(jīng)學(xué)會(huì)了如何在Tomcat下部署Solr5啦。即啟動(dòng)Tomcat后你能看到Solr5的Web UI界面。OK，下面直接進(jìn)入正題。

首先你需要在你的core根目錄下新建一個(gè)lib目錄來(lái)存放依賴(lài)的jar包，當(dāng)然你也可以直接到依賴(lài)的jar包扔到?Tomcat webapps目錄下部署的solr程序的WEB-INF\lib目錄下即如圖：

這里我采用了另外一種方式，把依賴(lài)的jar包放當(dāng)前core的lib目錄下，這樣做的好處是每個(gè)core依賴(lài)的jar包當(dāng)初存放在各自core的子目錄下分類(lèi)存放，更方便管理，全部扔tomcat下雜亂無(wú)章不好管理。如圖新建lib目錄：

然后往lib目錄copy一些 DIH依賴(lài)的jar包，如圖：

截圖的那些jar包在solr5的解壓包里都能找到，如果你實(shí)在找不到再來(lái)問(wèn)我。然后solrconfig.xml配置文件里我們需要配置外部jar包的加載路徑，如圖配置：

dir參數(shù)里的?./?即表示當(dāng)前core根目錄，regex表示一個(gè)正則表達(dá)式，目的就是為了批量指定j加載哪些jar包.然后配置我們的dataimport處理器并指定data-config.xml配置文件的加載路徑，如圖：

然后編寫(xiě)配置我們的data-config.xml,如圖：

url="C:/docs/solr-word.pdf"即表示對(duì)C:\docs目錄下的solr-word.pdf文件進(jìn)行文本提取并創(chuàng)建索引，format表示把提取到的文本當(dāng)作什么類(lèi)型的數(shù)據(jù)，默認(rèn)支持text(純文本)，xml,json,html等格式，不配置format默認(rèn)值就是text.

然后我們需要在schema.xml文件里定義我們的域，如圖：

細(xì)心的你，肯定發(fā)現(xiàn)了我配置了IK分詞器，IK分詞器配置如圖：

剛才我已經(jīng)在core根目錄的lib下復(fù)制了IK分詞器jar包，我們還需要在core\conf目錄下復(fù)制一份IKAnalyzer.cfg.xml配置文件，如果你有自定義IK擴(kuò)展字典，那么你還需要把擴(kuò)展字典文件的加載路徑配置在

IKAnalyzer.cfg.xml文件里，如圖：

solr-word.pdf這個(gè)測(cè)試PDF文件在solr5的解壓目錄下可以找到，如圖：

到此，準(zhǔn)備工作就完成了，重啟你的tomcat,訪問(wèn)你的Solr Web UI進(jìn)行測(cè)試，如圖：

如果你執(zhí)行后看到如圖效果，就表明PDF導(dǎo)入Solr成功了，為了驗(yàn)證PDF成功導(dǎo)入Solr了，你可以切換到Query菜單進(jìn)行查詢(xún)驗(yàn)證，如圖：

OK,關(guān)于如果導(dǎo)入PDF到Solr5就介紹到這兒了。相關(guān)配置文件我待會(huì)兒會(huì)在底下的附件里打包上傳一份供你們參考，但希望你們還是要自己動(dòng)手操作下，不要僅僅是直接解壓復(fù)制我提供的示例，只有于遇到問(wèn)題并不斷自虐的過(guò)程中你才能學(xué)到經(jīng)驗(yàn)。

間隔很久沒(méi)寫(xiě)了，讓大家等久了，不好意思哈，寫(xiě)博客不易，大家且看且珍惜，也希望大家多多提意見(jiàn)，時(shí)間匆忙，難免會(huì)有所紕漏。

如果你還有什么問(wèn)題請(qǐng)加我Ｑ-Q：7-3-6-0-3-1-3-0-5，

或者加裙

一起交流學(xué)習(xí)！

總結(jié)

以上是生活随笔為你收集整理的跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）

總結(jié)