跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)
開始此篇之前,我已經(jīng)假定你已經(jīng)學(xué)會(huì)了如何在Tomcat下部署Solr5啦。即啟動(dòng)Tomcat后你能看到Solr5的Web UI界面。OK,下面直接進(jìn)入正題。
首先你需要在你的core根目錄下新建一個(gè)lib目錄來存放依賴的jar包,當(dāng)然你也可以直接到依賴的jar包扔到?Tomcat webapps目錄下部署的solr程序的WEB-INF\lib目錄下即如圖:
這里我采用了另外一種方式,把依賴的jar包放當(dāng)前core的lib目錄下,這樣做的好處是每個(gè)core依賴的jar包當(dāng)初存放在各自core的子目錄下分類存放,更方便管理,全部扔tomcat下雜亂無章不好管理。如圖新建lib目錄:
然后往lib目錄copy一些 DIH依賴的jar包,如圖:
截圖的那些jar包在solr5的解壓包里都能找到,如果你實(shí)在找不到再來問我。然后solrconfig.xml配置文件里我們需要配置外部jar包的加載路徑,如圖配置:
dir參數(shù)里的?./?即表示當(dāng)前core根目錄,regex表示一個(gè)正則表達(dá)式,目的就是為了批量指定j加載哪些jar包.然后配置我們的dataimport處理器并指定data-config.xml配置文件的加載路徑,如圖:
然后編寫配置我們的data-config.xml,如圖:
url="C:/docs/solr-word.pdf"即表示對(duì)C:\docs目錄下的solr-word.pdf文件進(jìn)行文本提取并創(chuàng)建索引,format表示把提取到的文本當(dāng)作什么類型的數(shù)據(jù),默認(rèn)支持text(純文本),xml,json,html等格式,不配置format默認(rèn)值就是text.
然后我們需要在schema.xml文件里定義我們的域,如圖:
細(xì)心的你,肯定發(fā)現(xiàn)了我配置了IK分詞器,IK分詞器配置如圖:
剛才我已經(jīng)在core根目錄的lib下復(fù)制了IK分詞器jar包,我們還需要在core\conf目錄下復(fù)制一份IKAnalyzer.cfg.xml配置文件,如果你有自定義IK擴(kuò)展字典,那么你還需要把擴(kuò)展字典文件的加載路徑配置在
IKAnalyzer.cfg.xml文件里,如圖:
solr-word.pdf這個(gè)測試PDF文件在solr5的解壓目錄下可以找到,如圖:
到此,準(zhǔn)備工作就完成了,重啟你的tomcat,訪問你的Solr Web UI進(jìn)行測試,如圖:
如果你執(zhí)行后看到如圖效果,就表明PDF導(dǎo)入Solr成功了,為了驗(yàn)證PDF成功導(dǎo)入Solr了,你可以切換到Query菜單進(jìn)行查詢驗(yàn)證,如圖:
OK,關(guān)于如果導(dǎo)入PDF到Solr5就介紹到這兒了。相關(guān)配置文件我待會(huì)兒會(huì)在底下的附件里打包上傳一份供你們參考,但希望你們還是要自己動(dòng)手操作下,不要僅僅是直接解壓復(fù)制我提供的示例,只有于遇到問題并不斷自虐的過程中你才能學(xué)到經(jīng)驗(yàn)。
間隔很久沒寫了,讓大家等久了,不好意思哈,寫博客不易,大家且看且珍惜,也希望大家多多提意見,時(shí)間匆忙,難免會(huì)有所紕漏。
如果你還有什么問題請(qǐng)加我Q-Q:7-3-6-0-3-1-3-0-5,
或者加裙
一起交流學(xué)習(xí)!
總結(jié)
以上是生活随笔為你收集整理的跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 顶格申购是什么意思
- 下一篇: nginx常用的超时配置说明