跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)
開始此篇之前,我已經假定你已經學會了如何在Tomcat下部署Solr5啦。即啟動Tomcat后你能看到Solr5的Web UI界面。OK,下面直接進入正題。
首先你需要在你的core根目錄下新建一個lib目錄來存放依賴的jar包,當然你也可以直接到依賴的jar包扔到?Tomcat webapps目錄下部署的solr程序的WEB-INF\lib目錄下即如圖:
這里我采用了另外一種方式,把依賴的jar包放當前core的lib目錄下,這樣做的好處是每個core依賴的jar包當初存放在各自core的子目錄下分類存放,更方便管理,全部扔tomcat下雜亂無章不好管理。如圖新建lib目錄:
然后往lib目錄copy一些 DIH依賴的jar包,如圖:
截圖的那些jar包在solr5的解壓包里都能找到,如果你實在找不到再來問我。然后solrconfig.xml配置文件里我們需要配置外部jar包的加載路徑,如圖配置:
dir參數里的?./?即表示當前core根目錄,regex表示一個正則表達式,目的就是為了批量指定j加載哪些jar包.然后配置我們的dataimport處理器并指定data-config.xml配置文件的加載路徑,如圖:
然后編寫配置我們的data-config.xml,如圖:
url="C:/docs/solr-word.pdf"即表示對C:\docs目錄下的solr-word.pdf文件進行文本提取并創建索引,format表示把提取到的文本當作什么類型的數據,默認支持text(純文本),xml,json,html等格式,不配置format默認值就是text.
然后我們需要在schema.xml文件里定義我們的域,如圖:
細心的你,肯定發現了我配置了IK分詞器,IK分詞器配置如圖:
剛才我已經在core根目錄的lib下復制了IK分詞器jar包,我們還需要在core\conf目錄下復制一份IKAnalyzer.cfg.xml配置文件,如果你有自定義IK擴展字典,那么你還需要把擴展字典文件的加載路徑配置在
IKAnalyzer.cfg.xml文件里,如圖:
solr-word.pdf這個測試PDF文件在solr5的解壓目錄下可以找到,如圖:
到此,準備工作就完成了,重啟你的tomcat,訪問你的Solr Web UI進行測試,如圖:
如果你執行后看到如圖效果,就表明PDF導入Solr成功了,為了驗證PDF成功導入Solr了,你可以切換到Query菜單進行查詢驗證,如圖:
OK,關于如果導入PDF到Solr5就介紹到這兒了。相關配置文件我待會兒會在底下的附件里打包上傳一份供你們參考,但希望你們還是要自己動手操作下,不要僅僅是直接解壓復制我提供的示例,只有于遇到問題并不斷自虐的過程中你才能學到經驗。
間隔很久沒寫了,讓大家等久了,不好意思哈,寫博客不易,大家且看且珍惜,也希望大家多多提意見,時間匆忙,難免會有所紕漏。
如果你還有什么問題請加我Q-Q:7-3-6-0-3-1-3-0-5,
或者加裙
一起交流學習!
總結
以上是生活随笔為你收集整理的跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 顶格申购是什么意思
- 下一篇: nginx常用的超时配置说明