日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)

發布時間:2024/9/27 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

開始此篇之前,我已經假定你已經學會了如何在Tomcat下部署Solr5啦。即啟動Tomcat后你能看到Solr5的Web UI界面。OK,下面直接進入正題。

首先你需要在你的core根目錄下新建一個lib目錄來存放依賴的jar包,當然你也可以直接到依賴的jar包扔到?Tomcat webapps目錄下部署的solr程序的WEB-INF\lib目錄下即如圖:

這里我采用了另外一種方式,把依賴的jar包放當前core的lib目錄下,這樣做的好處是每個core依賴的jar包當初存放在各自core的子目錄下分類存放,更方便管理,全部扔tomcat下雜亂無章不好管理。如圖新建lib目錄:

然后往lib目錄copy一些 DIH依賴的jar包,如圖:

截圖的那些jar包在solr5的解壓包里都能找到,如果你實在找不到再來問我。然后solrconfig.xml配置文件里我們需要配置外部jar包的加載路徑,如圖配置:

dir參數里的?./?即表示當前core根目錄,regex表示一個正則表達式,目的就是為了批量指定j加載哪些jar包.然后配置我們的dataimport處理器并指定data-config.xml配置文件的加載路徑,如圖:

然后編寫配置我們的data-config.xml,如圖:

url="C:/docs/solr-word.pdf"即表示對C:\docs目錄下的solr-word.pdf文件進行文本提取并創建索引,format表示把提取到的文本當作什么類型的數據,默認支持text(純文本),xml,json,html等格式,不配置format默認值就是text.

然后我們需要在schema.xml文件里定義我們的域,如圖:

細心的你,肯定發現了我配置了IK分詞器,IK分詞器配置如圖:

剛才我已經在core根目錄的lib下復制了IK分詞器jar包,我們還需要在core\conf目錄下復制一份IKAnalyzer.cfg.xml配置文件,如果你有自定義IK擴展字典,那么你還需要把擴展字典文件的加載路徑配置在

IKAnalyzer.cfg.xml文件里,如圖:


solr-word.pdf這個測試PDF文件在solr5的解壓目錄下可以找到,如圖:

到此,準備工作就完成了,重啟你的tomcat,訪問你的Solr Web UI進行測試,如圖:

如果你執行后看到如圖效果,就表明PDF導入Solr成功了,為了驗證PDF成功導入Solr了,你可以切換到Query菜單進行查詢驗證,如圖:

OK,關于如果導入PDF到Solr5就介紹到這兒了。相關配置文件我待會兒會在底下的附件里打包上傳一份供你們參考,但希望你們還是要自己動手操作下,不要僅僅是直接解壓復制我提供的示例,只有于遇到問題并不斷自虐的過程中你才能學到經驗。

間隔很久沒寫了,讓大家等久了,不好意思哈,寫博客不易,大家且看且珍惜,也希望大家多多提意見,時間匆忙,難免會有所紕漏。

如果你還有什么問題請加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙

一起交流學習!

總結

以上是生活随笔為你收集整理的跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。