solr从pdf、office文档中建立索引
使用solr從pdf、office文檔中建立索引和從數(shù)據(jù)庫中建立相似,只不過這里需要tika來解析這些文檔。8.1?配置一個handler 這個handler首先要在solrConfig.xml中配置,如下所示: ? ?? ?
? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? 這里和7.1幾乎一樣,只不過修改了配置文件名(當(dāng)然也可以不修改)。 8.2?文檔配置tika-data-config.xml ? ???
? ?? 這里只說上面(7.2)沒有說過的屬性。 ·? ?? ???fileName?:(必選)使用正則表達(dá)式匹配文件 ·? ?? ???baseDir?: (必選) 文件目錄 ·? ?? ???recursive?: 是否遞歸的獲取文件,默認(rèn)false ·? ?? ???rootEntity?:在這里必須是false(除非你只想索引文件名)。在默認(rèn)情況下,document元素下就是根實(shí)體了,如果沒有根實(shí)體的話,直接在實(shí)體下面的實(shí)體將會被看做跟實(shí)體。對于根實(shí)體對應(yīng)的數(shù)據(jù)庫中返回的數(shù)據(jù)的每一行,solr都將生成一個document ·? ?? ???dataSource?:如果你是用solr1.3,那就必須設(shè)為"null",因?yàn)樗鼪]使用任何dataSourde。不需要在solr1.4中指定它,它只是意味著我們不創(chuàng)建一個dataSource實(shí)例。在大多數(shù)情況下,只有一個DataSource(JdbcDataSource),當(dāng)使用FileListEntityProcessor 的時候DataSource不是必須的 ·? ?? ???processor:只有當(dāng)datasource不是RDBMS時才是必須的 ·? ?? ???onError?:默認(rèn)是"abort","skip"表示跳過當(dāng)前文檔,"continue"表示對錯誤視而不見 |
更多精彩內(nèi)容請關(guān)注:http://bbs.superwu.cn
總結(jié)
以上是生活随笔為你收集整理的solr从pdf、office文档中建立索引的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 冬奥会纪念币有第二批吗?
- 下一篇: 跟益达学Solr5之使用Tika从PDF