日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

solr从pdf、office文档中建立索引

發布時間:2024/9/27 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 solr从pdf、office文档中建立索引 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2015年05月28日???hadoop???評論數 1

使用solrpdfoffice文檔中建立索引和從數據庫中建立相似,只不過這里需要tika來解析這些文檔。8.1?配置一個handler

這個handler首先要在solrConfig.xml中配置,如下所示:

? ?? ?
?

? ?? ???
?

<requestHandler name="/dataimport"? ? class="org.apache.solr.handler.dataimport.DataImportHandler">

? ?
?

? ? <lst? ? name="defaults">

? ?
?

? ?? ?<str? ? name="config">tika-data-config.xml</str>

? ?
?

? ?? ? </lst>

? ?
?

</requestHandler>

? ??
? ?
?

? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
?

這里和7.1幾乎一樣,只不過修改了配置文件名(當然也可以不修改)。

8.2?文檔配置tika-data-config.xml

? ???
?

? ?? ???
?

<dataConfig>??

? ?
?

? ?? ? <dataSource type="BinFileDataSource" />

? ?
?

? ?? ?? ???<document>

? ?
?

? ?? ?? ?? ?<entity? ? name="files" dataSource="binary"? ? rootEntity="false"

? ?
?

? ?? ?? ?? ?? ?processor="FileListEntityProcessor"

? ?
?

? ?? ?? ?? ?baseDir="D:/temp"? ? fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

? ?
?

? ?? ?? ???
?

? ?
?

? ?? ?? ?? ?recursive="true">

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileAbsolutePath" name="id" />

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileSize" name="size" />

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileLastModified" name="lastModified" />

? ?
?

? ?? ?? ?? ?? ? <entity

? ?
?

? ?? ?? ?? ?? ?? ?? ???name="documentImport"

? ?
?

? ?? ?? ?? ?? ?? ?? ???processor="TikaEntityProcessor"

? ?
?

? ?? ?? ?? ?? ?? ?? ???url="${files.fileAbsolutePath}"

? ?
?

? ?? ?? ?? ?? ?? ?? ???format="text">

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="file" name="fileName"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="Author" name="author" meta="true"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="title" name="title" meta="true"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="text" name="text"/>

? ?
?

? ?? ?? ?? ?? ? </entity>

? ?
?

? ?? ?? ?? ?? ? </entity>

? ?
?

? ?? ?? ???</document>

? ?
?

</dataConfig>

? ??
? ?
?

? ??
?

這里只說上面(7.2)沒有說過的屬性。

·? ?? ???fileName?:(必選)使用正則表達式匹配文件

·? ?? ???baseDir?: (必選) 文件目錄

·? ?? ???recursive?: 是否遞歸的獲取文件,默認false

·? ?? ???rootEntity?:在這里必須是false(除非你只想索引文件名)。在默認情況下,document元素下就是根實體了,如果沒有根實體的話,直接在實體下面的實體將會被看做跟實體。對于根實體對應的數據庫中返回的數據的每一行,solr都將生成一個document

·? ?? ???dataSource?:如果你是用solr1.3,那就必須設為"null",因為它沒使用任何dataSourde。不需要在solr1.4中指定它,它只是意味著我們不創建一個dataSource實例。在大多數情況下,只有一個DataSource(JdbcDataSource),當使用FileListEntityProcessor 的時候DataSource不是必須的

·? ?? ???processor:只有當datasource不是RDBMS時才是必須的

·? ?? ???onError?:默認是"abort","skip"表示跳過當前文檔,"continue"表示對錯誤視而不見

更多精彩內容請關注:http://bbs.superwu.cn

總結

以上是生活随笔為你收集整理的solr从pdf、office文档中建立索引的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 69国产精品视频 | 激烈的性高湖波多野结衣 | 在线一区二区三区四区五区 | 欧美a一级 | 成人无码一区二区三区 | 国产99在线视频 | 欧美日韩黄 | 亚洲看片 | 蜜臀av性久久久久蜜臀aⅴ涩爱 | 国产麻豆影视 | 一区二区三区四区日韩 | 亚洲AV无码国产成人久久 | 国产乱人| 精品一区二区久久久久久久网站 | 一区二区三区有限公司 | 亚洲制服丝袜av | 欧美大尺度床戏做爰 | 91av视频免费观看 | 日本一区二区三区视频在线播放 | 中文在线观看免费网站 | xxx久久| 日批视频| 成年在线观看视频 | 人妻少妇精品无码专区 | 图片区偷拍区小说区 | 中文字幕在线观看1 | 国产成人av在线 | av成人亚洲| 欧美性潮喷xxxxx免费视频看 | 大白屁股一区二区视频 | 我要看一级片 | av天堂永久资源网 | 五月激情开心网 | 国产精品亚洲一区 | 夜夜爽天天爽 | 99在线小视频 | 国产亚洲久久 | 精品一卡二卡三卡 | 欧美色综合天天久久综合精品 | 日韩三级中文字幕 | 真人真事免费毛片 | 欧美高清视频一区二区三区 | 激情黄色小说视频 | 国产精品丝袜黑色高跟鞋 | 自拍偷拍日韩精品 | 国产传媒在线观看 | 毛片一区二区 | 欧美日韩一区二区三区在线播放 | 中国免费黄色片 | 无码人妻精品一区二区三区99日韩 | 国产精品久久久久久久久久直播 | 免费一级黄色片 | 中国国产精品 | 老女人综合网 | 懂色一区二区二区av免费观看 | www插插插无码免费视频网站 | 娇妻被肉到高潮流白浆 | 精品福利三区3d卡通动漫 | 大波大乳videos巨大 | 精品一区二区三区免费观看 | 国产一区二区高清 | 国产97色在线 | 免费成人av在线播放 | 91久久精品日日躁夜夜躁国产 | www网站在线免费观看 | 欧美激情啪啪 | 国产欧美日韩三区 | 热热热热色 | 一区二区日本 | 国产一区二区三区日韩 | 亚洲欧美综合色 | 色女孩综合 | 中国女人内谢69xxxxⅹ视频 | 日本不卡网站 | 伊人久久精品一区二区三区 | 少妇一级淫片免费视频 | 国产 中文 字幕 日韩 在线 | 在线污视频 | 日韩经典一区二区三区 | 91亚色在线观看 | 欧美videossex极品| 久久精品麻豆 | 日韩一级视频 | 四虎影视免费 | 男人添女人下部高潮视频 | 黄色三极片 | 亚洲欧洲日本一区二区三区 | 男人天堂av电影 | xxxx18日本| 探花精品 | 激情婷婷六月 | 国产乱国产乱老熟300部视频 | 国产视频精品一区二区三区 | 日韩在线观看视频网站 | 一级二级毛片 | 狠狠影院| 韩国三级在线播放 | 精品天堂 | 韩国日本美国免费毛片 |