【转】基于OAI-PMH的元数据搜索引擎的设计与实现
在設(shè)計(jì)和實(shí)現(xiàn)基于OAI-PMH的元數(shù)據(jù)搜索引擎過程中,需要解決很多方面的問題。
對于中小型搜索引擎,最好使用開放源代碼軟件來實(shí)現(xiàn)。
一、實(shí)現(xiàn)基于OAI-PMH的元數(shù)據(jù)搜索引擎,我采用了如下開放源代碼軟件:
(1)OAIHarvester:從支持元數(shù)據(jù)資源開放的DataProvider獲取元數(shù)據(jù)資源。
(2) HTMLParser:用于解析HTML頁面,并從中解析出可以有效獲取與元數(shù)據(jù)對應(yīng)的全文(fulltext)的url地址。
(3)Lucene:建立全文索引數(shù)據(jù)庫 ,實(shí)現(xiàn)索引和檢索。
(3)CJKAnalyzer:中文分詞程序。
(4)PDFBox:用于處理PDF格式全文,可以輕易實(shí)現(xiàn)從PDF中提取文本、圖片。
(5)tm-extracter:用于從PDF和Doc文件中提取文本。
二、設(shè)計(jì)和實(shí)現(xiàn)過程中需要解決的關(guān)鍵問題:
(1) 改進(jìn)OAIHarvester,使之基于多線程下載。
(2)設(shè)計(jì)和實(shí)現(xiàn)簡單的XMLParser。用于解析OAIHarvester的獲取結(jié)果:xml文檔。
(3)實(shí)現(xiàn)元數(shù)據(jù)對應(yīng)的全文獲取。需要解析html文檔。
(4)各種格式文件(如:pdf、doc等)文件的索引問題。需要首先提取文本,然后對關(guān)鍵文本進(jìn)行獲取。
(5)元數(shù)據(jù)的語種識(shí)別。該問題還沒有解決,如果有誰解決了該問題的話,請幫忙。據(jù)說TextCat(C語言實(shí)現(xiàn))可以實(shí)現(xiàn)語種識(shí)別,但沒找到源代碼。如果誰有的話,希望能共享一下。
(6)檢索界面的設(shè)計(jì)與實(shí)現(xiàn)。仿照cnki的界面來設(shè)計(jì)。
原文地址:http://blog.csdn.net/liuxun02/archive/2007/01/16/1484831.aspx
總結(jié)
以上是生活随笔為你收集整理的【转】基于OAI-PMH的元数据搜索引擎的设计与实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 排查Java宕机,weblogic宕机问
- 下一篇: AI 趋势