基于OAI-PMH的元数据搜索引擎的设计与实现
在設(shè)計(jì)和實(shí)現(xiàn)基于OAI-PMH的元數(shù)據(jù)搜索引擎過程中,需要解決很多方面的問題。
對于中小型搜索引擎,最好使用開放源代碼軟件來實(shí)現(xiàn)。
一、實(shí)現(xiàn)基于OAI-PMH的元數(shù)據(jù)搜索引擎,我采用了如下開放源代碼軟件:
(1)OAIHarvester:從支持元數(shù)據(jù)資源開放的DataProvider獲取元數(shù)據(jù)資源。
(2)?HTMLParser:用于解析HTML頁面,并從中解析出可以有效獲取與元數(shù)據(jù)對應(yīng)的全文(fulltext)的url地址。
(3)Lucene:建立全文索引數(shù)據(jù)庫?,實(shí)現(xiàn)索引和檢索。
(3)CJKAnalyzer:中文分詞程序。
(4)PDFBox:用于處理PDF格式全文,可以輕易實(shí)現(xiàn)從PDF中提取文本、圖片。
(5)tm-extracter:用于從PDF和Doc文件中提取文本。
?
二、設(shè)計(jì)和實(shí)現(xiàn)過程中需要解決的關(guān)鍵問題:
(1) 改進(jìn)OAIHarvester,使之基于多線程下載。
(2)設(shè)計(jì)和實(shí)現(xiàn)簡單的XMLParser。用于解析OAIHarvester的獲取結(jié)果:xml文檔。
(3)實(shí)現(xiàn)元數(shù)據(jù)對應(yīng)的全文獲取。需要解析html文檔。
(4)各種格式文件(如:pdf、doc等)文件的索引問題。需要首先提取文本,然后對關(guān)鍵文本進(jìn)行獲取。
(5)元數(shù)據(jù)的語種識別。該問題還沒有解決,如果有誰解決了該問題的話,請幫忙。據(jù)說TextCat(C語言實(shí)現(xiàn))可以實(shí)現(xiàn)語種識別,但沒找到源代碼。如果誰有的話,希望能共享一下。
(6)檢索界面的設(shè)計(jì)與實(shí)現(xiàn)。仿照cnki的界面來設(shè)計(jì)。
?
三、在閱讀開放源碼軟件的時候,一定要認(rèn)真分析其引用的第三方軟件。
在學(xué)習(xí)和實(shí)踐數(shù)字倉儲管理系統(tǒng)Dspace的過程中,我發(fā)現(xiàn)Dspace引用的開放源碼軟件非常豐富,而且引用得非常成功。
?
總結(jié)
以上是生活随笔為你收集整理的基于OAI-PMH的元数据搜索引擎的设计与实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。