开源 java CMS - FreeCMS2.6 Web页面信息采集
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
java開源論壇系統(tǒng)http://javabbs.javaz.cn
項(xiàng)目地址:http://www.freeteam.cn/
Web頁面信息采集
? ?從FreeCMS 2.1開始支持
通過簡單配置即可抓取目標(biāo)網(wǎng)頁信息,支持增量式采集、關(guān)鍵字替換、定時采集,同一采集規(guī)則可采集多個頁面(靜態(tài)和動態(tài)),可采集多種信息屬性,可自動審核且靜態(tài)化信息頁面。
采集規(guī)則管理
從左側(cè)管理菜單點(diǎn)擊采集規(guī)則進(jìn)入。
添加采集規(guī)則
在采集規(guī)則列表下方點(diǎn)擊"添加"按鈕。
填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。
采集規(guī)則屬性說明
采集規(guī)則屬性分為基本、設(shè)置、采集地址,采集屬性,關(guān)鍵詞替換。
一般情況下只要在基本選項(xiàng)卡填寫相關(guān)屬性即可完成。如果需要更多高級設(shè)置可以使用后面幾個選項(xiàng)卡。
下面針對主要屬性進(jìn)行解釋說明。
名稱:采集規(guī)則的名稱。
采集到欄目:采集的信息要添加到那個欄目。
頁面編碼:目標(biāo)網(wǎng)頁的頁面編碼,默認(rèn)為UTF-8。
采集地址:目標(biāo)網(wǎng)頁的地址。在基本選項(xiàng)卡中只能設(shè)置一個,想要設(shè)置多個可以在采集地址選項(xiàng)卡中設(shè)置。
采集調(diào)度:設(shè)置定時執(zhí)行采集操作,這個設(shè)置非常重要,只有設(shè)置了采集調(diào)度系統(tǒng)才執(zhí)行采集操作。
內(nèi)容列表開始結(jié)束html:因?yàn)橄到y(tǒng)是通過對目標(biāo)網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵詞截取來提取信息屬性的,所以設(shè)置目標(biāo)屬性的開始結(jié)束html就很重要,一定要設(shè)置為相對比較唯一的開始結(jié)束html,這樣系統(tǒng)才能正確的截取到目標(biāo)屬性。此屬性主要為了截取目標(biāo)頁面信息列表的html.
內(nèi)容地址開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容列表html后,使用此屬性截取各個內(nèi)容地址。
內(nèi)容標(biāo)題開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容地址后,系統(tǒng)會抓取此內(nèi)容地址的網(wǎng)頁內(nèi)容,然后根據(jù)此屬性截取內(nèi)容標(biāo)題。內(nèi)容相關(guān)屬性的設(shè)置跟此屬性類似,下面不再贅述。
狀態(tài):啟用狀態(tài)下的采集規(guī)則,系統(tǒng)才會執(zhí)行。
采集圖片:將信息內(nèi)容中的圖片下載到本地。
自動審核通過:將采集的信息直接設(shè)置為已審核狀態(tài)。
使用采集信息點(diǎn)擊量:默認(rèn)采集到的信息的點(diǎn)擊量為0,設(shè)置此屬性和內(nèi)容點(diǎn)擊量開始結(jié)束html后系統(tǒng)會截取目標(biāo)信息的點(diǎn)擊量,設(shè)置為采集后信息的點(diǎn)擊量。
最多采集內(nèi)容數(shù):默認(rèn)不限制,如果設(shè)置了此屬性,系統(tǒng)會從采集記錄中統(tǒng)計(jì)此采集規(guī)則已采集了多少條信息,如果超過最多采集內(nèi)容數(shù),系統(tǒng)將不再采集。
將首幅圖片設(shè)為標(biāo)題圖片:如果信息內(nèi)容中有圖片,則提取第一張做為標(biāo)題圖片,并設(shè)置信息為圖片信息。
清除內(nèi)容中的html標(biāo)簽:將信息內(nèi)容中的html標(biāo)簽清除,保留純文本。
當(dāng)內(nèi)容為空時是否采集:可設(shè)置在內(nèi)容為空時不采集此信息。
使用采集信息的添加時間:默認(rèn)采集到的信息的添加時間為當(dāng)前時間,設(shè)置此屬性和內(nèi)容添加時間開始結(jié)束html后系統(tǒng)會截取目標(biāo)信息的添加時間,設(shè)置為采集后信息的添加時間。
采集信息添加時間格式:默認(rèn)格式為yyyy-MM-dd,如果目標(biāo)頁面的添加時間格式不同,需要在這里設(shè)置為正確的日期格式。
采集開始時間:默認(rèn)為當(dāng)前時間,如果不到采集開始時間,系統(tǒng)是不會采集的。
采集結(jié)束時間:默認(rèn)為永不結(jié)束,如果超過采集結(jié)束時間,系統(tǒng)是不會采集的。
內(nèi)容地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置內(nèi)容地址的前綴。
圖片地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置圖片鏈接地址的前綴。
內(nèi)容中A標(biāo)簽鏈接地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置內(nèi)容中A標(biāo)簽鏈接地址的前綴。
采集地址分為靜態(tài)和動態(tài)地址,靜態(tài)地址為固定的地址,動態(tài)地址一般指可以分頁的地址,通過{page}來代表分頁變量,可以設(shè)置從那一頁采集到那一頁,如http://www.freetam.cn/list_{page}.html,設(shè)置開始頁數(shù)為1,結(jié)束頁數(shù)為10,系統(tǒng)會自動提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有頁面的數(shù)據(jù)。
一般情況下我們只采集信息的標(biāo)題和內(nèi)容就可以了,系統(tǒng)還提供采集內(nèi)容描述、點(diǎn)擊量、作者、來源、添加時間屬性的功能。
通過關(guān)鍵詞替換功能,您可以將采集到的信息里面的關(guān)鍵詞替換為自己想要的關(guān)鍵詞。
?
編輯采集規(guī)則
選擇需要編輯的采集規(guī)則,然后點(diǎn)擊"編輯"按鈕。
注意:同時只能編輯一個采集規(guī)則。
填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。
采集
選擇需要采集的采集規(guī)則,然后點(diǎn)擊"采集"按鈕。
注意:同時只能對一個采集規(guī)則進(jìn)行采集操作。
刪除采集規(guī)則
選擇需要刪除的采集規(guī)則,然后點(diǎn)擊"刪除"按鈕。
提示:同時可以刪除多個采集規(guī)則。
為了防止誤操作,系統(tǒng)會提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。
查看采集記錄
從左側(cè)管理菜單點(diǎn)擊采集記錄進(jìn)入。
在這里可以查看到所有web頁面采集記錄,您可以刪除指定的采集記錄,但并不會刪除已采集的信息數(shù)據(jù),選擇需要刪除的采集記錄,然后點(diǎn)擊"刪除"按鈕。
? ?提示:同時可以刪除多個采集記錄。
?
為了防止誤操作,系統(tǒng)會提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。
轉(zhuǎn)載于:https://my.oschina.net/u/916014/blog/899914
總結(jié)
以上是生活随笔為你收集整理的开源 java CMS - FreeCMS2.6 Web页面信息采集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: kmalloc, vmalloc分配的内
- 下一篇: 开发板屏幕截图-适用于本公司海思和智源平