日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源 java CMS - FreeCMS2.6 Web页面信息采集

發(fā)布時間:2023/12/9 编程问答 73 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源 java CMS - FreeCMS2.6 Web页面信息采集 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

java開源論壇系統(tǒng)http://javabbs.javaz.cn

項(xiàng)目地址:http://www.freeteam.cn/

Web頁面信息采集

? ?從FreeCMS 2.1開始支持

通過簡單配置即可抓取目標(biāo)網(wǎng)頁信息,支持增量式采集、關(guān)鍵字替換、定時采集,同一采集規(guī)則可采集多個頁面(靜態(tài)和動態(tài)),可采集多種信息屬性,可自動審核且靜態(tài)化信息頁面。

采集規(guī)則管理

從左側(cè)管理菜單點(diǎn)擊采集規(guī)則進(jìn)入。

添加采集規(guī)則

在采集規(guī)則列表下方點(diǎn)擊"添加"按鈕。

填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。

采集規(guī)則屬性說明

采集規(guī)則屬性分為基本、設(shè)置、采集地址,采集屬性,關(guān)鍵詞替換。

一般情況下只要在基本選項(xiàng)卡填寫相關(guān)屬性即可完成。如果需要更多高級設(shè)置可以使用后面幾個選項(xiàng)卡。

下面針對主要屬性進(jìn)行解釋說明。

名稱:采集規(guī)則的名稱。

采集到欄目:采集的信息要添加到那個欄目。

頁面編碼:目標(biāo)網(wǎng)頁的頁面編碼,默認(rèn)為UTF-8。

采集地址:目標(biāo)網(wǎng)頁的地址。在基本選項(xiàng)卡中只能設(shè)置一個,想要設(shè)置多個可以在采集地址選項(xiàng)卡中設(shè)置。

采集調(diào)度:設(shè)置定時執(zhí)行采集操作,這個設(shè)置非常重要,只有設(shè)置了采集調(diào)度系統(tǒng)才執(zhí)行采集操作。

內(nèi)容列表開始結(jié)束html:因?yàn)橄到y(tǒng)是通過對目標(biāo)網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵詞截取來提取信息屬性的,所以設(shè)置目標(biāo)屬性的開始結(jié)束html就很重要,一定要設(shè)置為相對比較唯一的開始結(jié)束html,這樣系統(tǒng)才能正確的截取到目標(biāo)屬性。此屬性主要為了截取目標(biāo)頁面信息列表的html.

內(nèi)容地址開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容列表html后,使用此屬性截取各個內(nèi)容地址。

內(nèi)容標(biāo)題開始結(jié)束html:根據(jù)上面的屬性獲取內(nèi)容地址后,系統(tǒng)會抓取此內(nèi)容地址的網(wǎng)頁內(nèi)容,然后根據(jù)此屬性截取內(nèi)容標(biāo)題。內(nèi)容相關(guān)屬性的設(shè)置跟此屬性類似,下面不再贅述。

狀態(tài):啟用狀態(tài)下的采集規(guī)則,系統(tǒng)才會執(zhí)行。

采集圖片:將信息內(nèi)容中的圖片下載到本地。

自動審核通過:將采集的信息直接設(shè)置為已審核狀態(tài)。

使用采集信息點(diǎn)擊量:默認(rèn)采集到的信息的點(diǎn)擊量為0,設(shè)置此屬性和內(nèi)容點(diǎn)擊量開始結(jié)束html后系統(tǒng)會截取目標(biāo)信息的點(diǎn)擊量,設(shè)置為采集后信息的點(diǎn)擊量。

最多采集內(nèi)容數(shù):默認(rèn)不限制,如果設(shè)置了此屬性,系統(tǒng)會從采集記錄中統(tǒng)計(jì)此采集規(guī)則已采集了多少條信息,如果超過最多采集內(nèi)容數(shù),系統(tǒng)將不再采集。

將首幅圖片設(shè)為標(biāo)題圖片:如果信息內(nèi)容中有圖片,則提取第一張做為標(biāo)題圖片,并設(shè)置信息為圖片信息。

清除內(nèi)容中的html標(biāo)簽:將信息內(nèi)容中的html標(biāo)簽清除,保留純文本。

當(dāng)內(nèi)容為空時是否采集:可設(shè)置在內(nèi)容為空時不采集此信息。

使用采集信息的添加時間:默認(rèn)采集到的信息的添加時間為當(dāng)前時間,設(shè)置此屬性和內(nèi)容添加時間開始結(jié)束html后系統(tǒng)會截取目標(biāo)信息的添加時間,設(shè)置為采集后信息的添加時間。

采集信息添加時間格式:默認(rèn)格式為yyyy-MM-dd,如果目標(biāo)頁面的添加時間格式不同,需要在這里設(shè)置為正確的日期格式。

采集開始時間:默認(rèn)為當(dāng)前時間,如果不到采集開始時間,系統(tǒng)是不會采集的。

采集結(jié)束時間:默認(rèn)為永不結(jié)束,如果超過采集結(jié)束時間,系統(tǒng)是不會采集的。

內(nèi)容地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置內(nèi)容地址的前綴。

圖片地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置圖片鏈接地址的前綴。

內(nèi)容中A標(biāo)簽鏈接地址補(bǔ)全url:因?yàn)橛行┚W(wǎng)頁使用的是相對路徑或絕對路徑,可以設(shè)置內(nèi)容中A標(biāo)簽鏈接地址的前綴。

采集地址分為靜態(tài)和動態(tài)地址,靜態(tài)地址為固定的地址,動態(tài)地址一般指可以分頁的地址,通過{page}來代表分頁變量,可以設(shè)置從那一頁采集到那一頁,如http://www.freetam.cn/list_{page}.html,設(shè)置開始頁數(shù)為1,結(jié)束頁數(shù)為10,系統(tǒng)會自動提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有頁面的數(shù)據(jù)。

一般情況下我們只采集信息的標(biāo)題和內(nèi)容就可以了,系統(tǒng)還提供采集內(nèi)容描述、點(diǎn)擊量、作者、來源、添加時間屬性的功能。

通過關(guān)鍵詞替換功能,您可以將采集到的信息里面的關(guān)鍵詞替換為自己想要的關(guān)鍵詞。

?

編輯采集規(guī)則

選擇需要編輯的采集規(guī)則,然后點(diǎn)擊"編輯"按鈕。

注意:同時只能編輯一個采集規(guī)則。

填寫相關(guān)屬性后點(diǎn)擊"保存"按鈕即可。

采集

選擇需要采集的采集規(guī)則,然后點(diǎn)擊"采集"按鈕。

注意:同時只能對一個采集規(guī)則進(jìn)行采集操作。

刪除采集規(guī)則

選擇需要刪除的采集規(guī)則,然后點(diǎn)擊"刪除"按鈕。

提示:同時可以刪除多個采集規(guī)則。

為了防止誤操作,系統(tǒng)會提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。

查看采集記錄

從左側(cè)管理菜單點(diǎn)擊采集記錄進(jìn)入。

在這里可以查看到所有web頁面采集記錄,您可以刪除指定的采集記錄,但并不會刪除已采集的信息數(shù)據(jù),選擇需要刪除的采集記錄,然后點(diǎn)擊"刪除"按鈕。

? ?提示:同時可以刪除多個采集記錄。

?

為了防止誤操作,系統(tǒng)會提示用戶是否刪除,點(diǎn)擊"確定"完成刪除操作。

轉(zhuǎn)載于:https://my.oschina.net/u/916014/blog/899914

總結(jié)

以上是生活随笔為你收集整理的开源 java CMS - FreeCMS2.6 Web页面信息采集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。