日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源 java CMS - FreeCMS2.6 Web页面信息采集

發布時間:2023/12/9 编程问答 67 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源 java CMS - FreeCMS2.6 Web页面信息采集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

java開源論壇系統http://javabbs.javaz.cn

項目地址:http://www.freeteam.cn/

Web頁面信息采集

? ?從FreeCMS 2.1開始支持

通過簡單配置即可抓取目標網頁信息,支持增量式采集、關鍵字替換、定時采集,同一采集規則可采集多個頁面(靜態和動態),可采集多種信息屬性,可自動審核且靜態化信息頁面。

采集規則管理

從左側管理菜單點擊采集規則進入。

添加采集規則

在采集規則列表下方點擊"添加"按鈕。

填寫相關屬性后點擊"保存"按鈕即可。

采集規則屬性說明

采集規則屬性分為基本、設置、采集地址,采集屬性,關鍵詞替換。

一般情況下只要在基本選項卡填寫相關屬性即可完成。如果需要更多高級設置可以使用后面幾個選項卡。

下面針對主要屬性進行解釋說明。

名稱:采集規則的名稱。

采集到欄目:采集的信息要添加到那個欄目。

頁面編碼:目標網頁的頁面編碼,默認為UTF-8。

采集地址:目標網頁的地址。在基本選項卡中只能設置一個,想要設置多個可以在采集地址選項卡中設置。

采集調度:設置定時執行采集操作,這個設置非常重要,只有設置了采集調度系統才執行采集操作。

內容列表開始結束html:因為系統是通過對目標網頁內容進行關鍵詞截取來提取信息屬性的,所以設置目標屬性的開始結束html就很重要,一定要設置為相對比較唯一的開始結束html,這樣系統才能正確的截取到目標屬性。此屬性主要為了截取目標頁面信息列表的html.

內容地址開始結束html:根據上面的屬性獲取內容列表html后,使用此屬性截取各個內容地址。

內容標題開始結束html:根據上面的屬性獲取內容地址后,系統會抓取此內容地址的網頁內容,然后根據此屬性截取內容標題。內容相關屬性的設置跟此屬性類似,下面不再贅述。

狀態:啟用狀態下的采集規則,系統才會執行。

采集圖片:將信息內容中的圖片下載到本地。

自動審核通過:將采集的信息直接設置為已審核狀態。

使用采集信息點擊量:默認采集到的信息的點擊量為0,設置此屬性和內容點擊量開始結束html后系統會截取目標信息的點擊量,設置為采集后信息的點擊量。

最多采集內容數:默認不限制,如果設置了此屬性,系統會從采集記錄中統計此采集規則已采集了多少條信息,如果超過最多采集內容數,系統將不再采集。

將首幅圖片設為標題圖片:如果信息內容中有圖片,則提取第一張做為標題圖片,并設置信息為圖片信息。

清除內容中的html標簽:將信息內容中的html標簽清除,保留純文本。

當內容為空時是否采集:可設置在內容為空時不采集此信息。

使用采集信息的添加時間:默認采集到的信息的添加時間為當前時間,設置此屬性和內容添加時間開始結束html后系統會截取目標信息的添加時間,設置為采集后信息的添加時間。

采集信息添加時間格式:默認格式為yyyy-MM-dd,如果目標頁面的添加時間格式不同,需要在這里設置為正確的日期格式。

采集開始時間:默認為當前時間,如果不到采集開始時間,系統是不會采集的。

采集結束時間:默認為永不結束,如果超過采集結束時間,系統是不會采集的。

內容地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置內容地址的前綴。

圖片地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置圖片鏈接地址的前綴。

內容中A標簽鏈接地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置內容中A標簽鏈接地址的前綴。

采集地址分為靜態和動態地址,靜態地址為固定的地址,動態地址一般指可以分頁的地址,通過{page}來代表分頁變量,可以設置從那一頁采集到那一頁,如http://www.freetam.cn/list_{page}.html,設置開始頁數為1,結束頁數為10,系統會自動提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有頁面的數據。

一般情況下我們只采集信息的標題和內容就可以了,系統還提供采集內容描述、點擊量、作者、來源、添加時間屬性的功能。

通過關鍵詞替換功能,您可以將采集到的信息里面的關鍵詞替換為自己想要的關鍵詞。

?

編輯采集規則

選擇需要編輯的采集規則,然后點擊"編輯"按鈕。

注意:同時只能編輯一個采集規則。

填寫相關屬性后點擊"保存"按鈕即可。

采集

選擇需要采集的采集規則,然后點擊"采集"按鈕。

注意:同時只能對一個采集規則進行采集操作。

刪除采集規則

選擇需要刪除的采集規則,然后點擊"刪除"按鈕。

提示:同時可以刪除多個采集規則。

為了防止誤操作,系統會提示用戶是否刪除,點擊"確定"完成刪除操作。

查看采集記錄

從左側管理菜單點擊采集記錄進入。

在這里可以查看到所有web頁面采集記錄,您可以刪除指定的采集記錄,但并不會刪除已采集的信息數據,選擇需要刪除的采集記錄,然后點擊"刪除"按鈕。

? ?提示:同時可以刪除多個采集記錄。

?

為了防止誤操作,系統會提示用戶是否刪除,點擊"確定"完成刪除操作。

轉載于:https://my.oschina.net/u/916014/blog/899914

總結

以上是生活随笔為你收集整理的开源 java CMS - FreeCMS2.6 Web页面信息采集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。