火车头采集器采集文章使用教程实例
任務(wù):
采集某一個指定頁面的文章包括(標題、圖片、描述、內(nèi)容)導(dǎo)入到自己網(wǎng)站數(shù)據(jù)庫對應(yīng)欄目(欄目id為57),數(shù)據(jù)庫字段分別(title,thumb,descrption,content)。
頁面里面第一張圖作為文章縮略圖,這邊一個獲取縮略圖名稱并添加上對應(yīng)網(wǎng)站路徑放入數(shù)據(jù)庫thumb字段,另一個是下載下本地,統(tǒng)一上傳到指定文件夾,(當然看軟件可以直接ftp,目前還沒弄,后期弄了會補充)
1、新建分組--新建任務(wù)
2、添加網(wǎng)址+ 編輯獲取網(wǎng)址的規(guī)則
選擇范圍在 ul 里面的 li 里面的鏈接,注意排除重復(fù)地址,可以點擊下面測試網(wǎng)址采集獲取。
可以看到有采集到的文章鏈接了。
3、采集內(nèi)容規(guī)則
我這邊需要采集下面圖上展示數(shù)據(jù)(catid是欄目id,可以將采集到的數(shù)據(jù)放入對應(yīng)欄目,設(shè)置固定值就好)
著重說下內(nèi)容和圖片的采集,標題和描述同理內(nèi)容采集
內(nèi)容采集:
打開一個采集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網(wǎng)址前面加上 view-source:一樣可以查看):
選中文章開頭一個位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下圖1處,結(jié)尾同開頭一樣。
我截取內(nèi)容不想里面還帶有鏈接圖片可以數(shù)據(jù)處理,添加--html標簽排除--選好確定--確定
還有需要下載頁面圖片,勾選和填寫下面選項
圖片采集:
(1)選中范圍和內(nèi)容一樣(文章內(nèi)圖片)
(2)數(shù)據(jù)處理選 提取第一張圖片 內(nèi)容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾 ,獲取內(nèi)容:aa.jpg
(4)數(shù)據(jù)庫存儲有前綴,添加上, upload/xxxxx/
找一個頁面測試一下,可以看到對應(yīng)項目都獲取到了。
4、發(fā)布內(nèi)容設(shè)置,這里以方式三發(fā)布到數(shù)據(jù)庫為例子,編輯后回到這邊勾選剛定義的模塊就好:
5、我需要保存圖片到本地,要設(shè)置下保存文件的路徑(ftp后續(xù)會試著使用)。
6、保存,查看剛新建的任務(wù),右鍵 開始任務(wù)運行,這邊就可以看到文字和圖片都下載下來了,數(shù)據(jù)庫里面也可以看到了。
總結(jié)
以上是生活随笔為你收集整理的火车头采集器采集文章使用教程实例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浏览器市场份额统计
- 下一篇: CRF 及CRF++ 安装与解释