日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

前嗅ForeSpider教程:如何创建新任务

發布時間:2023/12/31 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 前嗅ForeSpider教程:如何创建新任务 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
從今天起,小編開始教大家逐步進行可視化配置操作。首先,我們來學習第一步:創建新任務,主要包括創建新任務的操作步驟,操作中的注意事項兩部分內容。

一,創建新任務操作步驟:

1.添加新任務

點擊任務列表右側,新建任務文件。

【添加任務】
此時會出現一個彈框,可以在彈框中填寫采集地址,修改任務名稱,以及選擇是否需要登錄/關鍵詞采集。

【新建任務】

2.填寫采集地址

在彈窗里填寫采集地址和任務名稱。

【填寫采集地址】

采集地址一般選擇目標網站的入口地址,比如首頁。
大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。

例1:采集整個淘寶網全部商品的信息,淘寶網首頁就是入口地址。

例2:只采集“女裝”類別的商品信息,“女裝”首頁就是入口地址。

例3:只采集某商品的評論信息,該商品的鏈接地址就是入口地址。

3.選擇當前頁面所需內容

創建新的任務之后,點擊“下一步”,選擇頁面需要抽取內容。
①抽取鏈接:需要抽取頁面上的鏈接時,選擇抽取鏈接以及具體的鏈接類型,會建立對應的鏈接抽取。(方式一:智能過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取數據:需要抽取頁面上的數據時,選擇抽取數據,會建立對應的數據抽取。(>>如何選擇表單)
例如:
需要采集新聞的正文數據,當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接進入的,所以本頁面需要抽取新聞鏈接。
軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。

【選擇頁面抽取內容】
點擊“完成”,軟件自動創建對應的抽取內容的模板。

二,創建新任務注意事項

1.如何選擇采集類型

采集類型分為默認(html)和本地文件目錄兩種。
(1)默認(html):采集網站上的各種信息
(2)本地文件目錄:采集本地文件目錄信息。

【設置采集類型】

2.什么情況下選擇瀏覽器采集

在頁面均由JS生成時,采集效果不理想的情況下,可以嘗試使用“瀏覽器采集”,該方式近乎于在瀏覽器上點擊,會減慢采集速度,但是對JS語法的支持更加全面。
瀏覽器采集:通過瀏覽器的方式采集數據。
適用情況:由大量JS生成的,采集難度大的網頁。對JS語法的支持更加全面,近乎于在瀏覽器上點擊,但采集速度慢、效率低。

【設置瀏覽器采集】

3.Cookie的使用方法

① 配置Cookie
(1)填寫Cookie:
正常情況下(除JS生成的Cookie外),軟件會自動獲取Cookie。
當軟件無法獲取到網頁的Cookie時,需要參考下文從瀏覽器尋找Cookie。
(2)禁用Cookie的情況:
對于不需要Cookie的網站,選擇“禁用Cookie”,可加快采集速度。

【Cookie配置】
② 如何通過瀏覽器尋找cookie
在獲取不到登錄狀態的時候,可以通過瀏覽器的F12開發者工具進行手動的獲取Cookie。首先先用瀏覽器打開網頁,點擊F12打開開發者工具,如圖所示。

接下來點擊network網絡任務列表。

在瀏覽器上輸入用戶名密碼,點擊登錄

可以在network里面看到出現很多條任務,從中就可以找到關于登錄的cookie。

③ 多賬號登錄的Cookie處理
當需要登錄多個賬號來抓取同一個網頁時,可以在采集列表中設置多個采集任務,采集地址填寫一個地址,填寫不同的Cookie信息即可。

4.什么情況下禁用JavaScript

對于有些把JavaScript只用于美觀效果的網頁,關閉JavaScript不影響采集數據時,可以加快采集速度。

【JavaScript配置】

總結

以上是生活随笔為你收集整理的前嗅ForeSpider教程:如何创建新任务的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。