當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

webbrowser 百度列表点击_前嗅ForeSpider采集教程：关键词的「检索列表」采集「检索结果」...

發布時間：2025/3/21 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 webbrowser 百度列表点击_前嗅ForeSpider采集教程：关键词的「检索列表」采集「检索结果」... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以百度搜索關鍵詞(http://www.baidu.com)為例：

一. 網站結構

網站截圖說明

使用批量關鍵詞，從百度檢索列表依次進入檢索結果頁，采集結果頁里的正文數據。

檢索列表頁

檢索結果頁

2. 采集結果截圖

檢索列表鏈接

檢索結果數據

二. 配置模板

新建任務

新建任務

點擊【下一步】，需要采集全部檢索結果，所以此處需要勾選【鏈接列表】和【普通翻頁】，如圖：

新建采集任務

2. 配置關鍵詞

配置關鍵詞

① 內置瀏覽器顯示搜索頁面后，按照提示：ctrl+左鍵單擊搜索框，點擊右下角【完成】。點擊右上角【保存】，保存任務配置。

保存關鍵詞配置

② 關鍵詞列表處，填寫關鍵詞，并點擊保存。

填寫關鍵詞

3. 采集預覽

看關鍵詞檢索的鏈接是否能夠出來，如果沒有出來，應該使用腳本采集；如果可以出來，則繼續操作。

4. 過濾鏈接列表

①用定位過濾鏈接，過濾關鍵詞檢索出的列表鏈接。

定位過濾列表鏈接

② 采集預覽，看是否過濾成功。

采集預覽出現鏈接均為網頁中關鍵詞檢索列表中的鏈接，過濾成功。

采集預覽

5. 過濾翻頁鏈接

①用定位過濾鏈接，過濾翻頁鏈接。

定位過濾翻頁鏈接

② 采集預覽，看是否過濾成功

采集預覽出現鏈接均為翻頁的鏈接，過濾成功。

采集預覽

6.關聯模板

通過關聯模板，可以設置該鏈接將要跳轉的下一層級頁面。通過模板之間的關聯，可以將網站各層級頁面關聯起來，在軟件中形成與瀏覽器相同的跳轉結構，從而完整地采集數據。

關聯模板

如果沒有創建模板02，可以自行創建模板。

新建模板

7. 填寫示例地址

模板二是為了抽取正文數據，故勾選【抽取數據】，并填寫示例數據。

①選取任意一條檢索結果的網址，也就是模板一過濾得到的任意一條鏈接，作為模板二的示例地址。

填寫示例地址

②點擊【下一步】，自動生成數據抽取。

如果沒有自動生成，則新建數據抽取。

新建數據抽取

8. 創建/選擇表單

表單創建后可以重復選擇使用，如果已有建好的表單，選擇對應數據表單即可。如果沒有，點擊創建表單。

創建表單

9.配置表單

根據所需內容，配置表單字段，此處配置了包括網頁標題、網頁地址、全部文本三個字段。=>(字段各屬性介紹)

方式一：快速建表。(點擊【創建表單】出現彈窗。)

配置表單

方式二：自由建表。(在【數據建表】界面。)

字段取值

10.字段取值

①f_id：主鍵字段，自動取值。=>(能夠自動取值的字段有哪些？)

②web_title：通過字段定位取值，按ctrl+單擊標題，確認選取。

字段取值

③web_link：自動獲取url地址。

web_link

11. 關聯數據表

先選擇對應表單，然后再創建關聯數據表，如圖所示。

創建關聯數據表

定義表名稱

勾選數據表

12. 模板預覽

通過預覽，可以了解配置是否能夠正確地采集到所需數據。

方式一：點擊【采集預覽】按鈕，可以從入口頁逐層預覽各個模板的數據。

點擊任意一條鏈接，看看是否可以得到和網頁對應的規整的數據。

方式二：右鍵后選擇【模板預覽】，可以單獨預覽某個模板的數據。

模板預覽

預覽結果

三.數據采集

1. 運行設置

運行設置處可以設置采集速度、采集策略、任務裝載等。

運行設置

1. 選擇采集任務

在【任務列表】中勾選需要采集的任務，可勾選多個任務，同時采集。

選擇采集任務

3. 開始采集

點擊【開始采集】，系統開始進行采集。剩余任務數為0時，系統自動停止采集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務，再次啟動時重新裝載任務)。

開始采集

4. 數據瀏覽

采集一段時間以后，點擊【數據瀏覽】，在數據列表中選中對應的數據表，即可瀏覽采集到的數據，點擊【刷新】按鈕可以同步顯示數據。

數據瀏覽

5. 導出數據

點擊【導出】按鈕，選擇導出文件格式后保存。

導出數據

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的webbrowser 百度列表点击_前嗅ForeSpider采集教程：关键词的「检索列表」采集「检索结果」...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python同步锁和互斥锁的区别_Pyt
下一篇： string替换_GEE数据类型—Str

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

webbrowser 百度列表点击_前嗅ForeSpider采集教程：关键词的「检索列表」采集「检索结果」...

總結