當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java广度优先爬虫示例,【爬虫】广度优先遍历抓取数据概述

發布時間：2023/12/2 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 java广度优先爬虫示例,【爬虫】广度优先遍历抓取数据概述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這次都是一些純語言的表達，可能會有點啰嗦，或者有點枯燥，也是對爬蟲的一些小小的見解，可能只是一些常見話，哈哈，還是耐心的寫完。

網絡爬蟲的整體執行流程：

1)確定一個(多個)種子網頁

2)進行數據內容的提取

3)將網頁中的關聯網頁鏈接進行提取出來

4)將尚未爬去的關聯網頁內容放入到一個隊列中

5)從隊列中取出一個待爬去的頁面，判斷之前是否爬過

6)把沒有爬過的內容進行爬取，并進行之前的重復操作

7)直到隊列中沒有新的內容，爬蟲執行結束

跳動

舞蹈

這樣進行爬蟲時，一般會有一些概念必須知道的：

廣度優先遍歷：指網絡爬蟲會先抓取起始網頁中鏈接的所有網頁，然后選擇其中的一種鏈接網頁，繼續抓取在此網頁中的鏈接的所有網頁。這個方法最常用，也可以進行網絡爬蟲并行處理，提高爬去數據效率。

廣度優先遍歷就是像金字塔一樣，首先抓取第一層數據，作為種子節點，然后遍歷第二層數據，接著遍歷第三層數據，等等以此類推

從一個已知的種子鏈接開始寬度的遍歷網頁，為了知道哪些網頁可以進行抓取，需要將新發現的網頁存儲到一個URL隊列中，使用ArrayDeque實現一個隊列，為了避免重復訪問一個網址，需要將遍歷過的網頁URL存入到歷史表中，使用HashSet實現這個歷史表。如果使用Queue來實現ToDo,則對每一個增加到ToDo的元素都需要進行對象封裝，因為ArrayQueue底層采用數組實現，所以增加到ArrayQueue的元素不需要對象封裝，ArrayDeque性能比Queue更好，所以todo采用ArrayDeque實現。

在爬蟲需要注意的一些事項：

1：分任務分包時，有可能出現線程安全問題

2：數據重復問題

3：頻率控制問題(盡量不要過快，有可能被發爬蟲干掉)

4：對象的創建和銷毀問題

5：沒有考慮到的所有問題

如感覺不錯點擊“好看”

總結

以上是生活随笔為你收集整理的java广度优先爬虫示例,【爬虫】广度优先遍历抓取数据概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何在苹果Safari中禁用自动完成
下一篇： java中vector容器,vector