當(dāng)前位置：首頁(yè) > 编程语言 > java >内容正文

java

JAVA异步爬虫_Java 爬虫遇上数据异步加载，试试这两种办法！

發(fā)布時(shí)間：2024/1/23 java 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 JAVA异步爬虫_Java 爬虫遇上数据异步加载，试试这两种办法！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這是 Java 爬蟲(chóng)系列博文的第三篇，在上一篇 Java 爬蟲(chóng)遇到需要登錄的網(wǎng)站，該怎么辦？中，我們簡(jiǎn)單的講解了爬蟲(chóng)時(shí)遇到登錄問(wèn)題的解決辦法，在這篇文章中我們一起來(lái)聊一聊爬蟲(chóng)時(shí)遇到數(shù)據(jù)異步加載的問(wèn)題，這也是爬蟲(chóng)中常見(jiàn)的問(wèn)題。

現(xiàn)在很多都是前后端分離項(xiàng)目，這會(huì)使得數(shù)據(jù)異步加載問(wèn)題更加突出，所以你在爬蟲(chóng)時(shí)遇到這類(lèi)問(wèn)題不必驚訝，不必慌張。對(duì)于這類(lèi)問(wèn)題的解決辦法總體來(lái)說(shuō)有以下兩種：

1、內(nèi)置一個(gè)瀏覽器內(nèi)核

內(nèi)置瀏覽器就是在抓取的程序中，啟動(dòng)一個(gè)瀏覽器內(nèi)核，使我們獲取到 js 渲染后的頁(yè)面，這樣我們就跟采集靜態(tài)頁(yè)面一樣了。這種工具常用的有以下三種：

Selenium

HtmlUnit

PhantomJs

這些工具都能幫助我們解決數(shù)據(jù)異步加載的問(wèn)題，但是他們都存在缺陷，那就是效率不高而且不穩(wěn)定。

2、反向解析法

什么是反向解析法呢？我們 js 渲染頁(yè)面的數(shù)據(jù)是通過(guò) Ajax 的方式從后端獲取的，我們只需要找到對(duì)應(yīng)的 Ajax 請(qǐng)求連接就 OK，這樣我們就獲取到了我們需要的數(shù)據(jù)，反向解析法的好處就是這種方式獲取的數(shù)據(jù)都是 json 格式的數(shù)據(jù)，解析起來(lái)也比較方便，另一個(gè)好處就是相對(duì)頁(yè)面來(lái)說(shuō)，接口的變化概率更小。同樣它有兩個(gè)不足之處，一個(gè)是在 Ajax 時(shí)你需要有耐心有技巧，因?yàn)槟阈枰谝淮笸普?qǐng)求中找到你想要的，另一個(gè)不足的地方就是對(duì) JavaScript 渲染的頁(yè)面束手無(wú)策。

上面就是異步數(shù)據(jù)加載的兩種解決辦法，為了加深大家的理解和在項(xiàng)目中如何使用，我以采集網(wǎng)易要聞為例，網(wǎng)易新聞地址：https://news.163.com/ 。利用上訴的兩種方式來(lái)獲取網(wǎng)易要聞的新聞列表。網(wǎng)易要聞如下：

內(nèi)置瀏覽器 Selenium 方式

Selenium 是一個(gè)模擬瀏覽器，進(jìn)行自動(dòng)化測(cè)試的工具，它提供一組 API 可以與真實(shí)的瀏覽器內(nèi)核交互。在自動(dòng)化測(cè)試上使用的比較多，爬蟲(chóng)時(shí)解決異步加載也經(jīng)常使用它，我們要在項(xiàng)目中使用 Selenium ，需要做兩件事：

1、引入 Selenium 的依賴(lài)包，在 pom.xml 中添加

org.seleniumhq.selenium

selenium-java

3.141.59

2、下載對(duì)應(yīng)的 driver，例如我下載的 chromedriver，下載地址為：https://npm.taobao.org/mirrors/chromedriver/，下載后，需要將 driver 的位置寫(xiě)到 Java 的環(huán)境變量里，例如我直接放在項(xiàng)目下，所以我的代碼為：

System.getProperties().setProperty("webdriver.chrome.driver", "chromedriver.exe");

完成上面兩步之后，我們就可以來(lái)編寫(xiě)使用 Selenium 采集網(wǎng)易要聞啦。具體代碼如下：

/**

* selenium 解決數(shù)據(jù)異步加載問(wèn)題

* https://npm.taobao.org/mirrors/chromedriver/

* @param url

public void selenium(String url) {

// 設(shè)置 chromedirver 的存放位置

System.getProperties().setProperty("webdriver.chrome.driver", "chromedriver.exe");

// 設(shè)置無(wú)頭瀏覽器，這樣就不會(huì)彈出瀏覽器窗口

ChromeOptions chromeOptions = new ChromeOptions();

chromeOptions.addArguments("--headless");

WebDriver webDriver = new ChromeDriver(chromeOptions);

webDriver.get(url);

// 獲取到要聞新聞列表

List webElements = webDriver.findElements(By.xpath("//div[@class='news_title']/h3/a"));

for (WebElement webElement : webElements) {

// 提取新聞連接

String article_url = webElement.getAttribute("href");

// 提取新聞標(biāo)題

String title = webElement.getText();

if (article_url.contains("https://news.163.com/")) {

System.out.println("文章標(biāo)題：" + title + " ,文章鏈接：" + article_url);

}

webDriver.close();

}

運(yùn)行該方法，得到結(jié)果如下：

我們使用 Selenium 已經(jīng)正確的提取到了網(wǎng)易要聞的列表新聞。

反向解析法

反向解析法就是獲取到 Ajax 異步獲取數(shù)據(jù)的鏈接，直接獲取到新聞數(shù)據(jù)。如果沒(méi)有技巧的話(huà)，查找 Ajax 的過(guò)程將非常痛苦，因?yàn)橐粋€(gè)頁(yè)面加載的鏈接太多了，看看網(wǎng)易要聞的 network：

有幾百條的請(qǐng)求，該如何查找到是哪條請(qǐng)求獲取的要聞數(shù)據(jù)呢？你不嫌麻煩的話(huà)，可以一個(gè)一個(gè)的去點(diǎn)，肯定能夠查找到的，另一種快捷的辦法是利用 network 的搜索功能，如果你不知道搜索按鈕，我在上圖已經(jīng)圈出來(lái)啦，我們?cè)谝勚须S便復(fù)制一個(gè)新聞標(biāo)題，然后檢索一下，就可以獲取到結(jié)果，如下圖所示：

這樣我們就快速的獲取到了要聞數(shù)據(jù)的請(qǐng)求鏈接，鏈接為：https://temp.163.com/special/00804KVA/cm_yaowen.js?callback=data_callback，訪問(wèn)該鏈接，查看該鏈接返回的數(shù)據(jù)，如下圖所示：

從數(shù)據(jù)我們可以看出，我們需要的數(shù)據(jù)都在這里啦，所以我們只需要解析這段數(shù)據(jù)接可以啦，要從這段數(shù)據(jù)中解析出新聞標(biāo)題和新聞鏈接，有兩種方式，一種是正則表達(dá)式，另一種是將該數(shù)據(jù)轉(zhuǎn)成 json 或者 list。這里我選擇第二種方式，利用 fastjson 將返回的數(shù)據(jù)轉(zhuǎn)換成 JSONArray 。所以我們是要引入 fastjson ，在 pom.xml 中引入 fastjson 依賴(lài)：

com.alibaba

fastjson

1.2.59

除了引入 fastjson 依賴(lài)外，我們?cè)谵D(zhuǎn)換前還需要對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理，因?yàn)楝F(xiàn)在的數(shù)據(jù)并不符合 list 的格式，我們需要去掉 data_callback( 和最后面的 )。具體反向解析獲取網(wǎng)易要聞的代碼如下：

/**

* 使用反向解析法解決數(shù)據(jù)異步加載的問(wèn)題

* @param url

public void httpclientMethod(String url) throws IOException {

CloseableHttpClient httpclient = HttpClients.createDefault();

HttpGet httpGet = new HttpGet(url);

CloseableHttpResponse response = httpclient.execute(httpGet);

if (response.getStatusLine().getStatusCode() == 200) {

HttpEntity entity = response.getEntity();

String body = EntityUtils.toString(entity, "GBK");

// 先替換掉最前面的 data_callback(

body = body.replace("data_callback(", "");

// 過(guò)濾掉最后面一個(gè) )右括號(hào)

body = body.substring(0, body.lastIndexOf(")"));

// 將 body 轉(zhuǎn)換成 JSONArray

JSONArray jsonArray = JSON.parseArray(body);

for (int i = 0; i < jsonArray.size(); i++) {

JSONObject data = jsonArray.getJSONObject(i);

System.out.println("文章標(biāo)題：" + data.getString("title") + " ,文章鏈接：" + data.getString("docurl"));

}

} else {

System.out.println("處理失敗！！！返回狀態(tài)碼：" + response.getStatusLine().getStatusCode());

}

編寫(xiě) main 方法，執(zhí)行上面的方法，需要注意的地方是：這時(shí)候傳入的鏈接為https://temp.163.com/special/00804KVA/cm_yaowen.js?callback=data_callback 而不是 https://news.163.com/。得到如下結(jié)果:

兩種方法都成功的獲取到了網(wǎng)易要聞異步加載的新聞列表，對(duì)于這兩種方法的選取，我個(gè)人的傾向是使用反向解析法，因?yàn)樗男阅芎头€(wěn)定是都要比內(nèi)置瀏覽器內(nèi)核靠譜，但是對(duì)于一些使用 JavaScript 片段渲染的頁(yè)面，內(nèi)置瀏覽器又更加靠譜。所以根據(jù)具體情況選擇吧。

希望這篇文章對(duì)你有所幫助，下一篇是關(guān)于爬蟲(chóng)IP 被封的問(wèn)題。如果你對(duì)爬蟲(chóng)感興趣，不妨關(guān)注一波，相互學(xué)習(xí)，相互進(jìn)步

源代碼：源代碼

文章不足之處，望大家多多指點(diǎn)，共同學(xué)習(xí)，共同進(jìn)步

最后

打個(gè)小廣告，歡迎掃碼關(guān)注微信公眾號(hào)：「平頭哥的技術(shù)博文」，一起進(jìn)步吧。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的JAVA异步爬虫_Java 爬虫遇上数据异步加载，试试这两种办法！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：日历记事本java代码_急需日历记事本J
下一篇： java abort_Java中“...