當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

工具说明书 - 网页内容抓取工具Web Scraper（一）

發(fā)布時間：2023/12/20 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了工具说明书 - 网页内容抓取工具Web Scraper（一）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Web Scraper，官網(wǎng)自稱為排名第一的網(wǎng)頁抓取/提取插件，可以安裝在Chrome和Firefox上。

安裝路徑：

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=enhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en

Web Scraper – Get this Extension for 🦊 Firefox (en-US)https://addons.mozilla.org/en-US/firefox/addon/web-scraper/

也可以用瀏覽器打開官網(wǎng)，點擊Install，則自動選擇安裝。

Web Scraper - The #1 web scraping extensionhttps://webscraper.io/

也可以在瀏覽器右上方找到Extensions圖標，點開，下拉菜單，找到Manage Extensions，也就是進入了chrome://extensions。

左上角點開，然后左下角進入Web Store，之后打開新頁面，在里面搜索web scraper，安裝即可。

相關使用說明，最好看一下視頻：

Web Scraper Tutorialshttps://webscraper.io/tutorials

不過是Youtube鏈接，可能有點困難，網(wǎng)上也可隨便搜搜也有教學。

這個插件普通版是免費的，加強版要收費，如果有錢有需要，不花就浪費。

使用這個插件，因為集成在瀏覽器里，使用起來很方便，很適合菜鳥和普通非專業(yè)技術人員使用，如果是需要更強大更定制化的網(wǎng)頁數(shù)據(jù)抓取，可能需要更專業(yè)的工具或者自己編程實現(xiàn)了。

下面就我使用這個插件的情況做一下介紹，以作記錄供你我他參考。

--------------------------------------------------------------------?

第一步，安裝，如上介紹。

第二步，以Chrome為例，在瀏覽器地址欄輸入：chrome://extensions/

查看Web Scraper是否安裝成功并啟用。

第三步，F12或者Ctrl+Shift+I，打開開發(fā)者工具：

打開后，選擇底部顯示模式：

然后找到最后一個WebScraper標簽，點擊進入。

好了，準備工作已經(jīng)完成。

----------------------------------------------------------?

第一個例子，按照官網(wǎng)的教學視頻，操作一遍。

打開官方提供的測試網(wǎng)站：

Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

官方提供的測試網(wǎng)站是一個電商網(wǎng)站，我們先簡單瀏覽一下，里面分了兩級，一級是主分類：電腦和手機；一級是子分類，在電腦和手機下面的分類包含具體的產(chǎn)品項，產(chǎn)品項點開是具體的產(chǎn)品信息。

我們的目標是要通過瀏覽兩級的目錄結構，把所有的產(chǎn)品信息提取出來。

先設置登錄頁面，入口網(wǎng)址，landing page。從這個頁面開始，Web scraper會瀏覽整個網(wǎng)站，我們需要創(chuàng)建多個選擇器，形成一個樹結構，類似于網(wǎng)站構建時的結構。

這些選擇器定義了網(wǎng)站如何被瀏覽和數(shù)據(jù)如何被提取。

如下圖所示操作，就是要Create Sitemap，輸入地址為上面的瀏覽器顯示地址：Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

一個完整數(shù)據(jù)提取就是基于一個sitemap，我們配置好sitemap后，設置可以保存后下次繼續(xù)使用，需要重新提取直接執(zhí)行即可。

Create site時命名為E-commerce。

這時后面有個Data preview按鍵，點開后發(fā)現(xiàn)目前是什么數(shù)據(jù)都沒有的，需要添加選擇器。

初始頁面里的分級的欄目，為了訪問，我們要創(chuàng)建鏈接形式的選擇器。點擊Add new selector。

然后點擊select進行選擇鏈接形式的網(wǎng)頁元素。

選擇器命名為category-linkm，類型為link，點擊select后選擇兩個鏈接，勾選Multiple，Parent Selectors就是登錄頁面。

點擊Select后在網(wǎng)頁上選擇元素，完成后點擊Done selecting。

驗證選擇結果，可以點擊Element preview查看選擇是否正確，并點擊data preview看是否正常工作。

然后Save selector。

下一步我們創(chuàng)建下一級鏈接的選擇器。

網(wǎng)頁上點擊Computer，繼續(xù)創(chuàng)建鏈接形式的選擇器。

點擊保存。然后創(chuàng)建產(chǎn)品頁的鏈接選擇器，先點擊Laptops進入產(chǎn)品列表頁。

點擊產(chǎn)品鏈接進入產(chǎn)品頁，創(chuàng)建Text類型的選擇器，將需要的數(shù)據(jù)提取出來。

????????

選擇器創(chuàng)建完畢，讓我們看一下，按照層級關系點開selectors，并隨時點開選擇器后面的Data preview查看數(shù)據(jù)是否正常。

還可以使用selectors graph查看我們創(chuàng)建的選擇器的結構。

點擊Scrape開始抓取數(shù)據(jù)，會看到新網(wǎng)頁打開，按照我們設置的登錄網(wǎng)址和選擇器，瀏覽頁面，提取數(shù)據(jù)。

休息一下，等待數(shù)據(jù)提取。

完成后會關閉彈出的網(wǎng)頁，并有提示。

然后點擊Refresh，顯示提取的數(shù)據(jù)。

選擇導出到CSV文件。

?打開CSV文件，數(shù)據(jù)如下：

OK，CSV文件到手，告一段落。

點擊Browse回到數(shù)據(jù)顯示。

還可以導出Export Sitemap，將Sitemap JSON內(nèi)容保存下來，下次創(chuàng)建Sitemap時直接導入，更加方便快捷。

如果有多個Sitemap，操作前可以選擇或切換執(zhí)行數(shù)據(jù)提取的Sitemap。

總結

以上是生活随笔為你收集整理的工具说明书 - 网页内容抓取工具Web Scraper（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。