工具说明书 - 网页内容抓取工具Web Scraper(一)
Web Scraper,官網(wǎng)自稱為排名第一的網(wǎng)頁抓取/提取插件,可以安裝在Chrome和Firefox上。
安裝路徑:
https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=enhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en
Web Scraper – Get this Extension for 🦊 Firefox (en-US)https://addons.mozilla.org/en-US/firefox/addon/web-scraper/
也可以用瀏覽器打開官網(wǎng),點擊Install,則自動選擇安裝。
Web Scraper - The #1 web scraping extensionhttps://webscraper.io/
也可以在瀏覽器右上方找到Extensions圖標,點開,下拉菜單,找到Manage Extensions,也就是進入了chrome://extensions。
左上角點開,然后左下角進入Web Store,之后打開新頁面,在里面搜索web scraper,安裝即可。
相關使用說明,最好看一下視頻:
Web Scraper Tutorialshttps://webscraper.io/tutorials
不過是Youtube鏈接,可能有點困難,網(wǎng)上也可隨便搜搜也有教學。
這個插件普通版是免費的,加強版要收費,如果有錢有需要,不花就浪費。
使用這個插件,因為集成在瀏覽器里,使用起來很方便,很適合菜鳥和普通非專業(yè)技術人員使用,如果是需要更強大更定制化的網(wǎng)頁數(shù)據(jù)抓取,可能需要更專業(yè)的工具或者自己編程實現(xiàn)了。
下面就我使用這個插件的情況做一下介紹,以作記錄供你我他參考。
--------------------------------------------------------------------?
第一步,安裝,如上介紹。
第二步,以Chrome為例,在瀏覽器地址欄輸入:chrome://extensions/
查看Web Scraper是否安裝成功并啟用。
第三步,F12或者Ctrl+Shift+I,打開開發(fā)者工具:
打開后,選擇底部顯示模式:
然后找到最后一個WebScraper標簽,點擊進入。
好了,準備工作已經(jīng)完成。
----------------------------------------------------------?
第一個例子,按照官網(wǎng)的教學視頻,操作一遍。
打開官方提供的測試網(wǎng)站:
Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone
官方提供的測試網(wǎng)站是一個電商網(wǎng)站,我們先簡單瀏覽一下,里面分了兩級,一級是主分類:電腦和手機;一級是子分類,在電腦和手機下面的分類包含具體的產(chǎn)品項,產(chǎn)品項點開是具體的產(chǎn)品信息。
我們的目標是要通過瀏覽兩級的目錄結構,把所有的產(chǎn)品信息提取出來。
先設置登錄頁面,入口網(wǎng)址,landing page。從這個頁面開始,Web scraper會瀏覽整個網(wǎng)站,我們需要創(chuàng)建多個選擇器,形成一個樹結構,類似于網(wǎng)站構建時的結構。
這些選擇器定義了網(wǎng)站如何被瀏覽和數(shù)據(jù)如何被提取。
如下圖所示操作,就是要Create Sitemap,輸入地址為上面的瀏覽器顯示地址:Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone
一個完整數(shù)據(jù)提取就是基于一個sitemap,我們配置好sitemap后,設置可以保存后下次繼續(xù)使用,需要重新提取直接執(zhí)行即可。
Create site時命名為E-commerce。
這時后面有個Data preview按鍵,點開后發(fā)現(xiàn)目前是什么數(shù)據(jù)都沒有的,需要添加選擇器。
初始頁面里的分級的欄目,為了訪問,我們要創(chuàng)建鏈接形式的選擇器。點擊Add new selector。
然后點擊select進行選擇鏈接形式的網(wǎng)頁元素。
選擇器命名為category-linkm,類型為link,點擊select后選擇兩個鏈接,勾選Multiple,Parent Selectors就是登錄頁面。
點擊Select后在網(wǎng)頁上選擇元素,完成后點擊Done selecting。
驗證選擇結果,可以點擊Element preview查看選擇是否正確,并點擊data preview看是否正常工作。
然后Save selector。
下一步我們創(chuàng)建下一級鏈接的選擇器。
網(wǎng)頁上點擊Computer,繼續(xù)創(chuàng)建鏈接形式的選擇器。
點擊保存。然后創(chuàng)建產(chǎn)品頁的鏈接選擇器,先點擊Laptops進入產(chǎn)品列表頁。
點擊產(chǎn)品鏈接進入產(chǎn)品頁,創(chuàng)建Text類型的選擇器,將需要的數(shù)據(jù)提取出來。
?
????????
?
選擇器創(chuàng)建完畢,讓我們看一下,按照層級關系點開selectors,并隨時點開選擇器后面的Data preview查看數(shù)據(jù)是否正常。
還可以使用selectors graph查看我們創(chuàng)建的選擇器的結構。
點擊Scrape開始抓取數(shù)據(jù),會看到新網(wǎng)頁打開,按照我們設置的登錄網(wǎng)址和選擇器,瀏覽頁面,提取數(shù)據(jù)。
休息一下,等待數(shù)據(jù)提取。
完成后會關閉彈出的網(wǎng)頁,并有提示。
然后點擊Refresh,顯示提取的數(shù)據(jù)。
選擇導出到CSV文件。
?打開CSV文件,數(shù)據(jù)如下:
OK,CSV文件到手,告一段落。
點擊Browse回到數(shù)據(jù)顯示。
還可以導出Export Sitemap,將Sitemap JSON內(nèi)容保存下來,下次創(chuàng)建Sitemap時直接導入,更加方便快捷。
如果有多個Sitemap,操作前可以選擇或切換執(zhí)行數(shù)據(jù)提取的Sitemap。
總結
以上是生活随笔為你收集整理的工具说明书 - 网页内容抓取工具Web Scraper(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用栈来完成一个表达式的结果
- 下一篇: 迷宫回溯问题分析和实现