日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

工具说明书 - 网页内容抓取工具Web Scraper(一)

發(fā)布時間:2023/12/20 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 工具说明书 - 网页内容抓取工具Web Scraper(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Web Scraper,官網(wǎng)自稱為排名第一的網(wǎng)頁抓取/提取插件,可以安裝在Chrome和Firefox上。

安裝路徑:

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=enhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en

Web Scraper – Get this Extension for 🦊 Firefox (en-US)https://addons.mozilla.org/en-US/firefox/addon/web-scraper/

也可以用瀏覽器打開官網(wǎng),點擊Install,則自動選擇安裝。

Web Scraper - The #1 web scraping extensionhttps://webscraper.io/

也可以在瀏覽器右上方找到Extensions圖標,點開,下拉菜單,找到Manage Extensions,也就是進入了chrome://extensions。

左上角點開,然后左下角進入Web Store,之后打開新頁面,在里面搜索web scraper,安裝即可。

相關使用說明,最好看一下視頻:

Web Scraper Tutorialshttps://webscraper.io/tutorials

不過是Youtube鏈接,可能有點困難,網(wǎng)上也可隨便搜搜也有教學。

這個插件普通版是免費的,加強版要收費,如果有錢有需要,不花就浪費。

使用這個插件,因為集成在瀏覽器里,使用起來很方便,很適合菜鳥和普通非專業(yè)技術人員使用,如果是需要更強大更定制化的網(wǎng)頁數(shù)據(jù)抓取,可能需要更專業(yè)的工具或者自己編程實現(xiàn)了。

下面就我使用這個插件的情況做一下介紹,以作記錄供你我他參考。

--------------------------------------------------------------------?

第一步,安裝,如上介紹。

第二步,以Chrome為例,在瀏覽器地址欄輸入:chrome://extensions/

查看Web Scraper是否安裝成功并啟用。

第三步,F12或者Ctrl+Shift+I,打開開發(fā)者工具:

打開后,選擇底部顯示模式:

然后找到最后一個WebScraper標簽,點擊進入。

好了,準備工作已經(jīng)完成。

----------------------------------------------------------?

第一個例子,按照官網(wǎng)的教學視頻,操作一遍。

打開官方提供的測試網(wǎng)站:

Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

官方提供的測試網(wǎng)站是一個電商網(wǎng)站,我們先簡單瀏覽一下,里面分了兩級,一級是主分類:電腦和手機;一級是子分類,在電腦和手機下面的分類包含具體的產(chǎn)品項,產(chǎn)品項點開是具體的產(chǎn)品信息。

我們的目標是要通過瀏覽兩級的目錄結構,把所有的產(chǎn)品信息提取出來。

先設置登錄頁面,入口網(wǎng)址,landing page。從這個頁面開始,Web scraper會瀏覽整個網(wǎng)站,我們需要創(chuàng)建多個選擇器,形成一個樹結構,類似于網(wǎng)站構建時的結構。

這些選擇器定義了網(wǎng)站如何被瀏覽和數(shù)據(jù)如何被提取。

如下圖所示操作,就是要Create Sitemap,輸入地址為上面的瀏覽器顯示地址:Web Scraper Test Siteshttps://webscraper.io/test-sites/e-commerce/allinone

一個完整數(shù)據(jù)提取就是基于一個sitemap,我們配置好sitemap后,設置可以保存后下次繼續(xù)使用,需要重新提取直接執(zhí)行即可。

Create site時命名為E-commerce。

這時后面有個Data preview按鍵,點開后發(fā)現(xiàn)目前是什么數(shù)據(jù)都沒有的,需要添加選擇器。

初始頁面里的分級的欄目,為了訪問,我們要創(chuàng)建鏈接形式的選擇器。點擊Add new selector。

然后點擊select進行選擇鏈接形式的網(wǎng)頁元素。

選擇器命名為category-linkm,類型為link,點擊select后選擇兩個鏈接,勾選Multiple,Parent Selectors就是登錄頁面。

點擊Select后在網(wǎng)頁上選擇元素,完成后點擊Done selecting。

驗證選擇結果,可以點擊Element preview查看選擇是否正確,并點擊data preview看是否正常工作。

然后Save selector。

下一步我們創(chuàng)建下一級鏈接的選擇器。

網(wǎng)頁上點擊Computer,繼續(xù)創(chuàng)建鏈接形式的選擇器。

點擊保存。然后創(chuàng)建產(chǎn)品頁的鏈接選擇器,先點擊Laptops進入產(chǎn)品列表頁。

點擊產(chǎn)品鏈接進入產(chǎn)品頁,創(chuàng)建Text類型的選擇器,將需要的數(shù)據(jù)提取出來。

?

????????

?

選擇器創(chuàng)建完畢,讓我們看一下,按照層級關系點開selectors,并隨時點開選擇器后面的Data preview查看數(shù)據(jù)是否正常。

還可以使用selectors graph查看我們創(chuàng)建的選擇器的結構。

點擊Scrape開始抓取數(shù)據(jù),會看到新網(wǎng)頁打開,按照我們設置的登錄網(wǎng)址和選擇器,瀏覽頁面,提取數(shù)據(jù)。

休息一下,等待數(shù)據(jù)提取。

完成后會關閉彈出的網(wǎng)頁,并有提示。

然后點擊Refresh,顯示提取的數(shù)據(jù)。

選擇導出到CSV文件。

?打開CSV文件,數(shù)據(jù)如下:

OK,CSV文件到手,告一段落。

點擊Browse回到數(shù)據(jù)顯示。

還可以導出Export Sitemap,將Sitemap JSON內(nèi)容保存下來,下次創(chuàng)建Sitemap時直接導入,更加方便快捷。

如果有多個Sitemap,操作前可以選擇或切換執(zhí)行數(shù)據(jù)提取的Sitemap。

總結

以上是生活随笔為你收集整理的工具说明书 - 网页内容抓取工具Web Scraper(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。