當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫爬出来的数据不全_Web Scraper教程（二）爬虫入门之当当畅销书爬取

發布時間：2023/12/16 编程问答 79 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫爬出来的数据不全_Web Scraper教程（二）爬虫入门之当当畅销书爬取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你每年能讀幾本書？

2018年，我國人均數字閱讀量為12.4本；?

2019年，我國成年人均紙質圖書閱讀量為4.65本。

粗略計算，我國人均每年可以讀17本書，平均每月1.5本。按照從18歲成年到77歲的人均壽命計算，人的一生可以讀1020本書。

當當網上的圖書數量是多少？

經濟類：614873 本
管理類：1049148 本
歷史類：607259 本
小說類：1564887 本

可見時間有限，現代文明的成果想盡情享用還是心有余而力不足，反而應該珍惜花費時間和精力去讀的那1020本書。

在讀書這件事上，選書才是最重要的。

亞馬遜和當當的圖書排行榜、名人推薦的書單、豆瓣的書評等，都可以幫助我們先做好選書這關鍵的第一步。

本篇文章以當當網暢銷書榜為例，側重Web Scraper的入門，爬取的內容比較簡單，先掌握完整的爬蟲流程，能夠順利導出爬取的數據。復雜多變的內容爬取會在后面的教程中一一講解。

?01???爬取的榜單和內容?

進入當當暢銷書榜單，選擇近30天的暢銷書，默認展示前20本，我們就對這20本的「書名」進行采集。

榜單網址：

http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1

?02???爬蟲項目實戰?

第一步，調出Web Scraper界面?

點擊鼠標右鍵，找到「檢查元素」點擊進入，在選項卡上就可以找到「Web Scraper」了。

?第二步，創建名為「dangdang」的爬蟲項目?

在Creater new sitemap下點擊Creater sitemap，然后進行以下配置：

Sitemap name：dangdang
Start URL：填入文章上方的榜單網址
點擊Create Sitemap創建完成！

?第三步，配置爬取「書名」的選擇器?

Id：選擇器名稱，這里填寫「title」，表示要采集的是書的標題
Type：默認為Text，表示要采集的信息是文本格式
點擊Selector中的Select后，跳出一個條形對話框
點選第1個書名，發現書名底色變紅(表示被選中)，然后點擊第2個書名，此時發現后面的第3個、第4個……書名均變為紅色
點擊條形對話框的Done selecting!
勾選Multiple，表示除了點選的第1個和第2個書名外，本頁后續底色變紅的書名也都需要采集
點擊Save Selector，「書名」的選擇器配置完成！

?第四步，執行爬蟲程序?

點擊Sitemap dangdang下拉列表中的Scrape，開始執行程序
出現的對話框中有兩項數字內容，默認值均為2000Request interval：表示「網頁請求發送間隔」，為了不被網站判定為機器進而阻止采集，需要模擬人的行為將動作放緩，通常按默認值即可Page load delay：表示「頁面加載時長」，如果頁面沒有完全加載就開始采集，會造成信息采集不全，特別是在網速不佳的時候，通常也按默認值，也可適當調整
點擊Start scraping開始采集，彈出一個采集窗口，注意采集過程中不要關閉此窗口，待采集完成后，窗口會自動關閉
窗口關閉后，點擊refresh，出現3列數據
「web-scraper-order」：程序自動編碼，不用理會
「web-scraper-start-url」：點擊書名跳轉的url，前面雖然只設置了采集書名的文本，但采集默認同時提供url，所以如果需要此項，不用再單獨設置
「title」：要采集的書名，注意，書名的順序并非是網頁上的順序

?第五步，導出數據至CSV文件?

Web Scraper免費版只提供CSV一種導出形式，導出后用Excel打開即可。

點擊Sitemap dangdang下拉列表中的Export data as csv
點擊Download now!后出現了瀏覽器的下載對話框，打開或者保存即可

?03???Web Scraper界面功能介紹?下面，順序介紹Web Scraper界面中的Sitemaps、Sitemap、Create new sitemapSitemaps：Sitemap項目列表，所有創建的Sitemap均可在此列表找到，比如上面創建的「dangdang」就在此列表中。Sitemap：直接點擊此項，Web Scraper無任何反應，因為此項只針對某一個已經創建的Sitemap，所以，要從Sitemaps中選擇一個ID點擊，這里點擊「dangdang」，發現中間的Sitemap變為了Sitemap dangdang，說明已經跳轉到了指定的Sitemap內。點擊Sitemap dangdang，下拉列表有如下幾項：Selectors：選擇器列表，每一個采集內容均要配置一個選擇器，在上面的例子中，采集了書名，如果需要采集評論數、出版社等頁面可見信息，要分別為這些信息逐一添加選擇器Selector graph：選擇器結構圖，顯示選擇器之間的樹狀關系，再復雜的采集項目中能夠一目了然地呈現采集邏輯Edit metadata：修改Sitemap設置，即Sitemap名稱和urlScrape：執行采集程序Browse：瀏覽采集結果Export Sitemap：導出Sitemap代碼，此代碼可以直接導入，無需再次配置Export data as CSV：導出采集結果至csv文件點擊Create new sitemap，發現有兩種新建Sitemap的方法，直接創建(Create Sitemap)和導入(Import Sitemap)。當當的案例中已經講過Create Sitemap，這里不再贅述。
點擊Import Sitemap進入以下界面：Sitemap JSON：把Export Sitemap導出的代碼粘貼在此處Rename Sitemap：為Sitemap命名
點擊Import Sitemap后，同樣成功創建了Sitemap?04???數據采集只是數據分析的過程?每一分鐘，互聯網上都會有海量的數據產生，數據的價值并非是它本身，而是通過分析數據能獲得哪些有價值的信息。數據采集是一項不值得投入太多時間的工作(包括學習采集的時間和練習的時間)，所以，只要學習了網頁常見情況的處理方法就可以，沒有必要為了學習采集而頻繁練習。遇到新的問題時，再到網上尋求解答，這樣會記得更牢。

總結

以上是生活随笔為你收集整理的爬虫爬出来的数据不全_Web Scraper教程（二）爬虫入门之当当畅销书爬取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2023年最新谷歌Google帐号Gma
下一篇：【EXLIBRIS】#小词旮旯# 006