日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫爬出来的数据不全_Web Scraper教程(二)爬虫入门之当当畅销书爬取

發布時間:2023/12/16 编程问答 79 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫爬出来的数据不全_Web Scraper教程(二)爬虫入门之当当畅销书爬取 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你每年能讀幾本書?

2018年,我國人均數字閱讀量為12.4本;?

2019年,我國成年人均紙質圖書閱讀量為4.65本。

粗略計算,我國人均每年可以讀17本書,平均每月1.5本。按照從18歲成年到77歲的人均壽命計算,人的一生可以讀1020本書。

當當網上的圖書數量是多少?

  • 經濟類:614873 本

  • 管理類:1049148 本

  • 歷史類:607259 本

  • 小說類:1564887 本

可見時間有限,現代文明的成果想盡情享用還是心有余而力不足,反而應該珍惜花費時間和精力去讀的那1020本書。

在讀書這件事上,選書才是最重要的。

亞馬遜和當當的圖書排行榜、名人推薦的書單、豆瓣的書評等,都可以幫助我們先做好選書這關鍵的第一步。

本篇文章以當當網暢銷書榜為例,側重Web Scraper的入門,爬取的內容比較簡單,先掌握完整的爬蟲流程,能夠順利導出爬取的數據。復雜多變的內容爬取會在后面的教程中一一講解。

?01???爬取的榜單和內容?

進入當當暢銷書榜單,選擇近30天的暢銷書,默認展示前20本,我們就對這20本的「書名」進行采集。

榜單網址:

http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1

?02???爬蟲項目實戰?

第一步,調出Web Scraper界面?

點擊鼠標右鍵,找到「檢查元素」點擊進入,在選項卡上就可以找到「Web Scraper」了。

?第二步,創建名為「dangdang」的爬蟲項目?

在Creater new sitemap下點擊Creater sitemap,然后進行以下配置:

  • Sitemap name:dangdang

  • Start URL:填入文章上方的榜單網址

  • 點擊Create Sitemap創建完成!

?第三步,配置爬取「書名」的選擇器?

  • Id:選擇器名稱,這里填寫「title」,表示要采集的是書的標題

  • Type:默認為Text,表示要采集的信息是文本格式

  • 點擊Selector中的Select后,跳出一個條形對話框

  • 點選第1個書名,發現書名底色變紅(表示被選中),然后點擊第2個書名,此時發現后面的第3個、第4個……書名均變為紅色

  • 點擊條形對話框的Done selecting!

  • 勾選Multiple,表示除了點選的第1個和第2個書名外,本頁后續底色變紅的書名也都需要采集

  • 點擊Save Selector,「書名」的選擇器配置完成!

?第四步,執行爬蟲程序?

  • 點擊Sitemap dangdang下拉列表中的Scrape,開始執行程序

  • 出現的對話框中有兩項數字內容,默認值均為2000Request interval:表示「網頁請求發送間隔」,為了不被網站判定為機器進而阻止采集,需要模擬人的行為將動作放緩,通常按默認值即可Page load delay:表示「頁面加載時長」,如果頁面沒有完全加載就開始采集,會造成信息采集不全,特別是在網速不佳的時候,通常也按默認值,也可適當調整

  • 點擊Start scraping開始采集,彈出一個采集窗口,注意采集過程中不要關閉此窗口,待采集完成后,窗口會自動關閉

  • 窗口關閉后,點擊refresh,出現3列數據
    「web-scraper-order」:程序自動編碼,不用理會
    「web-scraper-start-url」:點擊書名跳轉的url,前面雖然只設置了采集書名的文本,但采集默認同時提供url,所以如果需要此項,不用再單獨設置
    「title」:要采集的書名,注意,書名的順序并非是網頁上的順序

?第五步,導出數據至CSV文件?

Web Scraper免費版只提供CSV一種導出形式,導出后用Excel打開即可。
  • 點擊Sitemap dangdang下拉列表中的Export data as csv
  • 點擊Download now!后出現了瀏覽器的下載對話框,打開或者保存即可
?03???Web Scraper界面功能介紹?下面,順序介紹Web Scraper界面中的Sitemaps、Sitemap、Create new sitemapSitemaps:Sitemap項目列表,所有創建的Sitemap均可在此列表找到,比如上面創建的「dangdang」就在此列表中。Sitemap:直接點擊此項,Web Scraper無任何反應,因為此項只針對某一個已經創建的Sitemap,所以,要從Sitemaps中選擇一個ID點擊,這里點擊「dangdang」,發現中間的Sitemap變為了Sitemap dangdang,說明已經跳轉到了指定的Sitemap內。點擊Sitemap dangdang,下拉列表有如下幾項:Selectors:選擇器列表,每一個采集內容均要配置一個選擇器,在上面的例子中,采集了書名,如果需要采集評論數、出版社等頁面可見信息,要分別為這些信息逐一添加選擇器Selector graph:選擇器結構圖,顯示選擇器之間的樹狀關系,再復雜的采集項目中能夠一目了然地呈現采集邏輯Edit metadata:修改Sitemap設置,即Sitemap名稱和urlScrape:執行采集程序Browse:瀏覽采集結果Export Sitemap:導出Sitemap代碼,此代碼可以直接導入,無需再次配置Export data as CSV:導出采集結果至csv文件點擊Create new sitemap,發現有兩種新建Sitemap的方法,直接創建(Create Sitemap)和導入(Import Sitemap)。當當的案例中已經講過Create Sitemap,這里不再贅述。
點擊Import Sitemap進入以下界面:Sitemap JSON:把Export Sitemap導出的代碼粘貼在此處Rename Sitemap:為Sitemap命名
點擊Import Sitemap后,同樣成功創建了Sitemap?04???數據采集只是數據分析的過程?每一分鐘,互聯網上都會有海量的數據產生,數據的價值并非是它本身,而是通過分析數據能獲得哪些有價值的信息。數據采集是一項不值得投入太多時間的工作(包括學習采集的時間和練習的時間),所以,只要學習了網頁常見情況的處理方法就可以,沒有必要為了學習采集而頻繁練習。遇到新的問題時,再到網上尋求解答,這樣會記得更牢。

總結

以上是生活随笔為你收集整理的爬虫爬出来的数据不全_Web Scraper教程(二)爬虫入门之当当畅销书爬取的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。