日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫技术(01)神箭手爬虫初学案例解读

發布時間:2024/1/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫技术(01)神箭手爬虫初学案例解读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
var configs = {//要爬取的域名domains: ["leiphone.com"], //爬蟲的入口URL scanUrls: ["http://www.leiphone.com/search?s=vr&site=article"],//內容頁url正則/*解讀下面正則:http://www.leiphone.com/news/ (\d+表示任意位數的數字) /(.+表示任意字符多次或1次).html\d 匹配一個字數字符,/\d/ = /[0-9]/+ 匹配前面元字符1次或多次 . 可以替代任何字符 例如:https://www.leiphone.com/news/201701/ri7dDB7Fq0mMj1qh.html*/contentUrlRegexes: [/http:\/\/www\.leiphone\.com\/news\/\d+\/.+\.html/],//列表頁url正則 可留空/*解讀下面正則:http://www.leiphone.com/search?s=vr&site=article(&page=\d+)? 表示頁數可有不可有例如:https://www.leiphone.com/search?s=vr&site=article&page=2*/helperUrlRegexes: [/http:\/\/www\.leiphone\.com\/search\?s=vr&site=article(&page=\d+)?/],fields: [{// 抽取內容頁的文章標題 // name自己寫name: "article_title",// selector解讀 表示該name的值是頁面上的h1標簽上的class="headTit"的頁簽的值/*<h1 class="headTit">4K之后,8K頭顯海外眾籌表現不俗,小派科技為什么要死磕分辨率? </h1>*/selector: "//h1[contains(@class,'headTit')]",required: true},{// 抽取內容頁的文章內容/**/name: "article_content",selector: "//div[contains(@class,'lph-article-comView')]",required: true},{// 抽取內容頁的文章發布日期name: "article_publish_time",selector: "//td[contains(@class,'time')]",required: true},{// 抽取內容頁的文章作者/*如果出現這種情況 就是定位的里面還有標簽 那么就如下寫<td class="aut">本文作者:<a href="https://www.leiphone.com/author/tianmiao" target="_blank" rel="nofollow">田苗</a></td>*/name: "article_author",selector: "//td[contains(@class,'aut')]/a",required: true}] };// 在"afterExtractField回調函數"中將爬取到的時間轉換為秒級時間戳 /*fieldName: 表示字段名稱data: 表示字段值page: 表示當前正在爬取的網頁對象site: 表示當前正在爬取的目標網站對象 configs.afterExtractField = function(fieldName, data, page, site) {if (fieldName == "article_publish_time") {var timestamp = Date.parse(data);return isNaN(timestamp) ? 0 : parseInt(timestamp/1000);}return data; };// 使用以上配置創建一個采集爬蟲 var crawler = new Crawler(configs); // 啟動該采集爬蟲 crawler.start();

總結

以上是生活随笔為你收集整理的爬虫技术(01)神箭手爬虫初学案例解读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。