日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

记录webscraper的使用过程

發(fā)布時間:2025/4/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 记录webscraper的使用过程 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這個記錄一下webscraper的使用過程。幫朋友爬取山東慈善總會的網(wǎng)頁。由于比較簡單,我不想寫代碼了,就用webscraper把。

首先是網(wǎng)站上的新聞,如圖:

這個新聞有13頁,都是比較簡單的網(wǎng)頁。問題在于要爬去多個頁面,然后提取二級頁面的內(nèi)容。

使用webscraper,?

這里就是需要二級頁面的內(nèi)容,包括title, time, content。links是設(shè)置的鏈接。?頁面的鏈接形式自由最后一個數(shù)字在變:

eaa-7aef73cf6329&page=2

如下:

?所以startI_url 就用中括號, 從1-13, 設(shè)置步長為1.這樣就會爬取13也的新聞標(biāo)題。

?

?然后,建立一個選擇器。設(shè)置名字是links, type 這里要選擇link,因?yàn)槭擎溄?#xff0c;需要點(diǎn)擊進(jìn)去,多選選中,然后點(diǎn)選每一個標(biāo)題,就可以得到新聞的鏈接。

?保存這個而選擇, 在下面在設(shè)置其他三個選擇器。

這里需要輸入名字是title, 需要點(diǎn)擊進(jìn)入一個二級頁面。然后進(jìn)一步選擇標(biāo)題,時間,內(nèi)容,逐個設(shè)置。

?

?設(shè)置好了以后,是這樣的。

可以看到他們的父選擇器是links。是上面的最開始的新聞目錄頁。

然后開始愉快的爬取。很快。?

下一步是爬取微博。

微博比較討厭,一直頭大,后來想了想,還是不寫代碼了。不管寫代碼和是其他,都得訪問微博手機(jī)版。因?yàn)槲⒉╇娔X版很麻煩。所以推薦使用手機(jī)版。就是在電腦里登陸微博手機(jī)版。

比如山東慈善總會的微博。

電腦版是這樣的

而,手機(jī)版是這樣的。

?如果使用代碼,那么就需要分析這個地址。

?https://m.weibo.cn/api/container/getIndex?uid=5676362252&t=0&luicode=10000011&lfid=100103type%3D1%26q%3D%E5%B1%B1%E4%B8%9C%E6%85%88%E5%96%84%E6%80%BB%E4%BC%9A&type=uid&value=5676362252&containerid=1076035676362252&since_id=4613643721770979

就是旁邊兩個xhr應(yīng)該是都可以。然后變成json,提取內(nèi)容。也不是很麻煩。但是本著能省事就省事的原則,還是不想寫代碼。

就用webscraper把。

微博手機(jī)版要爬去,需要使用webscraper里面的 元素滾動選擇器。

具體是這樣的。

?首先新建一個container,他是ellement scroll down ,這里點(diǎn)select,選擇每一個微博的卡片。

?

這里需要注意的一點(diǎn)是,首頁有一個置頂微博,不用選,如果選它,就會影響后面的一般微博的選擇。

select的css是:

div:nth-of-type(n+4) div.card-wrap

其實(shí)我是有點(diǎn)懷疑這個css對不對。感覺好復(fù)雜,而且不一定能夠找到元素。不符合一點(diǎn)簡潔的原則,如果寫代碼的話,我肯定不會這樣用css。另外我還加上一個控制元素?cái)?shù)量的css, 就是:

nth-of-type(-n+100),這個是通過別的網(wǎng)頁看到的。但是這個功能以前我也用過。在代碼里面。沒想到webscraper里也可以這樣用, 就試試吧。

完整的選擇器

div:nth-of-type(n+4) div.card-wrap:nth-of-type(-n+100)

滾動100次,提取每一次所有的微博卡片內(nèi)容。另外,我看有些微博,還有全文鏈接。手賤又提取了全文的主要內(nèi)容。

?最后是這樣的。

?因位微博是簡要內(nèi)容,所以是brief,如果有全文鏈接,那么就提取全文。就是href里面的內(nèi)容。

?href里又弄了一個。

?腫起來是這樣的。

不過,webscraper好像沒有sleep功能。 我只找到延時,設(shè)置了3000ms

?

?后來,微博因位請求太頻繁,直接給我

?來了個小雞, 不過好在山東省慈善總會的內(nèi)容不多,基本上也爬完了。除了小雞,我也不糾結(jié)了。保存成csv發(fā)給同事了

我向應(yīng)該是我爬取全文,造成訪問太頻繁的原因。

總體來說還行,webscraper使用確實(shí)極大提高了工作效率,不用寫頭大的代碼了。

總結(jié)

以上是生活随笔為你收集整理的记录webscraper的使用过程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。