xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得
說來好笑,剛學(xué)習(xí)爬蟲的時候為了調(diào)試代碼,是將網(wǎng)頁下載到本地,再用beautifulsoup載入本地網(wǎng)頁文件進行分析,以保證選擇器編寫正確。
Scrapy內(nèi)置的調(diào)試器Scrapy Shell正好作此用途,使用的選擇器則是xpath。
下面是兩篇scrapy shell 和 xpath selector的教程。
Scrapy Tutorial #6: Scrapy Shell Overview & Tips?www.accordbox.comSelectors - Scrapy 1.4.0 documentation?docs.scrapy.org要打開scrapy shell,在終端輸入
scrapy shell http://urlscrapy shell將下載網(wǎng)頁到本地(不會自動刪除)。
在瀏覽器中打開下載的網(wǎng)頁查看,繼續(xù)在終端輸入
view(response)如果要重新載入網(wǎng)頁,或者載入另一個網(wǎng)頁,則使用命令代碼
fetch("http://url")確定網(wǎng)頁已經(jīng)正確下載到本地之后,開始測試xpath selector(選擇器)。要選取網(wǎng)頁上的任何標簽內(nèi)容,比如<title>,使用以下代碼
response.selector.xpath("//title/text()").extract()注意xpath選擇器的編寫規(guī)則。簡單舉例:
/ 查詢絕對路徑
// 查詢所有標簽,如果要選擇所有標題標簽中的第二個,寫為 //title[2]
/text() 標簽底下的文字不是節(jié)點,在標簽后面添加以提取文本內(nèi)容
//a[contains(@href,"img")]/@href 提取class,id,link等屬性
在scrapy shell中調(diào)試好的代碼可以直接復(fù)制到爬蟲文件中使用。
從終端退出scrapy shell,windows輸入ctrl +D
^D總結(jié)
以上是生活随笔為你收集整理的xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python硬件交互_对Python的交
- 下一篇: websocket python爬虫_p