xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得
生活随笔
收集整理的這篇文章主要介紹了
xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
說來好笑,剛學習爬蟲的時候為了調試代碼,是將網頁下載到本地,再用beautifulsoup載入本地網頁文件進行分析,以保證選擇器編寫正確。
Scrapy內置的調試器Scrapy Shell正好作此用途,使用的選擇器則是xpath。
下面是兩篇scrapy shell 和 xpath selector的教程。
Scrapy Tutorial #6: Scrapy Shell Overview & Tips?www.accordbox.comSelectors - Scrapy 1.4.0 documentation?docs.scrapy.org要打開scrapy shell,在終端輸入
scrapy shell http://urlscrapy shell將下載網頁到本地(不會自動刪除)。
在瀏覽器中打開下載的網頁查看,繼續在終端輸入
view(response)如果要重新載入網頁,或者載入另一個網頁,則使用命令代碼
fetch("http://url")確定網頁已經正確下載到本地之后,開始測試xpath selector(選擇器)。要選取網頁上的任何標簽內容,比如<title>,使用以下代碼
response.selector.xpath("//title/text()").extract()注意xpath選擇器的編寫規則。簡單舉例:
/ 查詢絕對路徑
// 查詢所有標簽,如果要選擇所有標題標簽中的第二個,寫為 //title[2]
/text() 標簽底下的文字不是節點,在標簽后面添加以提取文本內容
//a[contains(@href,"img")]/@href 提取class,id,link等屬性
在scrapy shell中調試好的代碼可以直接復制到爬蟲文件中使用。
從終端退出scrapy shell,windows輸入ctrl +D
^D總結
以上是生活随笔為你收集整理的xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python硬件交互_对Python的交
- 下一篇: python缩进格式作用_关于自动缩进格