當前位置：首頁 > 编程语言 > python >内容正文

python

python css selector_Python爬虫之Selector的用法

發布時間：2024/9/19 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python css selector_Python爬虫之Selector的用法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引言

我們之前介紹了Beautiful Soup、pyquery以及正則表達式來提取網頁數據，這確實十分方便。而Scrapy還提供了自己的數據提取方法，即Selector(選擇器)。Selector是基于lxml來構建的，支持Xpath選擇器、CSS選擇器以及正則表達式，功能全面，解析速度和準確度非常高。本節我們將介紹Selector的用法。

直接使用

Selector是一個可以獨立使用的模塊。我們可以直接利用Selector這個類來構建一個選擇器對象，然后調用它的相關方法如xpath( )、css( )等來提取數據。

例如，針對一段HTML代碼，我們可以用如下方式構建Selector對象來提取數據：

運行結果如下：

我們在這里沒有在Scrapy框架中運行，而是把Scrapy中的Selector單獨拿出來使用了，構建的時候傳入text參數，就生成了一個Selector選擇器對象，然后就可以像前面我們所用的Scrapy中的解析方式一樣，調用xpath( )、css( )等方法來提取了。

在這里我們查找的是源代碼中的title中的文本，在Xpath選擇器最后加text( )方法就可以實現文本的提取了。

以上內容就是Selector的直接使用方法。同Beautiful Soup等庫類似，Selector其實也是強大的網頁解析庫。如果方便的話，我們也可以在其他項目中直接使用Selector來提取數據。

接下來，我們用實例來詳細講解Selector的用法。

Scrapy shell

由于Selector主要是與Scrapy結合使用，如Scrapy的回調函數中的參數response直接調用xpath( )或者css( )方法來提取數據，所以在這里我們借助Scrapy shell來模擬Scrapy請求的過程，來講解相關的提取方法。

我們用官方文檔的一個樣例界面來作為我們的演示：

接著我們就可以開啟Scrapy shell，在命令行輸入如下命令：

scrapy shell + 網址

這樣我們就進入到了scrapy shell模式。這個過程其實是，Scrapy發起了一次請求，請求的URL就是剛才命令行下輸入的URL，然后把一些可操作的變量傳遞給我們，如request、response等，如下所示：

我們可以在命令行模型下輸入命令調用對象的一些操作方法，回車之后實時顯示結果。這與Python命令行交互模式是類似的。

接下來，演示的實例都將頁面的源碼作為分析目標，頁面源碼如下所示：

總結

以上是生活随笔為你收集整理的python css selector_Python爬虫之Selector的用法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python grequests极限_P
下一篇： python故事书_python的故事

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python css selector_Python爬虫之Selector的用法

總結