python重定向_在Python中使用urlopen()防止“隐藏”重定向
我正在使用BeautifulSoup進行網頁抓取,并且在使用urlopen時遇到特定類型網站的問題.網站上的每個商品都有其獨特的頁面,并且商品具有不同的格式(例如:500 mL,1L,2L等).
當我使用Internet瀏覽器打開產品的URL(www.example.com/product1)時,會看到500 mL格式的圖片,有關其的信息(價格,數量,風味等)以及以下內容的列表:此特定項目可用的所有其他格式.如果單擊另一種格式(例如1L),則圖片和有關該項目的信息將發生變化,但瀏覽器頂部的URL將保持不變(www.example.com/product1).但是,通過檢查頁面的HTML代碼,我知道所有格式都有其自己的唯一URL(500 mL:www.example.com/product1/123; 1L:www.example.com/product1/456,… ).在Internet瀏覽器中使用1L格式的唯一URL時,我會自動重定向到www.example.com/product1頁面,但是頁面上顯示的圖片和信息與1L格式相對應. HTML代碼還包含我需要的有關1L格式的信息.
當我使用urlopen打開這些唯一的URL時,出現了我的問題.
from bs4 import BeautifulSoup
from urllib import urlopen
webpage = urlopen('www.example.com/product1/456')
soup=BeautifulSoup(webpage)
print soup
湯中包含的信息與使用我的Internet瀏覽器顯示的唯一URL的信息不符:www.example.com/product1/456.它為我提供了有關默認情況下在www.example.com/product1上顯示的項目格式的信息,該格式始終為500 mL.
有什么方法可以阻止這種重定向,使我可以使用BeautifulSoup捕獲唯一URL的HTML代碼中包含的信息?
總結
以上是生活随笔為你收集整理的python重定向_在Python中使用urlopen()防止“隐藏”重定向的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 查看cpu_作为高级Java
- 下一篇: python用pandas读取excel