當前位置：首頁 > 编程语言 > python >内容正文

python

Python 爬取淘宝商品信息栏目

發布時間：2025/3/11 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 爬取淘宝商品信息栏目小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、相關知識點

1.1、Selenium

Selenium是一個強大的開源Web功能測試工具系列，可進行讀入測試套件、執行測試和記錄測試結果，模擬真實用戶操作，包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發鼠標事件等操作，并且能夠對頁面結果進行種種驗證。也就是說，只要在測試用例中把預期的用戶行為與結果都描述出來，我們就得到了一個可以自動化運行的功能測試套件。

1.2、ActionChains

Actionchains是selenium里面專門處理鼠標相關的操作如：鼠標移動，鼠標按鈕操作，按鍵和上下文菜單（鼠標右鍵）交互。這對于做更復雜的動作非常有用，比如懸停和拖放。

1.3、time

返回當前時間的時間戳

1.4、lxml

lxml是一個Python庫，使用它可以輕松處理XML和HTML文件，還可以用于web爬取。市面上有很多現成的XML解析器，但是為了獲得更好的結果，開發人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優點是易于使用，在解析大型文檔時速度非常快，歸檔的也非常好，并且提供了簡單的轉換方法來將數據轉換為Python數據類型，從而使文件操作更容易。

1.5、csv

csv文件格式是一種通用的電子表格和數據庫導入導出格式。最近我調用RPC處理服務器數據時，經常需要將數據做個存檔便使用了這一方便的格式。

1.6、requests

Requests 庫是一個優雅而簡單的 Python HTTP 庫，主要用于發送和處理 HTTP 請求

二、部分代碼解析

加載Chrome驅動，動態解析爬取的網址

#提取公共的爬取信息的apidef commonsdk(self,url):browser = webdriver.Chrome('D:/chromedriver.exe')try:browser.get(url)except Exception as e:browser.execute_script('window.stop()') # 超出時間則不加載print(e, 'dynamic web load timeout')return browser;

實現模擬登錄
通過定位淘寶登陸界面的url的表單框，然后輸入自己的用戶名及密碼，再模擬鼠標點擊事件，繼而提交表單信息實現用戶登錄。

#模擬登錄def logon(self,url,a_href_list_next):username = "淘寶賬戶名"password = "密碼"browser1 = self.commonsdk(url)#登錄賬號browser1.find_element_by_id('fm-login-id').send_keys(username)browser1.find_element_by_id('fm-login-password').send_keys(password)#模擬用戶點擊登錄browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()#解析商品信息self.Buy_information(a_href_list_next,browser1)

爬取側邊欄目錄
1、首先定位到目錄分類欄，鼠標光標移動到需要選中的那一欄，繼而會出現隱藏的div，（這里需要實現鼠標懸停事件）action.move_to_element(li_list).perform()實現了這一功能。
2、然后定位自己所需要爬取的側邊欄的那一行或多行，通過實現鼠標懸停事件后獲取其中內容。
3、獲取其超鏈接進入下一界面

#爬取目錄def List(self,url):browser = self.commonsdk(url)#ActionChains類實現鼠標的單擊、雙擊、拖拽等功能action = ActionChains(browser)li_list = browser.find_elements_by_css_selector('.service-bd li')[1]#實現執行鼠標懸停,便于爬取懸停內容action.move_to_element(li_list).perform()time.sleep(5)#爬取整個目錄的divdiv_list = browser.find_element_by_css_selector('.service-fi-links')#爬取其中的總的名稱h5_list = div_list.find_elements_by_css_selector('h5')#爬取小標題的名稱p_list = div_list.find_elements_by_css_selector('p')#獲取a標簽a_href_list = div_list.find_elements_by_css_selector('a')#獲取a標簽的超鏈接a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href')print(li_list.text)for j in range(len(p_list)):if j<len(p_list):print(h5_list[j].text)print(p_list[j].text)for i in range(len(a_href_list)):print(a_href_list[i].get_attribute('href'))#獲取登錄框logon = browser.find_element_by_id('J_SiteNavBd')#獲取登錄框的超鏈接logon_url = logon.find_element_by_css_selector('a').get_attribute('href')#先關閉第一個網頁browser.close()self.logon(logon_url,a_href_list_next)

獲取商品信息
1、這里使用的定位方式是Xpath方式，使用了絕對定位來獲取標簽的位置。

#爬取商品信息def Buy_information(self,url,browser):browser.get(url)div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')img = div_list.find_element_by_css_selector('img')img_url = "https:"+img.get_attribute('data-src')price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').textnumber = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').textshoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').textshop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').textadress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').textpath = self.img_baocun(img_url)data={'圖片路徑':path,'價格':price,'購買人數':number,'商品信息':shoping_information,'商家':shop,'籍貫':adress}self.write_dictionary_to_csv(data,'information')

下載圖片
通過獲取到的圖片的url，然后將圖片下載到指定的文件夾內

#下載照片def img_baocun(self,url):root = "文件夾下載的路徑"//電腦上的絕對路徑path = root + url.split('?')[0].split('/')[-1].strip('')#獲取jpg的名稱#判斷是否存在該路徑，不存在則創建if not os.path.exists(root):os.mkdir(root)#判斷是否存在該圖片，存在則不下載if not os.path.exists(path):r = requests.get(url)r.raise_for_status()with open(path,'wb') as f:f.write(r.content)return path

將需要爬取的信息寫入到csv文件中，便于查看
1、商品信息以字典的形式寫入csv文件中方便查看。

#將解析得到的內容（字典格式）逐行寫入csv文件def write_dictionary_to_csv(self,dict,filename):#格式化文件名file_name='{}.csv'.format(filename)with open(file_name, 'a',encoding='utf-8') as f: file_exists = os.path.isfile(filename)#delimiter(定界符) w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True)if not file_exists :w.writeheader()w.writerow(dict)print('當前行寫入csv成功！')

三、程序思路

1、首先定位到側邊欄的位置，然后使用action.move_to_element(li_list).perform()的方法實現鼠標的動態懸停，讓隱藏的div顯示出來，再獲取其中的信息。
2、然后再實現模擬登錄的功能，登錄賬號，獲取其中的商品信息（由于淘寶的反扒機制，多次登錄會讓用戶掃碼登錄，此功能暫未實現）
3、商品信息的獲取使用Xpath的絕對定位方式來獲取。

Xpath的使用方式：右鍵需要定位的標簽->選中Copy選項->Copy Xpath

四、發展空間

1、解決淘寶反扒機制的問題。傳送門，解決問題
2、文件的寫入換用其他方式。

總結

以上是生活随笔為你收集整理的Python 爬取淘宝商品信息栏目的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二叉搜索树中第k大元素_二叉搜索树中第K
下一篇： Redis为什么变慢了？一文详解Redi