當前位置：首頁 >

[Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题

發布時間：2025/3/20 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 [Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　最近在抓取活動樹網站 (http://www.huodongshu.com/html/find.html) 上數據時發現，在用搜索框輸入中文后，點擊搜索，phantomjs抓取數據怎么也抓取不到，但是用IE驅動就可以找到，后來才發現了原因。

　　例如URL:?http://www.huodongshu.com/html/find_search.html?search_keyword=數字, phantomjs抓取的內存中url變成了http://www.huodongshu.com/html/find_search.html?search_keyword=??，導致搜索的結果為0，就是沒有搜索到。

　　在搜索框輸入英文是沒有問題，奇怪輸入中文就就變成了??，后來在活動行（http://www.huodongxing.com/）網站上直接輸入數字后，變成了%E6%95%B0%E5%AD%97

　　后來就想如果把對應的中文轉換成%E6%95%B0%E5%AD%97 這樣的編碼，phantomjs能不能找到呢，比如：

　　Url='http://www.huodongshu.com/html/find_search.html?search_keyword=%E6%95%B0%E5%AD%97'，結果一測試果然可以找到，因此在用phantomjs抓取數據是，先把搜索中文關鍵字轉換成url編碼就解決問題了。

　　具體有兩個方法,具體如下：

　　結果：

轉載于:https://www.cnblogs.com/shaosks/p/6703951.html

總結

以上是生活随笔為你收集整理的[Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： UNITY 多SCENE加载与编辑
下一篇： Springmvc的helloworld