[Python爬虫] 之十二:Selenium +phantomjs抓取中的url编码问题
最近在抓取活動樹網站 (http://www.huodongshu.com/html/find.html) 上數據時發現,在用搜索框輸入中文后,點擊搜索,phantomjs抓取數據怎么也抓取不到,但是用IE驅動就可以找到,后來才發現了原因。
例如URL:?http://www.huodongshu.com/html/find_search.html?search_keyword=數字, phantomjs抓取的內存中url變成了http://www.huodongshu.com/html/find_search.html?search_keyword=??,導致搜索的結果為0,就是沒有搜索到。
在搜索框輸入英文是沒有問題,奇怪輸入中文就就變成了??,后來在活動行(http://www.huodongxing.com/)網站上直接輸入數字后,變成了%E6%95%B0%E5%AD%97
后來就想如果把對應的中文轉換成%E6%95%B0%E5%AD%97 這樣的編碼,phantomjs能不能找到呢,比如:
Url='http://www.huodongshu.com/html/find_search.html?search_keyword=%E6%95%B0%E5%AD%97',結果一測試果然可以找到,因此在用phantomjs抓取數據是,先把搜索中文關鍵字轉換成url編碼就解決問題了。
具體有兩個方法,具體如下:
?
結果:
?
?
?
轉載于:https://www.cnblogs.com/shaosks/p/6703951.html
總結
以上是生活随笔為你收集整理的[Python爬虫] 之十二:Selenium +phantomjs抓取中的url编码问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UNITY 多SCENE加载与编辑
- 下一篇: Springmvc的helloworld