微博爬虫实践---搜索关键词
生活随笔
收集整理的這篇文章主要介紹了
微博爬虫实践---搜索关键词
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
需求:指定搜索關(guān)鍵詞,限定時間段、原創(chuàng),抓取后存入EXcel或者M(jìn)ysql
原理:模擬瀏覽器打開網(wǎng)址,輸入關(guān)鍵詞,python解析dom獲取需要信息,存入excel或者mysql
技術(shù)點:
1.爬蟲框架選取 BS4解析
2.模擬瀏覽器行為 python+selenium+Firefox
3.存檔 excel相關(guān)庫、mysql相關(guān)庫
4.關(guān)鍵詞、時間段可配置? ConfigParser庫
5.數(shù)據(jù)庫 編號遞增 更新時間
?
編寫遇到的問題:
1.登錄問題? 模擬賬號密碼登入或者cookie登錄
2.頁面無內(nèi)容 真實無內(nèi)容、數(shù)據(jù)沒有加載出來 有驗證碼防刷??
3.頁面元素沒有導(dǎo)致失敗 加入隱形等待元素不出現(xiàn)一直等待
4.無界面操作 Chrome可設(shè)置無界面 最新selenium不支持PJS無界面框架慎用
?
轉(zhuǎn)載于:https://www.cnblogs.com/aeip/p/9243483.html
總結(jié)
以上是生活随笔為你收集整理的微博爬虫实践---搜索关键词的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICML 2018大奖出炉:伯克利、MI
- 下一篇: win32绘图:绘制直线 矩形 圆形 曲