python import request 不报错_爬虫学习路径整理及安装环境遇到的坑
學習路徑是我自己提煉和精選的,只適合我個人,因為雖然有技術基礎但是我剛入門爬蟲視野很窄不專業,為避免誤導你們,你們最好參考知乎上大牛已經回答的好答案。我發這篇文章,目的是給自己看的。ps,專欄下每篇文章都是我的原創,轉載請標注原處.
學習資源請單:
1)官方Python 最新英文版 ,點左邊鏈接
Python 3.5中文版 ,點左邊鏈接
2)語法入門書:
《Python編程 從入門到實踐》,這門講的很好,淺顯易懂,還包括可視化+Django+heroku的內容。大家不要看其他大牛推薦的什么簡明教程什么笨方法學python,這類的書知識不成體系,還是看專業人寫的書吧,血的教訓,浪費好多時間。推薦書時,能不能自己讀過后再推薦,推薦錯了害不少人吶親。
入門的還有《python語言及其應用》,這本語法很全面,想省時間的看前本吧。或者《python快速上手-讓繁瑣工作自動化》也很不錯,比前面兩本書的多很多案例,而且案例可以讓自己的效率有提高。
3)練手項目:
A github上的開源Demo:
如Awesome Python 資源整理集合,內容包括:Web框架、網絡爬蟲、網絡內容提取、模板引擎、數據庫、數據可視化、圖片處理、文本處理、自然語言處理、機器學習、日志、代碼分析等
B 視頻相關的開源Demo:慕客網上有,關于爬蟲框架原理解釋的很到位。
C 社區上的開源Demo;http://deeplearning.net/demos。
D: 書中的Demo:書見中高級篇。
4) 社區:google+的數據和機器人小組,Matrix 67,http://deeplearning.net,集搜客GooSeeker,Stackoverflow,Segmentfault,Codecademy,九章算法,leetcode刷面試題,ruby-china.,CSDN,Quera,stack exchange中tag為機器學習的部分,生物學社區AGCTU(關于統計和圖表部分)。
5)考慮輸出:比如翻譯外文的譯言
6)中高級篇:檢索,采集,分析,挖掘和機器學習相關書籍
數據采集:
關鍵詞:有lxml,beautiful soup,正則表達式,反爬蟲(user-agent,time.sleep,cookie,代理ip,selenium操縱瀏覽器,驗證碼識別等都需要了解啊),反編譯,利用抓包技術提取,利用嵌入式瀏覽器,利用IDA軟件逆向分析技術,移動APP漏洞及安全相關等。
動態頁面提取方案有:
面截圖來自這篇文章《基于IDA逆向分析的AppStore應用爬取》 ,這篇文章我要好好看。
反編譯爬蟲的例子:見這篇文章《用xposed框架抓取微信朋友圈數據》
書:
有《用python寫網絡爬蟲》(詳細,但是python2版本)
《自己動手寫網絡爬蟲》羅剛(里面的思想可以借鑒,但是是用java實現的)
《Python網絡數據采集》(初學者可以了解爬蟲需要用到哪些知識,挺不錯的)
《利用PYTHON進行數據分析》:看書名就知道寫什么了。
《圖解HTTP》或者《HTTP權威指南》:了解http協議的,如果有基礎,就不要看了,前書通俗易懂適合初學者,后者全面相對不夠通俗適合有計算機基礎的看。
《精通正則表達式》(正則表達式),scrapy源碼分析,《Python源碼剖析》。
《Lucene 3.0 原理與代碼分析》,LuceneInAction(第2版),Lucene+nutch搜索引擎開發,開發自己的搜索引擎——Lucene+Heritrix(第2版),其他的見這篇文章“Lucene和Solr 學習路徑”
搜索引擎Demo:悟空搜索
《搜索引擎中網絡爬蟲的研究與實現》段兵營
《深入研究web主題爬蟲的關鍵性原理》王芳
《軟件逆向工程技術研究及應用》
《基于IDA-PRO》軟件逆向分析方法 秦清文
《支持ajax技術的主題網絡爬蟲系統研究與實現》
數據分析:
關鍵詞有:自然語言處理(如中文分詞和詞性標注),命名實體識別,分詞工具
《機器學習:實用案例解析》 /《貝葉斯思維:統計建模的Python學習法》/《集體智慧編程》/《推薦系統實踐》/《機器學習實戰》/《數據挖掘導論(完整版)》/ 《終極算法》 /《推薦系統》/ 《Python機器學習:預測分析核心算法》 /《統計自然語言處理(第2版)》
,《機器學習:實用案例解析》,《社交網站的數據挖掘與分析》,《Python數據科學指南》,《Python數據分析實戰》,《Python數據分析與挖掘實戰》有案例,
數據庫大家可以看高性能MySQL (豆瓣),《Head first Python》,《數據可視化實戰——使用D3設計交互式圖表》,《集體智慧編程》,《機器學習系統設計》,《機器學習實戰》,《推薦系統》,《統計學習方法》,《看穿一切數字的統計學》,《數據可視化之美》,《圖表說話》,參加Kaggle競賽等
數據存儲和可視化:
信息鏈接:URI,sql
存儲:json,如PostgreSql,excel,圖數據庫Neo4j/OientDB,RDF數據庫Startdog。
可視化:tableau,D3,matlib,pysql。
開發環境安裝
開發環境安裝流程見: python爬蟲的最佳實踐(二)--環境搭建
安裝開發環境步驟(win環境+64位+python最新3.6版本+mongodb):
1、安裝python 3.6版本
查看是否安裝成功:啟動python解釋器(快捷鍵win+r),在cmd里輸入python,沒報錯就表示安裝成功了。 命令行窗口退出python解釋器,需要輸入uexit()
2、用Python自帶的IDE練手熟悉Python基礎語法:
記住常用快捷鍵:1)ctrl+n 自動創建一個編輯文件,編輯好后,再F5執行就可以了;或者在python IDE(GUI)的窗口中的File->New Window創建。2)增加多行縮進: Ctrl + ] (右中括號)
3)減少多行縮進:Ctrl + [ (左中括號) ; 4)添加多行注釋:Alt + 3 ; 5)取消多行注釋:Alt + 4
6)更多可以查看 IDLE菜單欄的Options -> Configure IDLE… -> Keys選項卡
如果想自定義快捷鍵,則選中要自定義的命令,然后點擊Get New Keys for Selection
3、安裝pip自動安裝包,省時間
安裝pip 流程
4、安裝request請求包
官方地址
5、安裝Scrapy爬蟲框架
安裝時發現building twisted.test.raizer extention報錯,網上找了下,發現有網友已經提供這個問題的解決方案了,網址:twisted安裝注意事項 和下載twisted,安裝步驟 ,以及這個。
驗證Scrapy是否成功,python shell下輸入 import scrapy 不報錯就說明安裝成功。
如果python安裝python庫的時候經常報錯,可以看這篇文章有解決方案
Scrapy入門教程Demo:見這里
6、安裝pyopenssl加密包
7、安裝bootstrap前端開發的開源工具包
8、安裝builtwith包,用于查看網站用了哪些技術。
python安裝builtwith會遇到問題,不過可以看這位網友的解決方案
9、安裝pycharm的開發環境:步驟見這個。
pycharm激活:用這個lanyus.
注意:配置調試scrapy爬蟲項目,需要點擊工具欄run--》edit configuration 。
10、安裝虛擬環境virtualenv包
python -m venv 創建虛擬環境,虛擬環境\Scripts\activate (不包含source )來激活這個虛擬環境
django-admin.py startproject webSite因為版本問題有時候會報錯,執行django-admin startproject webSite就行。
11、安裝Django和數據庫:
安裝Django的流程一定要看官方的:中文版見這里 ,如果不按照官方的,你會碰到“no module named django”,但是其實已經安裝了,是不是百思不得其解~~所以一定按照官方來!!
另外,Django 案例官方也有了~~。
數據庫我選擇mongodb,網友選擇哪個數據庫可以參考這個答案 。
python版的sqlite用法見:這里
12.部署app到服務器heroku 或者openshift:如何部署Python Web應用:記錄一次Heroku部署完整過程 - 香飄葉子 - 51CTO技術博客 , 來自HeroKu的HTTP API 設計指南(中文版) , 關于 Heroku、PHPFog 和 APPFog 三大國外PaaS云的吐槽、用后感以及一些疑問 - V2EX
有進步了再更新~~
總結
以上是生活随笔為你收集整理的python import request 不报错_爬虫学习路径整理及安装环境遇到的坑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python人人贷爬虫_爬取人人贷网上部
- 下一篇: python技术是什么_学 Python