Python数据收集及分析学习相关
Python數(shù)據(jù)收集及分析學(xué)習(xí)相關(guān)
- 簡(jiǎn)介
- 1、所需要的基礎(chǔ)知識(shí)
- 2、個(gè)人推薦書籍和網(wǎng)站
- 2.1 Python基礎(chǔ)
- 2.2 Numpy基礎(chǔ)
- 2.3 Pandas基礎(chǔ)
- 2.4 Matplotlib基礎(chǔ)
- 2.5 數(shù)據(jù)建模理論知識(shí)
- 2.6 數(shù)據(jù)分析實(shí)戰(zhàn)
- 2.7 Sklearn基礎(chǔ)
- 3、Kaggle網(wǎng)站
簡(jiǎn)介
數(shù)據(jù)分析基本的步驟可以分為:提出問(wèn)題、導(dǎo)入數(shù)據(jù)、數(shù)據(jù)清洗、構(gòu)建模型、數(shù)據(jù)可視化。
- 提出問(wèn)題: 我們所想要知道的指標(biāo)(平均消費(fèi)額、客戶的年齡分布、營(yíng)業(yè)額變化趨勢(shì)等等)
- 導(dǎo)入數(shù)據(jù): 需要進(jìn)行分析的原始數(shù)據(jù)(網(wǎng)絡(luò)爬蟲、數(shù)據(jù)讀取等)
- 數(shù)據(jù)清洗: 指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤(檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等)
- 構(gòu)建模型: 針對(duì)具體的問(wèn)題使用對(duì)應(yīng)的數(shù)據(jù)模型找到關(guān)鍵指標(biāo),當(dāng)我們想了解數(shù)據(jù)之間的相關(guān)性時(shí)就可以構(gòu)建模型(一般使用線性回歸、邏輯回歸、類聚算法等)
- 數(shù)據(jù)可視化: 將結(jié)果以圖表形式呈現(xiàn)
1、所需要的基礎(chǔ)知識(shí)
可以根據(jù)網(wǎng)站、視頻、書籍等途徑。
2、個(gè)人推薦書籍和網(wǎng)站
2.1 Python基礎(chǔ)
這部分的學(xué)習(xí)大概可以控制在一周左右的時(shí)間完成。
- 環(huán)境推薦: 安裝Anaconda環(huán)境,其中內(nèi)置Python數(shù)據(jù)分析相關(guān)的環(huán)境;在Anaconda可視化安裝界面下安裝notebook工具。
- 書籍推薦: 《Python編程:入門到實(shí)踐》
- 視頻推薦: 阿里AI天池實(shí)驗(yàn)室課程
2.2 Numpy基礎(chǔ)
工具作用: 線性代數(shù)庫(kù),主要用于線性代數(shù)相關(guān)的運(yùn)算。這個(gè)是Pandas、Matplotlib、Sklearn的基礎(chǔ)工具;不能缺少的輔助!
這個(gè)工具的教程比較少,一般1天或者2天能夠完成。推薦菜鳥教程或者阿里天池實(shí)驗(yàn)室;或者官方文檔。由于資料比較少,如果可以上YouTube的話,建議去YouTube看大神講解!!
2.3 Pandas基礎(chǔ)
工具作用: 用于數(shù)據(jù)分析,一般會(huì)使用這個(gè)做數(shù)據(jù)清洗。
這個(gè)工具的教程也比較少,耗時(shí)1到2天。推薦極客教程或者阿里天池實(shí)驗(yàn)室;或者官方文檔。由于資料比較少,一樣上YouTube看大神講解!
2.4 Matplotlib基礎(chǔ)
工具作用: 用于圖表的繪制,一般是用在數(shù)據(jù)可視化上;在清洗時(shí),也可以用來(lái)看相關(guān)統(tǒng)計(jì)等。
這個(gè)工具的教程也是比較少的,耗時(shí)1到2天。建議YouTube上面找,或者天池課程數(shù)據(jù)可視化部分;當(dāng)然這個(gè)也可以看看b站up主視頻。
2.5 數(shù)據(jù)建模理論知識(shí)
理論知識(shí)這里不敢瞎嗶嗶,直接看天池給的理論部分,這個(gè)比較通俗易懂;還有另外一個(gè)推薦書籍是吳軍的《數(shù)學(xué)之美》,神作。
2.6 數(shù)據(jù)分析實(shí)戰(zhàn)
直接還是天池的學(xué)習(xí)網(wǎng)站,分別是樹形分支中的數(shù)據(jù)分析實(shí)戰(zhàn)、機(jī)器學(xué)習(xí)入門、機(jī)器學(xué)習(xí)進(jìn)階。
2.7 Sklearn基礎(chǔ)
直接看sklearn中文文檔就夠了,一般只需要會(huì)用就行;這個(gè)比較容易上手。
3、Kaggle網(wǎng)站
介紹: 是一個(gè)國(guó)外免費(fèi)提供GPU資源的網(wǎng)站。由于數(shù)據(jù)分析所需要消耗的計(jì)算代價(jià)比較高,因此Kaggle每周免費(fèi)提供30個(gè)小時(shí)的高性能GPU服務(wù)器。
說(shuō)一個(gè)概念:我的機(jī)子GPU是1050Ti,跑畢設(shè)程序要跑2周時(shí)間左右才會(huì)得到結(jié)果;而Kaggle上面只需要跑3個(gè)小時(shí)左右。
再舉個(gè)比較國(guó)際統(tǒng)一的標(biāo)準(zhǔn):我的機(jī)子跑mnist數(shù)據(jù)集的cnn深度模型大概需要30秒左右,而Kaggle只需要幾秒的時(shí)間。
總結(jié)
以上是生活随笔為你收集整理的Python数据收集及分析学习相关的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 张一鸣这一条微博,阿里P8的我,竟然想了
- 下一篇: websocket python爬虫_p