利用python进行数据分析之准备工作(1)
目錄
?
一、簡介
二、重要的python庫
1.numpy庫
2.pandas
3.matplotlib
4.IPython
5.Scipy
三、python環境安裝和數據分析前的數據準備
一、簡介
什么是數據?本欄目的數據主要指的是結構化的數據,通常我們使用數據這一說法來籠統地概括所有通用格式的數據,如:多維數組、表格型數據、關聯數據、時間序列等。大部分數據集都會在我們實際的應用過程中被轉化為更加適合我們分析和建模的結構化形式的數據。
為什么利用python進行數據分析?用python的主觀原因是這門語言簡單易學好上手,python已成為最受歡迎的動態編程語言之一。其擁有大量的Web框架,同時擁有一個巨大而且活躍的科學計算社區。在數據分析和交互、探索性計算和數據可視化方面pyhton支持我們可以只使用該語言去構建以數據為中心的應用程序。
同時python能夠成功的集成C\C++\Fortran程序,大部分現代計算機環境都利用了Fortran\C庫來實現線性代數、優選、積分、快速傅里葉變換等其他諸如此類的算法。python還支持構建生產系統,從而能更好的解決兩種語言問題,例如python和java等構建出一套完整的系統。
python的劣勢:python是一門解釋型編程語言,因此python的程序在運行時幾乎都會相對于編譯型語言要慢的許多。在微信小程序開發首頁我也做了說明,在時間比CPU值錢的快速發展時期,人們自然不愿意花費太多時間在代碼編譯運行時間上。對于高并發、多線程的應用程序而言,python擁有的一個叫做全局解釋器鎖的東西會防止解釋器同時執行多條python字節碼指令機制,因此python并不是一門十分理想的語言。
二、重要的python庫
1.numpy庫
Numpy(Numercial Python)是pyhton科學計算的基礎包,本欄目大部分都是基于numpy以及構建其上的庫,該庫提供了以下功能:
- 快速高效的多維數組對象ndarray;
- 用于對數組執行元素級計算以及直接對數組執行數學運算的函數;
- 用于讀寫硬盤上基于數組的數據集的工具;
- 線性代數運算、傅里葉變換、以及隨機數生成;
- 用于將C\C++\Fortran代碼集成到python的工具。
2.pandas
pandas提供了能使我們快速便捷的處理結構化數據的大量數據結構和函數,是python能成為強大而高效的數據分析的重要因素之一。本欄目用的最多的pandas對象是DataFrame,它是一個面向列的二維表結構,且含有行標和列標。
3.matplotlib
matplotlib是最流行的用于繪制數據圖表的python庫,它非常適合用于繪制出版物上的圖表,它跟ipython結合的很好,因而提供了一種非常好用的交互式數據繪制環境,繪制的圖表也是交互的。
4.IPython
IPython是python科學計算標準工具集的組成部分,增強python shell目的是提高編寫、測試、調試pyhon代碼的速度。它主要用于交互式數據處理和利用matplotlib對數據進行可視化處理。
5.Scipy
Scipy是一組專門解決科學計算中各標準問題域的包的集合。主要包括以下:
- scipy.integrate:數值積分例程和微分方程求解器;
- scipy.linalg:擴展了由numpy.linalg提供的線性代數歷程和矩陣分解功能;
- scipy.optimize:函數優化器以及根查找算法;
- scipy.signal:信號處理工具;
- scipy.sparse:稀疏矩陣和稀疏線性系統求解器;
- scipy.special:specfun的包裝器;
- scipy.stats:標準連續和離散概率分布;
- scipy.weave:利用內聯的C++代碼加速數組計算的工具。
三、python環境安裝和數據分析前的數據準備
python的安裝不做詳解,網上有很多教程,建議以后都使用py3版本的環境,2020年以后將不再對python2做維護。
安裝庫時提供一個集成了python很多科學計算庫的工具anaconda,下載對應的版本運行,就不用一個個裝庫那么麻煩了。當然若非windows系統而是linux系統那么就不必大費周章。本欄目使用的數據請自行下載:https://download.csdn.net/download/qq_25491201/10595335
總結
以上是生活随笔為你收集整理的利用python进行数据分析之准备工作(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: deepin安装java_Deepin安
- 下一篇: 【OpenCV 例程200篇】42. 图