Python八种数据导入方法,你掌握了吗?
數(shù)據(jù)分析過程中,需要對獲取到的數(shù)據(jù)進行分析,往往第一步就是導入數(shù)據(jù)。導入數(shù)據(jù)有很多方式,不同的數(shù)據(jù)文件需要用到不同的導入方式,相同的文件也會有幾種不同的導入方式。下面總結幾種常用的文件導入方法。
大多數(shù)情況下,會使用NumPy或Pandas來導入數(shù)據(jù),因此在開始之前,先執(zhí)行:
import?numpy?as?np import?pandas?as?pd兩種獲取help的方法
很多時候對一些函數(shù)方法不是很了解,此時Python提供了一些幫助信息,以快速使用Python對象。
使用Numpy中的info方法。
Python內(nèi)置函數(shù)
一、文本文件
1、純文本文件
filename?=?'demo.txt' file?=?open(filename,?mode='r')?#?打開文件進行讀取 text?=?file.read()?#?讀取文件的內(nèi)容 print(file.closed)?#?檢查文件是否關閉 file.close()?#?關閉文件 print(text)使用上下文管理器 -- with
with?open('demo.txt',?'r')?as?file:print(file.readline())?#?一行一行讀取print(file.readline())print(file.readline())2、表格數(shù)據(jù):Flat文件
使用 Numpy 讀取 Flat 文件
Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語言級別的。
Flat 文件是一種包含沒有相對關系結構的記錄的文件。(支持Excel、CSV和Tab分割符文件 )
具有一種數(shù)據(jù)類型的文件
用于分隔值的字符串跳過前兩行。
在第一列和第三列讀取結果數(shù)組的類型。
具有混合數(shù)據(jù)類型的文件
兩個硬的要求:
跳過表頭信息
區(qū)分橫縱坐標
使用 Pandas 讀取Flat文件
filename?=?'demo.csv'? data?=?pd.read_csv(filename,?nrows=5,????????#?要讀取的文件的行數(shù)header=None,????#?作為列名的行號sep='\t',???????#?分隔符使用comment='#',????#?分隔注釋的字符na_values=[""])?#?可以識別為NA/NaN的字符串二、Excel 電子表格
Pandas中的ExcelFile()是pandas中對excel表格文件進行讀取相關操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便。
file?=?'demo.xlsx' data?=?pd.ExcelFile(file) df_sheet2?=?data.parse(sheet_name='1960-1966',skiprows=[0],names=['Country','AAM:?War(2002)']) df_sheet1?=?pd.read_excel(data,sheet_name=0,parse_cols=[0],skiprows=[0],names=['Country'])使用sheet_names屬性獲取要讀取工作表的名稱。
data.sheet_names三、SAS 文件
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計分析文件。
from?sas7bdat?import?SAS7BDAT with?SAS7BDAT('demo.sas7bdat')?as?file:df_sas?=?file.to_data_frame()四、Stata 文件
Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計軟件。其保存的文件后綴名為.dta的Stata文件。
data?=?pd.read_stata('demo.dta')五、Pickled 文件
python中幾乎所有的數(shù)據(jù)類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去,永久存儲;通過pickle模塊的反序列化操作,我們能夠從文件中創(chuàng)建上一次程序保存的對象。
import?pickle with?open('pickled_demo.pkl',?'rb')?as?file:pickled_data?=?pickle.load(file) #?下載被打開被讀取到的數(shù)據(jù)與其相對應的操作是寫入方法pickle.dump() 。
六、HDF5 文件
HDF5文件是一種常見的跨平臺數(shù)據(jù)儲存文件,可以存儲不同類型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類型的機器上傳輸,同時還有統(tǒng)一處理這種文件格式的函數(shù)庫。
HDF5 文件一般以?.h5?或者?.hdf5?作為后綴名,需要專門的軟件才能打開預覽文件的內(nèi)容。
import?h5py filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5' data?=?h5py.File(filename,?'r')七、Matlab 文件
其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲的后綴為.mat的文件。
import?scipy.io filename?=?'workspace.mat' mat?=?scipy.io.loadmat(filename)八、關系型數(shù)據(jù)庫
from?sqlalchemy?import?create_engine engine?=?create_engine('sqlite://Northwind.sqlite')使用table_names()方法獲取一個表名列表
table_names?=?engine.table_names()1、直接查詢關系型數(shù)據(jù)庫
con?=?engine.connect() rs?=?con.execute("SELECT?*?FROM?Orders") df?=?pd.DataFrame(rs.fetchall()) df.columns?=?rs.keys() con.close()使用上下文管理器 -- with
with?engine.connect()?as?con:rs?=?con.execute("SELECT?OrderID?FROM?Orders")df?=?pd.DataFrame(rs.fetchmany(size=5))df.columns?=?rs.keys()2、使用Pandas查詢關系型數(shù)據(jù)庫
df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)數(shù)據(jù)探索
數(shù)據(jù)導入后會對數(shù)據(jù)進行初步探索,如查看數(shù)據(jù)類型,數(shù)據(jù)大小、長度等一些基本信息。這里簡單總結一些。
1、NumPy Arrays
data_array.dtype??#?數(shù)組元素的數(shù)據(jù)類型 data_array.shape??#?陣列尺寸 len(data_array)???#?數(shù)組的長度2、Pandas DataFrames
df.head()??#?返回DataFrames前幾行(默認5行) df.tail()??#?返回DataFrames最后幾行(默認5行) df.index???#?返回DataFrames索引 df.columns?#?返回DataFrames列名 df.info()??#?返回DataFrames基本信息 data_array?=?data.values?#?將DataFrames轉換為NumPy數(shù)組推薦閱讀
Pandas處理數(shù)據(jù)太慢,來試試Polars吧!
懶人必備!只需一行代碼,就能導入所有的Python庫
絕!關于pip的15個使用小技巧
介紹10個常用的Python內(nèi)置函數(shù),99.99%的人都在用!
可能是全網(wǎng)最完整的 Python 操作 Excel庫總結!
總結
以上是生活随笔為你收集整理的Python八种数据导入方法,你掌握了吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 女友刷B站流量告急,技术男友轻松搞定!
- 下一篇: Python 那些永远用不到的对象,我们