當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Datawhale组队-Pandas（下）时序数据（打卡）

發(fā)布時間：2023/12/20 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Datawhale组队-Pandas（下）时序数据（打卡）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Pandas可以處理任何領(lǐng)域的時序數(shù)據(jù)（time series），使用Numpy的datetime64?和timedelta64?類型，Pandas整合了來自其他Python庫的大量功能，如Scikits.TimeSeries，并為處理時間序列數(shù)據(jù)創(chuàng)建了大量新功能。

一、時序的創(chuàng)建

1.四類時間變量

名稱	描述	元素類型	創(chuàng)建方式
Datetimes（時間點/時刻）	描述特定日期或時間點	Timestamp	to_datetime或date_range
Timespans（時間段/時期）	由時間點定義的一段時期	Period	Period或period_range
Dateoffsets（相對時間差）	一段時間的相對大小（與夏/冬令時無關(guān)）	Dateoffset	DateOffset
Timedeltas（絕對時間差）	一段時間的絕對大小（與夏/冬令時有關(guān)）	Timedelta	to_timedelta或 timedelta_range

對于時間序列數(shù)據(jù)，傳統(tǒng)的做法是在Series或DataFrame索引中表示時間分量，這樣就可以對時間元素執(zhí)行操作。但是，Series和DataFrame也可以直接支持作為數(shù)據(jù)本身的時間組件。當(dāng)傳遞到這些構(gòu)造函數(shù)時，Series和DataFrame擴展了對日期時間、時間增量和期間數(shù)據(jù)的數(shù)據(jù)類型支持和功能。然而，DateOffset數(shù)據(jù)將作為對象數(shù)據(jù)存儲。

#在index加入時間成分，dtype為int64 pd.Series(range(3), index=pd.date_range('2000', freq='D', periods=3)) #直接定義時間成分，dtype為datetime64[ns] pd.Series(pd.date_range('2000', freq='D', periods=3))

2.時間點的創(chuàng)建

Timestamped是將值與時間點相關(guān)聯(lián)的最基本的時間序列數(shù)據(jù)類型。對于pandas objects來說，這意味著使用時間點。

（a）to_datetime方法

Pandas在時間點建立的輸入格式規(guī)定上給了很大的自由度，下面的語句都能正確建立同一時間點

print(pd.to_datetime('2020.1.1')) print(pd.to_datetime('2020 1.1')) print(pd.to_datetime('2020 1 1')) print(pd.to_datetime('2020 1-1')) print(pd.to_datetime('2020-1 1')) print(pd.to_datetime('2020-1-1')) print(pd.to_datetime('2020/1/1')) print(pd.to_datetime('1.1.2020')) print(pd.to_datetime('1.1 2020')) print(pd.to_datetime('1 1 2020')) print(pd.to_datetime('1 1-2020')) print(pd.to_datetime('1-1 2020')) print(pd.to_datetime('1-1-2020')) print(pd.to_datetime('1/1/2020')) print(pd.to_datetime('20200101')) print(pd.to_datetime('2020.0101'))#pd.to_datetime('2020\\1\\1') #報錯 #pd.to_datetime('2020`1`1') #報錯 #pd.to_datetime('2020.1 1') #報錯 #pd.to_datetime('1 1.2020') #報錯

利用format參數(shù)強制匹配

print(pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')) print(pd.to_datetime('2020`1`1',format='%Y`%m`%d')) print(pd.to_datetime('2020.1 1',format='%Y.%m %d')) print(pd.to_datetime('1 1.2020',format='%d %m.%Y'))

也可使用列表將其轉(zhuǎn)為時間點索引

pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))

查看類型

type(pd.to_datetime(['2020/1/1','2020/1/2']))

對于DataFrame，如果列已經(jīng)按照時間順序排好，則利用to_datetime可自動轉(zhuǎn)換

df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]}) pd.to_datetime(df)

（b）時間精度與范圍限制

Timestamp的精度遠(yuǎn)遠(yuǎn)不止day，可以最小到納秒ns，同時它的范圍為

pd.to_datetime('2020/1/1 00:00:00.123456789')#最小范圍 print(pd.Timestamp.min) #output:Timestamp('1677-09-21 00:12:43.145225') #最大范圍 print(pd.Timestamp.min) #output:Timestamp('2262-04-11 23:47:16.854775807')

（c）date_range方法

start/end/periods（時間點個數(shù)）/freq（間隔方法）是該方法最重要的參數(shù)，給定了其中的3個，剩下的一個就會被卻sing

freq參數(shù)如下：

符號	D/B	W	M/Q/Y	BM/BQ/BY	MS/QS/YS	BMS/BQS/BYS	H	T	S
描述	日/工作日	周	月末	月/季/年末日	月/季/年末工作日	月/季/年初日	時	分鐘	秒

3.Dateoffset對象

（a）DateOffset與Timedelta的區(qū)別

Timedelta絕對時間差的特點指無論是冬令時還是夏令時，增減1day都只計算24小時

DateOffset相對時間差指，無論一天是23/24/25小時，增減1day都與當(dāng)天相同的時間保持一致

例如，英國當(dāng)?shù)貢r間 2020年03月29日，01:00:00 時鐘向前調(diào)整 1 小時變?yōu)?2020年03月29日，02:00:00，開始夏令時

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki') ts + pd.Timedelta(days=1)

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki') ts + pd.DateOffset(days=1)

可去除tz屬性，就可使兩者保持一致。

（b）增減一段時間

pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)

（c）各類常用offset對象

pd.Timestamp('2020-01-01') + pd.offsets.Week(2) #增加兩星期 pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1) #營業(yè)季度開始

（d）序列的offset操作

利用apply函數(shù)

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))

直接使用對象加減

pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)

定制offset，可以指定weekmask和holidays參數(shù)

pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)for i in pd.date_range('20200105',periods=3,freq='D'))

二、時序的索引及屬性

1.索引切片

rng = pd.date_range('2020','2021', freq='W') ts = pd.Series(np.random.randn(len(rng)), index=rng) ts['2020-01-26':'20200726'].head() #日期從01-26，到07-26，字符自己轉(zhuǎn)換成合理的

2.子集索引

#只取7月份數(shù)據(jù) ts['2020-7'].head() #支持混合形態(tài)索引 ts['2011-1':'20200726'].head()

3.時間點的屬性

采用dt對象可以輕松獲得關(guān)于時間的信息

#2020年有52個星期 pd.Series(ts.index).dt.week #每星期是在幾號 pd.Series(ts.index).dt.day

利用strftime修改時間格式

pd.Series(ts.index).dt.strftime('%Y-間隔1-%m-間隔2-%d').head()

對于datetime對象可以直接通過屬性獲取信息

#每個星期所在的月份 pd.date_range('2020','2021', freq='W').month #每個星期所在的月份 pd.date_range('2020','2021', freq='W').weekday #The number of the day of the week with Monday=0, Sunday=6

三、重采樣

重采樣，就是指resample函數(shù)，它可以看做時序版本的groupby函數(shù)

1.resample對象的基本操作

采樣頻率一般設(shè)置為上面提到的offset字符

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C']) r = df_r.resample('3min') r.sum()

2.采樣聚合

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C']) r = df_r.resample('3T')#只求一個值 r['A'].mean() #表示多個 r['A'].agg([np.sum, np.mean, np.std]) #使用lambda r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

3.采樣組的迭代

采樣組的迭代和groupby迭代完全類似，對于每一個組都可以分別做相應(yīng)操作

small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00', '2020-01-01 00:31:00','2020-01-01 01:00:00','2020-01-01 03:00:00','2020-01-01 03:05:00'])) resampled = small.resample('H') for name, group in resampled:print("Group: ", name)print("-" * 27)print(group, end="\n\n")

四、窗口函數(shù)

1.Rolling

（a）常用聚合

s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000)) # s.rolling(window=50) # s.rolling(window=50).mean() #min_periods是指需要的非缺失數(shù)據(jù)點數(shù)量閾值 s.rolling(window=50,min_periods=3).mean()

此外，還有count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數(shù)

（b）rolling的apply聚合

使用apply聚合時，只需記住傳入的是window大小的Series，輸出的必須是標(biāo)量即可，

#計算變異系數(shù) s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()

（c）基于時間的Rolling

可選closed='right'（默認(rèn)）\'left'\'both'\'neither'參數(shù)，決定端點的包含情況

s.rolling('15D').mean().head() #添加closed s.rolling('15D', closed='right').sum().head()

2.Expanding

（a）expanding函數(shù)

普通的expanding函數(shù)等價與rolling(window=len(s),min_periods=1),是對序列的累計計算，apply也適用

#rolling s.rolling(window=len(s),min_periods=1).sum().head() #expanding s.expanding().sum().head() #apply s.expanding().apply(lambda x:sum(x)).head()

（b）幾個特別的Expanding類型函數(shù)

cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法

shift/diff/pct_change都是涉及到了元素關(guān)系

①shift是指序列索引不變，但值向后移動

②diff是指前后元素的差，period參數(shù)表示間隔，默認(rèn)為1，并且可以為負(fù)

③pct_change是值前后元素的變化百分比，period參數(shù)與diff類似

總結(jié)

以上是生活随笔為你收集整理的Datawhale组队-Pandas（下）时序数据（打卡）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： STM32 Futaba SBUS协议解
下一篇：初始化COM库