日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】Kaggle时序建模案例:预测水资源可用性

發(fā)布時間:2025/3/12 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】Kaggle时序建模案例:预测水资源可用性 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Acea Smart Water Analytics

您能否預(yù)測水資源未來的的可用性?

每個數(shù)據(jù)集代表一種不同類型的水體。由于每個水體彼此不同,相關(guān)特征也不同。我們會注意到它的特征與湖泊的特征不同。這些差異是根據(jù)每個水體的獨特行為和特征預(yù)期的。

步驟1:數(shù)據(jù)集讀取

首先讀取數(shù)據(jù),并找到對應(yīng)的日期列,

from?datetime?import?datetime,?date? df['date']?=?pd.to_datetime(df['date'],?format?=?'%d/%m/%Y')

其中特征列為Rainfall、Temperature、Volume和Hydrometry,標簽列為Depth to Groundwater。

步驟2:數(shù)據(jù)集分析

時間間隔

分析日期是否包含連續(xù):通過date列進行diff,如果日期列沒有缺失值則最大diff為1day。

df?=?df.sort_values(by='date') df['delta']?=?df['date']?-?df['date'].shift(1) df[['date',?'delta']].head()

缺失值分析

分析數(shù)據(jù)集是否包含空值,繪制的時間序列顯示似乎有一些零值,我們將用nan值替換它們,然后再填充它們。

缺失值填充

  • 使用NaN填充

  • 使用均值填充

  • 使用最近的樣本填充

  • 使用插值填充

平滑數(shù)據(jù)/重采樣

重采樣可以提供更多的數(shù)據(jù)信息。重采樣有兩種類型:

  • 上采樣:采樣頻率增加(例如,數(shù)天到數(shù)小時)。

  • 下采樣:采樣頻率降低(例如,從天到周)。

平穩(wěn)性

一些時間序列模型,如ARIMA,假設(shè)基礎(chǔ)數(shù)據(jù)是平穩(wěn)的。平穩(wěn)性描述了時間序列具有:

  • 常數(shù)均值和均值不依賴于時間

  • 常數(shù)方差和方差與時間無關(guān)

  • 常數(shù)協(xié)方差和協(xié)方差與時間無關(guān)

平穩(wěn)性檢查可以通過三種不同的方法來完成:

  • 視覺上:繪制時間序列并檢查趨勢或季節(jié)性

  • 基本統(tǒng)計:拆分時間序列,比較每個分區(qū)的均值和方差

  • 統(tǒng)計檢驗:擴充Dickey Fuller檢驗

特征工程

日期信息

周期編碼

新的時間特性是周期性的,特征月周期為每年1至12個月。雖然每個月之間的差值在一年內(nèi)增加1,但在兩年內(nèi),月特性從12(12月)跳到1(1月)。

時序分解

時間序列分解涉及到將一個序列看作水平、趨勢、季節(jié)性和噪聲成分的組合。

  • 等級:級數(shù)中的平均值。

  • 趨勢:數(shù)列中增加或減少的值。

  • 季節(jié)性:在系列中重復(fù)的短期循環(huán)。

  • 噪聲:數(shù)列中的隨機變化。

Lag特征

EDA分析

相關(guān)性分析

自相關(guān)分析

  • 自相關(guān)函數(shù)(ACF): P=滯后周期,P幫助調(diào)整用于預(yù)測序列的擬合線,P對應(yīng)于MA參數(shù)

  • 部分自相關(guān)函數(shù)(PACF): D是時間序列達到平穩(wěn)所需的差分變換次數(shù)。D對應(yīng)AR參數(shù)。

構(gòu)建模型

時間序列可以是單變量的也可以是多變量的:

  • 單變量時間序列只有一個時間因變量。

  • 多變量時間序列具有多個時間因變量。

數(shù)據(jù)劃分方法

from?sklearn.model_selection?import?TimeSeriesSplit

單變量時序模型

  • Prophet

  • ARIMA

  • LSTM

多變量時序模型

  • Prophet

完整代碼鏈接:https://www.kaggle.com/andreshg/timeseries-analysis-a-complete-guide/notebook

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機器學(xué)習(xí)》(黃海廣主講)機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【数据竞赛】Kaggle时序建模案例:预测水资源可用性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。