Dotnet core基于ML.net的销售数据预测实践
ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型,你不打算用用?
?
一、前言
ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程序中。這是這個框架很重要的一點。
通過ML.net,我們可以使用手中的可用數據,進行預測、分析、檢測,而不需要進行過于復雜的編程。
ML.net的核心,同樣是機器學習模型。它采用同樣的步驟,通過指定算法來訓練模型,將輸入數據轉換為所需的預測數據。
更重要的是,ML.net基于.NET Core,這讓它可以非常簡單地跨平臺,在Windows、Linux、MacOS上運行,并成為我們服務端的一部分內容。
?
回到今天的主題。
我們用實際的例子,完成一個通過歷史銷售數據進行單變量時序分析(單譜分析),以預測未來銷量的需求。
二、開發環境&基礎工程
這個Demo的開發環境是:Mac + VS Code + Dotnet Core 3.1.2。
$?dotnet?--info .NET?Core?SDK?(reflecting?any?global.json):Version:???3.1.201Commit:????b1768b4ae7Runtime?Environment:OS?Name:?????Mac?OS?XOS?Version:??10.15OS?Platform:?DarwinRID:?????????osx.10.15-x64Base?Path:???/usr/local/share/dotnet/sdk/3.1.201/Host?(useful?for?support):Version:?3.1.3Commit:??4a9f85e9f8.NET?Core?SDKs?installed:3.1.201?[/usr/local/share/dotnet/sdk].NET?Core?runtimes?installed:Microsoft.AspNetCore.App?3.1.3?[/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]Microsoft.NETCore.App?3.1.3?[/usr/local/share/dotnet/shared/Microsoft.NETCore.App]?
首先,在這個環境下建立工程:
創建Solution
這次,我們用Console創建工程
把工程加到Solution中
基礎工程搭建完成。
三、引入ML.net庫
為了使用ML.net,我們需要引入Microsoft.ML庫:
%?cd?demo %?dotnet?add?package?Microsoft.ML除此之外,本文是基于時序的預測,還需要引入時序庫Microsoft.ML.TimeSeries:
%?dotnet?add?package?Microsoft.ML.TimeSeries?
我們今天用到的算法是單譜分析(SSA)。SSA會將時序分解為一組主要成分, 并將這些成分解釋為信號,對應于趨勢、噪音、季節性及許多其他的因素,然后重新構建這些成分,用來預測未來某個時間的值。
四、準備數據
為了這個DEMO,我準備了一個包含全年365天實際銷售金額的數據。
其中這個數據又分為了兩部分,第一部分是前11個月的數據,用來做訓練,第二部分是12月一個月的數據,用來評估模型。
兩部分數據的鏈接如下:訓練數據,評估數據
兩個數據文件均為CSV文件,數據結構完全相同,下面是一段內容范例:
2018-12-21,17959.0 2018-12-22,19537.03 2018-12-23,20068.0 2018-12-24,20013.0 2018-12-25,21005.0 2018-12-26,16876.0 2018-12-27,15150.0 2018-12-28,15669.0 2018-12-29,25048.0 2018-12-30,25236.0五、代碼開發
準備一個輸入模型ModelInput
這個模型對應數據文件的結構,分兩個字段,第一個是日期,第二個是對應的銷售金額。
準備另一個輸出模型ModelOutput
這個模型跟隨預測結果的輸出,其中:
forecasted_count?- 預測時間段內的預測值
lower_count?- 預測時間段內預測值的下限
upper_count?- 預測時間段內預測值的上限
?
初始化機器學習的實例
執行所有 ML.NET 操作都是從MLContext類開始,初始化?MLContext將創建一個新的 ML.net 環境,并在模型創建工作流對象之間共享該環境。?
加載數據
ML.net有多種數據的加載方式,可以通過文件、數據庫、JSON/XML、內存中加載數據,甚至可以用自定義的數據庫連接加載數據。
本文的DEMO中,數據在CSV文件中,所以,我們采用下面的方式加載:
static?readonly?string?_data1Path?=?Path.Combine(Environment.CurrentDirectory,?"data1.csv"); static?readonly?string?_data2Path?=?Path.Combine(Environment.CurrentDirectory,?"data2.csv");static?void?Main(string[]?args) {MLContext?mlContext?=?new?MLContext();IDataView?data1View?=?mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path,?separatorChar:?',',?hasHeader:?false);IDataView?data2View?=?mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path,?separatorChar:?',',?hasHeader:?false); }IDataView是數據的承載空間。
定義時序分析管道
前面有說過,我們采用單譜分析,所以代碼中我們選擇了mlContext.Forecasting.ForecastBySsa。
解釋一下這里面的幾個參數:
trainSize?- 數據樣本的數量,也就是訓練數據的行數(在這個文件中,一行是一個數據樣本,共334行)
seriesLength?- 從數據樣本按時序采樣時的間隔,這里是30天
windowSize?- 樣本周期的天數,這里是7天
horizon?- 預測結果的天數
confidenceLevel?- 上下限的可信度。預測屬于合理猜測,不總是完全準確。
其它幾個參數,對應輸入輸出模型的字段名
?
訓練模型
管道定義完成,數據加載完成,下面要進行數據訓練。
SsaForecastingTransformer?forecaster?=?forecastingPipeline.Fit(data1View);跟隨上一節,管道是單譜管道,所以訓練也是單譜訓練SsaForecastingTransformer。
?
程序執行到這里,數據訓練完成。
模型評估
模型評估不是必須環節。
模型評估的意義在于:通過評估模型的性能,來調整管道的參數,以達到最佳的預測效果。
模型評估也有多種方式。在這里,我們采用平均絕對誤差和均方根誤差來做評估依據。
static?void?Evaluate(IDataView?testData,?ITransformer?model,?MLContext?mlContext) {IDataView?predictions?=?model.Transform(testData);IEnumerable<float>?actual?=mlContext.Data.CreateEnumerable<ModelInput>(testData,?true).Select(p?=>?p.count);IEnumerable<float>?forecast?=mlContext.Data.CreateEnumerable<ModelOutput>(predictions,?true).Select(p?=>?p.forecasted_count[0]);var?metrics?=?actual.Zip(forecast,?(actualValue,?forecastValue)?=>?actualValue?-?forecastValue);var?MAE?=?metrics.Average(error?=>?Math.Abs(error));var?RMSE?=?Math.Sqrt(metrics.Average(error?=>?Math.Pow(error,?2)));Console.WriteLine("評估結果");Console.WriteLine("---------------------");Console.WriteLine($"平均絕對誤差:?{MAE:F3}");Console.WriteLine($"均方根誤差:?{RMSE:F3}\n"); }在這個方法中,我們取評估數據的實際值actual和通過訓練數據生成的預測值forecast,計算兩個誤差并輸出。
在Main中調用此方法:
static?void?Main(string[]?args) {/*?這兒是前邊訓練的代碼,略過?*/Evaluate(data2View,?forecaster,?mlContext); } static?void?Evaluate(IDataView?testData,?ITransformer?model,?MLContext?mlContext) {/*?這兒是評估模型的方法,上面有,略過?*/ }輸出結果類似于以下內容:
評估結果 --------------------- 平均絕對誤差:?23.442 均方根誤差:?174.236兩個指標:
平均絕對誤差?- 度量預測與實際值之間的接近程度。此值介于 0 到無限大之間。越接近 0,模型的質量越好。
均方根誤差?- 匯總模型中的錯誤。此值介于 0 到無限大之間。越接近 0,模型的質量越好。
?
預測
訓練模型調整到滿意后,即可開始預測的工作:
var?forecastEngine?=?forecaster.CreateTimeSeriesEngine<ModelInput,?ModelOutput>(mlContext); ModelOutput?forecast?=?forecastEngine.Predict();這兩行代碼,在內存中加載前邊訓練好的模型,并進行預測操作。預測數據的結果放在forecast中。
對應于分析管道定義中的horizon,預測數據包含7天的預測結果。
預測結果輸出
放在forecast中的數據,對應模型ModelOutput,可以用在任何地方。
在本文中,我們直接顯示到Console:
IEnumerable<string>?forecastOutput?=mlContext.Data.CreateEnumerable<ModelInput>(data2View,?reuseRowObject:?false).Take(7).Select((ModelInput?data,?int?index)?=>{string?action_date?=?data.action_time.ToString("yyyy-MM-dd");float?actual_count?=?data.count;float?lowerEstimate?=?Math.Max(0,?forecast.lower_count[index]);float?estimate?=?forecast.forecasted_count[index];float?upperEstimate?=?forecast.upper_count[index];return?$"日期:?{action_date}\n"?+$"實際值:?{actual_count}\n"?+$"預測下限估值:?{lowerEstimate}\n"?+$"預測估值:?{estimate}\n"?+$"預測上限估值:?{upperEstimate}\n";});Console.WriteLine("預測結果"); Console.WriteLine("---------------------"); foreach?(var?prediction?in?forecastOutput) {Console.WriteLine(prediction); }運行結果類似于以下內容:
預測結果 --------------------- 日期:?2018-12-01 實際值:?24566.08 預測下限估值:?16791.379 預測估值:?20394.115 預測上限估值:?23996.852?
完成!
六、延伸內容
ML.net包含了很多機器學習的內容。其中,我自己認為時序預測是用途很廣的一個部分,可以用在
銷售預測
庫存預警
活動策劃輔助
以及其它諸如天氣、股票、人口等諸多內容上,依靠過去和現在的數據,分析兩者之間的關系,然后利用得到的這個關系去預測未來的數據。
因此,在這個分類中,我的第一篇文章就寫了時序預測。
?
機器學習,核心是各種算法,而算法的基礎是一類數學。這是一個很高的坎。刷算法,線性的部分還好,一旦到了冪次或矩陣,沒有正統的學習,是很難有突破的。而即便刷通了,也只是皮毛性的理解,距離創造算法的大神,還有很長的距離。
所以,退而求其次,對很多人而言,與其花大功夫去研究算法,不如多研究下如何能把現有的算法或工具用好。
?
還有,在應用中,你能用機器學習來預測銷量、預測庫存,有沒有很自豪?是不是很高大上?
?
(全文完)
?
本文的對應代碼,在https://github.com/humornif/Demo-Code/tree/master/0013/demo
點「在看」,讓更多人因你而受益
↘ ?↘ ?↘
總結
以上是生活随笔為你收集整理的Dotnet core基于ML.net的销售数据预测实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ASP.NET Core分布式项目实战(
- 下一篇: 深入async/await知多少