日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Apache Spark机器学习.1.7 机器学习工作流示例

發布時間:2025/7/14 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Apache Spark机器学习.1.7 机器学习工作流示例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.7 機器學習工作流示例


為了進一步了解學習機器學習的工作流,在這里讓我們學習一些例子。

本書后續章節會研究風險建模、欺詐檢測、客戶視圖、流失預測和產品推薦。對于諸如此類的項目,目標往往是確定某些問題的原因,或者建立一個因果模型。下面是使用工作流建立一個因果模型的一個例子。

1.檢查數據結構,以確保更好地理解數據:

數據是橫截面數據嗎?是隱含著時間信息的合并數據嗎?

是否使用了分類變量?

2.檢查缺失值:

不知道或者忘記了一個答案可能會被記錄為一個中立或特殊的類別

一些變量可能有很多缺失值

根據需要重新記錄一些變量

3.進行一些描述性研究,開始講故事:

使用比較方法和交叉列表

檢查一些關鍵變量的變異性(標準差和方差)

4.ind變量(外生變量)的選擇組:

作為問題原因的候選

5.基本描述性統計:

所有變量的均值、標準差和頻率

6.測量工作:

研究一些測量值的規模(efa探索性因子分析在這里可能是有用的)

形成測量模型

7.本地模型:

從全局中找出部分以探索其中關系

使用交叉列表

圖表展示

使用邏輯回歸

使用線性回歸

8.開展一些偏相關分析,以幫助模型設定。

9.使用(8)的結果,提出結構方程模型:

確定主結構和次結構

將測量和結構模型進行關聯

10.初次擬合:

運用SPSS為lisrel或Mplus創建數據集

使用lisrel或Mplus編程

11.模型修正:

使用SEM結果(主要模型擬合指數)來指導

再次分析偏相關性

12.診斷:

分布

殘差

曲線

13.到這里我們應該可以開展最終模型估計了:

如果不能,請重復步驟13和14

14.模型解釋(識別和量化因果效應)

可參考 Spark Pipelines: http://www.researchmethods.org/step-by-step1.pdf。

Apache Spark團隊認識到了機器學習工作流的重要性,因此,他們開發了Spark pipeline來高效處理工作流問題。

Spark 機器學習代表一個可以作為pipeline的機器學習工作流,它由一系列以特定順序運行的PipelineStages組成。

PipelineStages包括:Spark轉換、Spark估計和Spark評估。

機器學習的工作流可以是非常復雜的,因此創建和調整它們非常耗時。研發Spark 機器學習Pipeline,使得機器學習工作流的構造和調整更為容易,尤其可以表示以下主要階段:

1.數據加載

2.特征提取

3.模型估計

4.模型評價

5.模型解釋

對于以上任務,可以使用Spark轉換器進行特征提取。Spark估計器用來訓練和估計模型,Spark評估器用來評價模型。

從技術上看,Spark中的pipeline作為一系列處理過程的有序組合,每個過程可以是轉換,或者是估計,或者是評估。這些過程按照順序執行,輸入的數據集遵循各過程順序進行修改。在轉換過程中,調用transform() 方法進行數據集處理。在估計過程中,調用fit()方法生成一個轉換器(轉換器將成為pipeline Model或擬合pipeline的一部分),并且在數據集上調用轉換器的transform()方法。

上面給出的技術說明都是針對線性pipeline模型。一旦數據流圖形成有向無環圖(Directed Acyclic Graph,DAG),Spark也可能生產非線性pipeline模型。

更多關于Spark pipeline的信息,請訪問如下鏈接:http://spark.apache.org/docs/latest/ml-guide.html#pipeline。

總結

以上是生活随笔為你收集整理的Apache Spark机器学习.1.7 机器学习工作流示例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。