XGBoost4J-Spark基本原理
XGBoost4J-Spark基本原理
XGBoost4J-Spark是一個項目,旨在通過使XGBoost適應Apache Spark的MLLIB框架,無縫集成XGBoost和Apache Spark。通過集成,用戶不僅可以使用XGBoost的高性能算法實現,還可以利用Spark強大的數據處理引擎實現以下功能:
? 特征工程:特征提取,變換,降維和選擇等。
? 管道:構造,評估和調整ML管道
? 持久性:持久化并加載機器學習模型,甚至整個管道
本文將介紹使用XGBoost4J-Spark構建機器學習管道的端到端過程。討論
? 使用Spark預處理數據以適合XGBoost / XGBoost4J-Spark的數據接口
? 使用XGBoost4J-Spark訓練XGBoost模型
? 使用Spark服務XGBoost模型(預測)
? 使用XGBoost4J-Spark構建機器學習管道
? 在生產中運行XGBoost4J-Spark
筆記
XGBoost訓練任務失敗時,默認情況下,SparkContext將停止。
XGBoost4J-Spark 1.2.0+公開了一個參數kill_spark_context_on_worker_failure。將kill_spark_context_on_worker_failure設置為false,以使SparkContext在訓練失敗時不會停止。XGBoost4J-Spark不會引發SparkContext,而是引發異常。想要重用SparkContext的用戶應將訓練代碼包裝在try-catch塊中。
? 使用XGBoost4J-Spark構建ML應用程序
o 參考XGBoost4J-Spark依賴關系
o 資料準備
? 使用Spark的內置讀取器讀取數據集
? 轉換原始虹膜數據集
? 處理缺失的價值
o 訓練
? 提前停止
? 使用評估集進行訓練
o 預言
? 批量預測
? 單實例預測
o 模型持久性
? 模型和管道持久性
? 與XGBoost的其它綁定進行交互
? 使用XGBoost4J-Spark構建ML管道
o 基本ML管道
o 具有超參數調整功能的管道
? 在生產中運行XGBoost4J-Spark
o 并行/分布式訓練
o 幫派調度
o 訓練中的檢查點
使用XGBoost4J-Spark構建ML應用程序
參考XGBoost4J-Spark依賴關系
在介紹如何使用XGBoost4J-Spark之前,應該首先咨詢Maven存儲庫中的安裝,以便將XGBoost4J-Spark添加為項目的依賴項。提供穩定的版本和快照。
筆記
XGBoost4J-Spark需要Apache Spark 2.4+
XGBoost4J-Spark現在需要Apache Spark 2.4+。XGBoost4J-Spark的最新版本廣泛使用了org.apache.spark.ml.param.shared的功能,以提供與Spark MLLIB框架的緊密集成,而這些功能在Spark的早期版本中并不完全可用。
另外,確保直接從Apache網站安裝Spark 。不能保證上游XGBoost可以與Spark的第三方發行版(例如Cloudera Spark)一起使用。咨詢適當的第三方以獲取XGBoost的分發。
從Maven回購安裝
筆記
在XGBoost4J-Spark中使用Python
默認情況下,在dmlc-core中使用跟蹤器來驅動XGBoost4J-Spark的訓練。需要Python 2.7+。也有跟蹤器的實驗斯卡拉版本,可以通過傳遞參數啟用tracker_conf為scala。
數據準備
如前所述,XGBoost4J-Spark無縫集成了Spark和XGBoost。該集成使用戶可以通過便捷而強大的數據處理框架Spark,在訓練/測試數據集上應用各種類型的轉換。
在本節中,以虹膜數據集為例,展示如何使用Spark轉換原始數據集并使之適合XGBoost的數據接口。
虹膜數據集以CSV格式提供。每個實例都包含4個特征,即“分隔長度”,“分隔寬度”,“花瓣長度”和“花瓣寬度”。此外,包含“ class”列,該列實際上是帶有三個可能值的標簽:“ Iris Setosa”,“ Iris Versicolour”和“ Iris Virginica”。
使用Spark的內置讀取器讀取數據集
數據轉換的第一件事是將數據集作為Spark的結構化數據抽象DataFrame加載。
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.{DoubleType, StringType, StructField, StructType}
val spark = SparkSession.builder().getOrCreate()
val schema = new StructType(Array(
StructField(“sepal length”, DoubleType, true),
StructField(“sepal width”, DoubleType, true),
StructField(“petal length”, DoubleType, true),
StructField(“petal width”, DoubleType, true),
StructField(“class”, StringType, true)))
val rawInput = spark.read.schema(schema).csv(“input_path”)
在第一行,創建一個SparkSession實例,它是任何與DataFrame一起使用的Spark程序的條目。該schema變量定義數據幀包裝虹膜數據的架構。使用此顯式設置的架構,可以定義列的名稱及其類型。否則,列名將是Spark派生的默認名稱,例如_col0等等。最后,可以使用Spark的內置csv閱讀器將Iris csv文件作為名,為DataFrame的DataFrame加載rawInput。
Spark還包含許多其它格式的內置閱讀器。最新版本的Spark支持CSV,JSON,Parquet和LIBSVM。
轉換原始虹膜數據集
為了使Iris數據集可識別為XGBoost,需要
- 將字符串型標簽(即“類”)轉換為雙型標簽。
- 將要素列組裝為向量,以適合Spark ML框架的數據接口。
要將String類型的標簽轉換為Double,可以使用Spark的內置功能轉換器StringIndexer。
import org.apache.spark.ml.feature.StringIndexer
val stringIndexer = new StringIndexer().
setInputCol(“class”).
setOutputCol(“classIndex”).
fit(rawInput)
val labelTransformed = stringIndexer.transform(rawInput).drop(“class”)
使用新創建的StringIndexer實例: - 設置輸入列,即包含字符串類型標簽的列
- 設置輸出列,即該列包含Double-typed標簽。
- 然后使用fitStringIndex和輸入DataFrame rawInput,以便Spark內部構件可以獲取諸如不同值的總數之類的信息。
現在,有了一個StringIndexer,可以隨時將其應用于輸入DataFrame。為了執行StringIndexer的轉換邏輯,transform輸入DataFramerawInput并保持簡潔的DataFrame,刪除“類”列,僅保留要素列和轉換后的Double-typed標簽列(在上述代碼段的最后一行) )。
該fit和transform在MLLIB兩個關鍵操作。基本上,fit產生一個“轉換器”,例如StringIndexer,并且每個轉換器transform在DataFrame上應用方法以添加包含轉換后的特征/標簽或預測結果等的新列。
類似地,可以使用另一個轉換器VectorAssembler將特征列“分隔長度”,“分隔寬度”,“花瓣長度”和“花瓣寬度”組合為向量。
import org.apache.spark.ml.feature.VectorAssembler
val vectorAssembler = new VectorAssembler().
setInputCols(Array(“sepal length”, “sepal width”, “petal length”, “petal width”)).
setOutputCol(“features”)
val xgbInput = vectorAssembler.transform(labelTransformed).select(“features”, “classIndex”)
現在,有一個僅包含兩列的DataFrame,“功能”包含矢量表示的“分隔長度”,“分隔寬度”,“花瓣長度”和“花瓣寬度”以及帶有雙類型標簽的“ classIndex”。這樣的DataFrame(包含向量表示的特征和數字標簽)可以直接饋送到XGBoost4J-Spark的訓練引擎。
與遺漏值處理
XGBoost默認支持缺失值。如果給定SparseVector,則XGBoost會將SparseVector缺少的任何值視為丟失。還可以指定XGBoost將數據集中的特定值視為缺少的值。默認情況下,XGBoost會將NaN視為表示缺失的值。
在XGBoostClassifier中將缺失值(例如-999)設置為“ missing”參數的示例:
import ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier
val xgbParam = Map(“eta” -> 0.1f,
“missing” -> -999,
“objective” -> “multi:softprob”,
“num_class” -> 3,
“num_round” -> 100,
“num_workers” -> 2)
val xgbClassifier = new XGBoostClassifier(xgbParam).
setFeaturesCol(“features”).
setLabelCol(“classIndex”)
筆記
Spark的VectorAssembler缺少值
如果給定具有足夠值為0的特征的數據集,Spark的VectorAssembler轉換器類將返回SparseVector,其中不存在的值表示為0。這與XGBoost的默認值(將SparseVector缺少的值視為丟失)相沖突。該模型將有效地將0視為缺失,但不會聲明為0,這會在其它平臺上使用經過訓練的模型時導致混淆。為避免這種情況,如果XGBoost收到SparseVector并且“ missing”參數未明確設置為0,將引發異常。要解決此問題,用戶可以使用以下三個選項:
1.將從VectorAssembler返回的Vector顯式轉換為DenseVector,以將零返回到數據集。如果使用缺少的編碼為NaN的值來執行此操作,則需要在VectorAssembler上進行設置,以將NaN值保留在數據集中。然后,可以將“ missing”參數設置為任何希望被視為丟失的參數。但是,如果數據集非常稀疏,這可能會導致大量的內存使用。例如:setHandleInvalid = “keep”
val匯編程序= new VectorAssembler()。setInputCols(feature_names.toArray).setOutputCol(“ features”)。setHandleInvalid(“ keep”)
//使用Array()轉換為密集向量
val featurePipeline = new Pipeline()。setStages(Array(assembler))val featureModel = featurePipeline.fit(df_training)val featureDf = featureModel.transform(df_training)
val xgbParam = Map(“ eta”-> 0.1f,
“最大深度”-> 2,“目標”->“ multi:softprob”,“ num_class”-> 3,“ num_round”-> 100,“ num_workers”-> 2,“ allow_non_zero_for_missing”->“ true”,“ missing” ”-> -999)
val xgb =新的XGBoostClassifier(xgbParam)val xgbclassifier = xgb.fit(featureDf)
2.在調用VectorAssembler之前,可以將要表示缺失的值轉換為不為0,NaN或Null的不規則值,并將“ missing”參數設置為0。理想情況下,應將不規則值選擇為超出范圍功能所具有的價值。
3.不要使用VectorAssembler類,而應使用自定義的構造SparseVector的方式,該方式允許指定稀疏度以指示非零值。然后,可以將“ missing”參數設置為數據集中指示的任何稀疏性。如果采用這種方法,則可以傳遞參數 以繞過XGBoost的斷言,即斷言給定SparseVector時“丟失”必須為零。“allow_non_zero_for_missing_value” -> true
如果內存限制不成問題,則建議使用選項1。選項3需要更多的工作來進行設置,但是可以保證為提供正確的結果,而選項2可以更快地進行設置,但是可能很難找到與特征值不沖突的良好不規則值。
筆記
使用XGBoost的其它綁定時,使用非默認缺少的值。
當XGBoost以本機格式保存時,僅會保存booster本身,丟失的參數值不會與模型一起保存。如果在Spark中使用非默認的缺少參數來訓練模型,則在另一個綁定中使用保存的模型時,用戶應注意使用相同的缺少參數。
訓練
XGBoost支持回歸和分類。雖然在本文中使用Iris數據集顯示了如何使用XGBoost / XGBoost4J-Spark解決多類分類問題,但回歸中的用法與分類非常相似。
要訓練XGBoost模型進行分類,需要先聲明XGBoostClassifier:
import ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier
val xgbParam = Map(“eta” -> 0.1f,
“max_depth” -> 2,
“objective” -> “multi:softprob”,
“num_class” -> 3,
“num_round” -> 100,
“num_workers” -> 2)
val xgbClassifier = new XGBoostClassifier(xgbParam).
setFeaturesCol(“features”).
setLabelCol(“classIndex”)
可以找到用于訓練XGBoost模型的可用參數。在XGBoost4J-Spark中,不僅支持默認參數集,還支持這些參數的駝峰式變體,以與Spark的MLLIB參數保持一致。
每個參數在XGBoost4J-Spark(帶有駝峰式大小寫)中都具有等效形式。例如,要max_depth為每棵樹進行設置,可以像在上面的代碼片段(max_depth包裝在Map中)中那樣傳遞參數,也可以通過XGBoostClassifer中的setter進行設置:
val xgbClassifier = new XGBoostClassifier().
setFeaturesCol(“features”).
setLabelCol(“classIndex”)
xgbClassifier.setMaxDepth(2)
設置XGBoostClassifier參數和功能/標簽列后,可以通過將XGBoostClassifier與輸入DataFrame擬合來構建轉換器XGBoostClassificationModel。此fit操作本質上是訓練過程,然后可以將生成的模型用于預測。
val xgbClassificationModel = xgbClassifier.fit(xgbInput)
提前停止
提前停止是一項功能,可以防止不必要的訓練重復。通過指定num_early_stopping_rounds或直接調用setNumEarlyStoppingRoundsXGBoostClassifier或XGBoostRegressor,如果評估指標偏離最佳迭代和提前停止訓練迭代,可以定義輪數。
關于自定義評估指標,除了num_early_stopping_rounds,還需要定義maximize_evaluation_metrics或調用setMaximizeEvaluationMetrics,以指定是否要在訓練中最大化或最小化指標。對于內置的評估指標,XGBoost4J-Spark將自動選擇方向。
例如,需要最大化評估指標(設置maximize_evaluation_metrics為true),并設置num_early_stopping_rounds為5。第10次迭代的評估指標是迄今為止最大的評估指標。在接下來的迭代中,如果沒有大于第10次迭代(最佳)的評估指標,則轉換將在第15次迭代時提前停止。
使用評估集進行訓練
還可以在訓練期間使用多個評估數據集監視模型的性能。通過指定eval_sets或調用setEvalSetsXGBoostClassifier或XGBoostRegressor,可以傳入多個評估數據集,這些評估數據集的類型是從String到DataFrame的Map。
預測
XGBoost4j-Spark支持兩種模型服務方式:批處理預測和單實例預測。
批量預測
當得到一個模型(XGBoostClassificationModel或XGBoostRegressionModel)時,它將獲取一個DataFrame,讀取包含特征向量的列,為每個特征向量進行預測,并默認輸出包含以下列的新DataFrame:
? XGBoostClassificationModel將為每個可能的標簽輸出邊距(rawPredictionCol),概率(probabilityCol)和最終的預測標簽(predictionCol)。
? XGBoostRegressionModel將輸出預測標簽(predictionCol)。
批量預測期望用戶以DataFrame的形式通過測試集。XGBoost4J-Spark為DataFrame的每個分區啟動一個XGBoost工作程序以進行并行預測,并批量生成整個DataFrame的預測結果。
val xgbClassificationModel = xgbClassifier.fit(xgbInput)
val results = xgbClassificationModel.transform(testSet)
使用上面的代碼片段,得到一個結果DataFrame,結果包含邊距,每個類的概率以及每個實例的預測
單實例預測
XGBoostClassificationModel或XGBoostRegressionModel支持也可以對單個實例進行預測。它接受單個Vector作為特征,并輸出預測標簽。
但是,由于XGBoost的內部開銷,單實例預測的開銷很高,謹慎使用!
val features = xgbInput.head().getAsVector
val result = xgbClassificationModel.predict(features)
模型持久
型號和管道持久性
數據科學家將生成一個ML模型,并將其移交給工程團隊以在生產環境中進行部署。相反,在數據探索過程中,數據科學家可以使用經過訓練的模型,例如作為基準。重要的是要支持模型持久性,以使模型可以跨使用場景和編程語言使用。
XGBoost4j-Spark支持保存和加載XGBoostClassifier / XGBoostClassificationModel和XGBoostRegressor / XGBoostRegressionModel。它還支持保存和加載包含這些估計器和模型的ML管道。
可以將XGBoostClassificationModel保存到文件系統:
val xgbClassificationModelPath = “/tmp/xgbClassificationModel”
xgbClassificationModel.write.overwrite().save(xgbClassificationModelPath)
然后在另一個會話中加載模型:
import ml.dmlc.xgboost4j.scala.spark.XGBoostClassificationModel
val xgbClassificationModel2 = XGBoostClassificationModel.load(xgbClassificationModelPath)
xgbClassificationModel2.transform(xgbInput)
關于ML管道的保存和加載,參閱下一節。
與XGBoost的其它綁定交互
在大型數據集上使用XGBoost4j-Spark訓練模型后,有時想在單機中進行模型服務或將其與其它單節點庫集成以進行進一步處理。XGBoost4j-Spark通過以下方式支持將模型導出到本地:
val nativeModelPath = “/tmp/nativeModel”
xgbClassificationModel.nativeBooster.saveModel(nativeModelPath)
然后,可以使用單節點Python XGBoost加載此模型:
import xgboost as xgb
bst = xgb.Booster({‘nthread’: 4})
bst.load_model(nativeModelPath)
筆記
使用HDFS和S3通過nativeBooster.saveModel()導出模型
與其它語言綁定進行交互時,XGBoost還支持將模型保存到本地文件系統以及從本地文件系統加載模型。可以通過分別在路徑前面加上hdfs://和來使用HDFS和S3 s3://。然而,對于這種能力,必須做一個如下:
- 使用描述的步驟構建XGBoost4J-Spark ,但是打開USE_HDFS(或USE_S3等)。使用這種方法,可以通過用HDFS路徑替換“ nativeModelPath”來重用上面的代碼示例。
o 如果使用USE_HDFS等進行構建,則必須確保將涉及的共享庫文件(例如libhdfs.so)放入群集的LIBRARY_PATH中。為避免復雜的集群環境配置,選擇另一個選項。 - 使用HDFS,S3等的綁定來傳遞模型文件。步驟如下(以HDFS為例):
o 創建一個新文件
o val outputStream = fs.create(“hdfs_path”)
其中“ fs”是Hadoop中org.apache.hadoop.fs.FileSystem類的實例。
o 第一步,將返回的OutputStream傳遞給nativeBooster.saveModel():
o xgbClassificationModel.nativeBooster.saveModel(outputStream)
o 從HDFS下載其它語言的文件,并加載XGBoost的預構建版本(無需libhdfs.so)。(函數“ download_from_hdfs”是用戶要實現的輔助函數)
o import xgboost as xgb
o bst = xgb.Booster({‘nthread’: 4})
o local_path = download_from_hdfs(“hdfs_path”)
o bst.load_model(local_path)
筆記
XGBoost4J-Spark與其它綁定之間的一致性問題
XGBoost4J-Spark與XGBoost的其它語言綁定之間存在一致性問題。
當用戶使用Spark通過以下代碼片段以LIBSVM格式加載訓練/測試數據時:
spark.read.format(“libsvm”).load(“trainingset_libsvm”)
Spark假定數據集正在使用基于1的索引(以1開頭的功能索引)。但是,當使用XGBoost的其它綁定(例如XGBoost的Python API)進行預測時,默認情況下,XGBoost假定數據集使用基于0的索引(功能索引從0開始)。它為使用Spark訓練模型但在XGBoost的其它綁定中使用相同格式的數據集進行預測的用戶帶來了陷阱。解決方案是在使用Python API進行預測之前,或者?indexing_mode=1在使用DMatirx加載時追加到文件路徑之前,先將數據集轉換為基于0的索引。例如在Python中:
xgb.DMatrix(‘test.libsvm?indexing_mode=1’)
使用XGBoost4J-Spark構建ML管道
基本ML管道
Spark ML管道可以將多種算法或功能組合到一個管道中。它涵蓋了從特征提取,轉換,選擇到模型訓練和預測的各個方面。XGBoost4j-Spark使將XGBoost無縫地嵌入到這樣的管道中變得可行。以下示例顯示了如何構建由Spark MLlib功能轉換器和XGBoostClassifier估計器組成的管道。
仍然使用虹膜數據集和rawInputDataFrame。首先,需要將數據集分為訓練和測試數據集。
val Array(training, test) = rawInput.randomSplit(Array(0.8, 0.2), 123)
建立了ML管道,其中包括4個階段:
? 將所有要素組合到單個向量列中。
? 從字符串標簽到索引雙標簽。
? 使用XGBoostClassifier訓練分類模型。
? 將索引的雙標簽轉換回原始字符串標簽。
已經在前面的部分中顯示了前三個步驟,最后一步是使用新的轉換器IndexToString完成的:
val labelConverter = new IndexToString()
.setInputCol(“prediction”)
.setOutputCol(“realLabel”)
.setLabels(stringIndexer.labels)
需要將這些步驟組織為Spark ML框架中的Pipeline,并評估整個管道以獲得PipelineModel:
import org.apache.spark.ml.feature._
import org.apache.spark.ml.Pipeline
val pipeline = new Pipeline()
.setStages(Array(assembler, stringIndexer, booster, labelConverter))
val model = pipeline.fit(training)
獲得PipelineModel之后,可以對測試數據集進行預測并評估模型的準確性。
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
val prediction = model.transform(test)
val evaluator = new MulticlassClassificationEvaluator()
val accuracy = evaluator.evaluate(prediction)
具有超參數調優的管道
最大化XGBoost功能的最關鍵操作是為模型選擇最佳參數。手動調整參數是一個繁瑣且費力的過程。使用最新版本的XGBoost4J-Spark,可以利用Spark模型選擇工具來自動執行此過程。
以下示例顯示了使用CrossValidation和MulticlassClassificationEvaluator搜索兩個XGBoost參數max_depth和的最佳組合的代碼段eta。
選擇產生由MulticlassClassificationEvaluator定義的最大精度的模型,并將其用于生成測試集的預測。
import org.apache.spark.ml.tuning._
import org.apache.spark.ml.PipelineModel
import ml.dmlc.xgboost4j.scala.spark.XGBoostClassificationModel
val paramGrid = new ParamGridBuilder()
.addGrid(booster.maxDepth, Array(3, 8))
.addGrid(booster.eta, Array(0.2, 0.6))
.build()
val cv = new CrossValidator()
.setEstimator(pipeline)
.setEvaluator(evaluator)
.setEstimatorParamMaps(paramGrid)
.setNumFolds(3)
val cvModel = cv.fit(training)
val bestModel = cvModel.bestModel.asInstanceOf[PipelineModel].stages(2)
.asInstanceOf[XGBoostClassificationModel]
bestModel.extractParamMap()
運行XGBoost4J-Spark在生產
XGBoost4J-Spark是使XGBoost輕松進入生產環境的最重要步驟之一。在本節中,介紹了三個在生產環境中運行XGBoost4J-Spark的關鍵功能。
并行/分布式訓練
訓練數據集的龐大規模是生產環境中最重要的特征之一。為了確保XGBoost的訓練能夠隨數據大小擴展,XGBoost4J-Spark將Spark的分布式/并行處理框架與XGBoost的并行/分布式訓練機制架起了橋梁。
在XGBoost4J-Spark中,每個XGBoost工作程序都由一個Spark任務包裝,并且Spark內存空間中的訓練數據集以對用戶透明的方式饋送給XGBoost工作人員。
在構建XGBoostClassifier的代碼段中,設置參數num_workers(或numWorkers)。此參數控制在訓練XGBoostClassificationModel時希望擁有多少并行工作器。
筆記
關于OpenMP優化
默認情況下,為每個XGBoost工作者分配一個核心。每個XGBoost工作程序中的OpenMP優化不會生效,并且通過同時運行多個工作程序(即Spark任務)來實現訓練的并行化。
如果確實要優化OpenMP,則必須
- nthread創建XGBoostClassifier / XGBoostRegressor時將其設置為大于1的值
- spark.task.cpus在Spark中設置為與nthread
幫派調度
XGBoost使用AllReduce。一種算法,用于在訓練過程中同步每個工人的統計數據(例如直方圖值)。XGBoost4J-Spark要求在訓練運行之前所有內核都應可用。nthread * numWorkers
在許多用戶共享同一集群的生產環境中,很難保證XGBoost4J-Spark應用程序可以為每次運行獲取所有求的資源。默認情況下,當需要更多資源可用時,XGBoost中的通信層將阻止整個應用程序。此過程通常會帶來不必要的資源浪費,因為它會保留可用資源并嘗試索要更多資源。此外,這通常是無聲的,不會引起用戶的注意。
XGBoost4J-Spark允許用戶設置超時閾值,以從群集中聲明資源。如果應用程序在此時間段內無法獲得足夠的資源,則該應用程序將失敗,而不是浪費資源以使其長時間掛起。要啟用此功能,可以使用XGBoostClassifier / XGBoostRegressor進行設置:
xgbClassifier.setTimeoutRequestWorkers(60000L)
或通過在timeout_request_workers在xgbParamMap建XGBoostClassifier時:
val xgbParam = Map(“eta” -> 0.1f,
“max_depth” -> 2,
“objective” -> “multi:softprob”,
“num_class” -> 3,
“num_round” -> 100,
“num_workers” -> 2,
“timeout_request_workers” -> 60000L)
val xgbClassifier = new XGBoostClassifier(xgbParam).
setFeaturesCol(“features”).
setLabelCol(“classIndex”)
如果XGBoost4J-Spark無法獲得足夠的資源來運行兩個XGBoost工作程序,則該應用程序將失敗。用戶可以具有外部機制來監視應用程序的狀態并在這種情況下得到通知。
檢查點訓練期間
瞬態故障在生產環境中也很常見。為了簡化XGBoost的設計,如果任何分布式工作人員失敗,將停止訓練。但是,如果經過很長時間的訓練仍然失敗,那將是對資源的極大浪費。
支持在訓練期間創建檢查點,以幫助從故障中更有效地恢復。要啟用此功能,可以使用以下命令設置構建每個檢查點的迭代次數setCheckpointInterval以及檢查點的位置setCheckpointPath:
xgbClassifier.setCheckpointInterval(2)
xgbClassifier.setCheckpointPath("/checkpoint_path")
一種等效的方法是在XGBoostClassifier的構造函數中傳遞參數:
val xgbParam = Map(“eta” -> 0.1f,
“max_depth” -> 2,
“objective” -> “multi:softprob”,
“num_class” -> 3,
“num_round” -> 100,
“num_workers” -> 2,
“checkpoint_path” -> “/checkpoints_path”,
“checkpoint_interval” -> 2)
val xgbClassifier = new XGBoostClassifier(xgbParam).
setFeaturesCol(“features”).
setLabelCol(“classIndex”)
如果在這100輪訓練中訓練失敗,則下一輪訓練將從讀取最新的檢查點文件/checkpoints_path開始,并從構建檢查點的迭代開始直到下一次失敗或指定的100輪。
總結
以上是生活随笔為你收集整理的XGBoost4J-Spark基本原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MLIR: Infrastructure
- 下一篇: 编写可调模板并使用自动调谐器