當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。

發(fā)布時(shí)間：2025/3/12 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：杰少

DoubleEnsemble?

簡介

本文，我們介紹一種新的集成算法，算法的基本思想是希望讓噪音樣本的權(quán)重減小，讓難以分類的樣本權(quán)重增大從而提升模型的效果，從論文的思路和實(shí)驗(yàn)結(jié)果來看都是非常不錯(cuò)的，和大家一起分享一下。

在金融數(shù)據(jù)集中，數(shù)據(jù)的信噪比是非常低的，使用復(fù)雜的NN模型最大的挑戰(zhàn)就是過擬合問題，而且相對并不穩(wěn)定。當(dāng)前非常多交易公司會(huì)生產(chǎn)非常多的特征（也稱因子）。如何自動(dòng)選擇有效的特征成為一個(gè)迫在眉睫的問題。為了解決這些問題，本文提出DoubleEnsemble，這是一個(gè)集成框架，利用基于學(xué)習(xí)軌跡的樣本重新加權(quán)和基于shuffle的特征選擇。

具體地說，我們根據(jù)每個(gè)樣本的訓(xùn)練動(dòng)態(tài)識別關(guān)鍵樣本，并通過shuffle根據(jù)每個(gè)特征的消融影響提取關(guān)鍵特征。

我們的模型適用于廣泛的基礎(chǔ)模型，能夠抽取復(fù)雜的模式，同時(shí)緩解金融市場預(yù)測的過度擬合和不穩(wěn)定問題。我們進(jìn)行了廣泛的實(shí)驗(yàn)，包括加密貨幣和股票交易的價(jià)格預(yù)測，使用DNN和GBDT作為基礎(chǔ)模型。實(shí)驗(yàn)結(jié)果表明，與幾種基線方法相比，DoubleEnsemble具有更好的性能。

背景

金融數(shù)據(jù)中存在較低的信噪比，為了解決低信噪比的問題，本文提出了一種新的金融市場預(yù)測集成框架DoubleEnsemble。特別地：

在ensemble中逐個(gè)構(gòu)造子模型，其中每個(gè)子模型都使用樣本的權(quán)重和精心選擇的特征進(jìn)行訓(xùn)練。

在學(xué)習(xí)子模型時(shí)，可以使用多種基本模型，如線性回歸模型、boosting決策樹和深度神經(jīng)網(wǎng)絡(luò)。每次，使用基于采樣重新加權(quán)機(jī)制的學(xué)習(xí)路徑，我們對原始訓(xùn)練集合中的每個(gè)樣本賦予一個(gè)權(quán)重，我們根據(jù)前一個(gè)子模型的損失曲線和當(dāng)前集合的損失值（稱之為學(xué)習(xí)軌跡），為原始訓(xùn)練集中的每個(gè)樣本分配一個(gè)權(quán)重。此外，我們通過shuffle技術(shù)根據(jù)特征對當(dāng)前集合的貢獻(xiàn)來選擇特征。

提出的方法

特征矩陣，標(biāo)簽, 其中,其中為樣本個(gè)數(shù)，是特征個(gè)數(shù)。為第個(gè)樣本特征向量, 是第個(gè)樣本的標(biāo)簽。

在過程中，我們序列化地構(gòu)建哥自模型，，在構(gòu)建完第哥自模型之后，我們定義當(dāng)前的集成模型為：,DoubleEnsemble的輸出為是個(gè)子模型的均值。

每個(gè)子模型是在訓(xùn)練數(shù)據(jù)集以及一個(gè)選出的特征集合, 權(quán)重為，其中為第個(gè)樣本的權(quán)重，對于第一個(gè)子模型，我們使用所有的特征以及一樣的權(quán)重，對于接下來的子模型，我們使用基于采樣重新加權(quán)的學(xué)習(xí)路徑以及基于特征選擇的shuggle技術(shù)來決定權(quán)重并且選擇特征。

SR(Sample Reweighting)

我們抽取在前一個(gè)模型的訓(xùn)練損失曲線和當(dāng)前集成的損失曲線，假設(shè)在之前子模型的訓(xùn)練中有輪迭代。我們使用來表示學(xué)習(xí)曲線，其中是在第輪的第個(gè)樣本的誤差，我們使用表示損失值,為第個(gè)樣本的當(dāng)前集成的誤差(即和的誤差)；

FS(Feature Selection)

我們直接提供訓(xùn)練數(shù)據(jù)以及當(dāng)前的集成結(jié)果。

DoubleEnsemble算法

算法

其中SR為：

SR算法中的(1)為，

為了防止極值的影響，我們將樣本劃分為B個(gè)分桶，并且給予同一個(gè)分桶中的樣本一樣的權(quán)重，

其中b為第個(gè)分桶的平均值，為衰減因子，這樣可以是的后續(xù)的集成子模型更加均勻。

背后的思想

如上圖所示：我們考慮分類任務(wù)中的三類樣本：

容易被正確分類的簡單樣本；
接近真實(shí)決策邊界的難被分類的樣本，容易被錯(cuò)誤分類；
以及可能誤導(dǎo)模型的噪聲樣本。

我們希望我們重新加權(quán)方案能夠提高難以分類的樣本的權(quán)重，同時(shí)降低簡單樣本和噪聲樣本的權(quán)重。

簡單樣本無論如何都可以擬合，而擬合噪聲樣本可能會(huì)導(dǎo)致擬合過度。

項(xiàng)有助于減少簡單樣本的權(quán)重。具體而言，簡單樣品的損失很小，會(huì)導(dǎo)致值較大，因此權(quán)重較小。

然而，該項(xiàng)也會(huì)增強(qiáng)噪聲樣本，因?yàn)閮H根據(jù)損失值很難區(qū)分噪聲樣本和難以分類的樣本。我們通過的損失曲線來區(qū)分它們（上圖b）。我們?yōu)榫哂羞f減歸一化損失曲線的樣本分配了較大的權(quán)重。由于訓(xùn)練過程是由大多數(shù)樣本驅(qū)動(dòng)的，因此大多數(shù)樣本的損失趨于減少，而噪聲樣本的損失通常保持不變甚至增加。因此，噪聲樣本的歸一化損耗曲線將增加，從而導(dǎo)致較大的值和較小的權(quán)重。對于簡單易分類的樣品，它們的標(biāo)準(zhǔn)化損耗曲線更有可能保持不變或者輕微波動(dòng)，這會(huì)導(dǎo)致值適中。對于難以分類的樣本，它們的歸一化損失曲線在訓(xùn)練過程中緩慢下降，這表明它們對決策邊界的貢獻(xiàn)。這導(dǎo)致值較小，因此權(quán)重較大。如果上圖1c所示。使用不僅增加了難分類樣本的權(quán)重，而且也增加了難分類樣本的權(quán)重。

最終通過和的結(jié)合，我們可以減少容易分類樣本的權(quán)重和噪音樣本的權(quán)重。

shuffling based feature selection

該算法用來對特征進(jìn)行選擇，并且將選擇的特征輸入到下一輪當(dāng)中。

實(shí)驗(yàn)

從上面的實(shí)驗(yàn)中，我們發(fā)現(xiàn)：

本文的算法獲得了最佳的實(shí)驗(yàn)效果；
DoubleEnsemble（SR+FS）實(shí)現(xiàn)了50%以上的年化回報(bào)，且風(fēng)險(xiǎn)較低。夏普比接近5.0，最大drawdown小于6.0%。這表明Doubleensemble的策略具有優(yōu)越而穩(wěn)定的性能。

小結(jié)

本文通過學(xué)習(xí)基于軌跡的樣本重加權(quán)和基于洗牌的特征選擇，提出了一種穩(wěn)健有效的集成模型DoubleEnsemble。基于學(xué)習(xí)軌跡的樣本重加權(quán)方法將不同難度的樣本賦予不同的權(quán)重，非常適合于高噪聲和不規(guī)則的市場數(shù)據(jù)。基于shuffle的特征選擇可以識別特征對模型的貢獻(xiàn)，并為不同的子模型選擇權(quán)重和多樣的特征。目前該方法代碼已經(jīng)開源，有興趣的朋友可以嘗試一下。

參考文獻(xiàn)

https://arxiv.org/pdf/2010.01265.pdf

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯黃海廣老師《機(jī)器學(xué)習(xí)課程》課件合集本站qq群851320808，加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。