【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。
作者:杰少
DoubleEnsemble?
簡介
本文,我們介紹一種新的集成算法,算法的基本思想是希望讓噪音樣本的權(quán)重減小,讓難以分類的樣本權(quán)重增大從而提升模型的效果,從論文的思路和實(shí)驗(yàn)結(jié)果來看都是非常不錯(cuò)的,和大家一起分享一下。
在金融數(shù)據(jù)集中,數(shù)據(jù)的信噪比是非常低的,使用復(fù)雜的NN模型最大的挑戰(zhàn)就是過擬合問題,而且相對并不穩(wěn)定。當(dāng)前非常多交易公司會(huì)生產(chǎn)非常多的特征(也稱因子)。如何自動(dòng)選擇有效的特征成為一個(gè)迫在眉睫的問題。為了解決這些問題,本文提出DoubleEnsemble,這是一個(gè)集成框架,利用基于學(xué)習(xí)軌跡的樣本重新加權(quán)和基于shuffle的特征選擇。
具體地說,我們根據(jù)每個(gè)樣本的訓(xùn)練動(dòng)態(tài)識別關(guān)鍵樣本,并通過shuffle根據(jù)每個(gè)特征的消融影響提取關(guān)鍵特征。
我們的模型適用于廣泛的基礎(chǔ)模型,能夠抽取復(fù)雜的模式,同時(shí)緩解金融市場預(yù)測的過度擬合和不穩(wěn)定問題。我們進(jìn)行了廣泛的實(shí)驗(yàn),包括加密貨幣和股票交易的價(jià)格預(yù)測,使用DNN和GBDT作為基礎(chǔ)模型。實(shí)驗(yàn)結(jié)果表明,與幾種基線方法相比,DoubleEnsemble具有更好的性能。
背景
金融數(shù)據(jù)中存在較低的信噪比,為了解決低信噪比的問題,本文提出了一種新的金融市場預(yù)測集成框架DoubleEnsemble。特別地:
在ensemble中逐個(gè)構(gòu)造子模型,其中每個(gè)子模型都使用樣本的權(quán)重和精心選擇的特征進(jìn)行訓(xùn)練。
在學(xué)習(xí)子模型時(shí),可以使用多種基本模型,如線性回歸模型、boosting決策樹和深度神經(jīng)網(wǎng)絡(luò)。每次,使用基于采樣重新加權(quán)機(jī)制的學(xué)習(xí)路徑,我們對原始訓(xùn)練集合中的每個(gè)樣本賦予一個(gè)權(quán)重,我們根據(jù)前一個(gè)子模型的損失曲線和當(dāng)前集合的損失值(稱之為學(xué)習(xí)軌跡),為原始訓(xùn)練集中的每個(gè)樣本分配一個(gè)權(quán)重。此外,我們通過shuffle技術(shù)根據(jù)特征對當(dāng)前集合的貢獻(xiàn)來選擇特征。
提出的方法
特征矩陣,標(biāo)簽, 其中,其中為樣本個(gè)數(shù),是特征個(gè)數(shù)。為第個(gè)樣本特征向量, 是第個(gè)樣本的標(biāo)簽。
在過程中,我們序列化地構(gòu)建哥自模型,,在構(gòu)建完第哥自模型之后,我們定義當(dāng)前的集成模型為:,DoubleEnsemble的輸出為是個(gè)子模型的均值。
每個(gè)子模型是在訓(xùn)練數(shù)據(jù)集以及一個(gè)選出的特征集合, 權(quán)重為,其中為第個(gè)樣本的權(quán)重,對于第一個(gè)子模型,我們使用所有的特征以及一樣的權(quán)重,對于接下來的子模型,我們使用基于采樣重新加權(quán)的學(xué)習(xí)路徑以及基于特征選擇的shuggle技術(shù)來決定權(quán)重并且選擇特征。
SR(Sample Reweighting)
我們抽取在前一個(gè)模型的訓(xùn)練損失曲線和當(dāng)前集成的損失曲線,假設(shè)在之前子模型的訓(xùn)練中有輪迭代。我們使用來表示學(xué)習(xí)曲線,其中是在第輪的第個(gè)樣本的誤差,我們使用表示損失值,為第個(gè)樣本的當(dāng)前集成的誤差(即和的誤差);
FS(Feature Selection)
我們直接提供訓(xùn)練數(shù)據(jù)以及當(dāng)前的集成結(jié)果。
DoubleEnsemble算法
01
算法
其中SR為:
SR算法中的(1)為,
為了防止極值的影響,我們將樣本劃分為B個(gè)分桶,并且給予同一個(gè)分桶中的樣本一樣的權(quán)重,
其中b為第個(gè)分桶的平均值,為衰減因子,這樣可以是的后續(xù)的集成子模型更加均勻。
02
背后的思想
如上圖所示:我們考慮分類任務(wù)中的三類樣本:
容易被正確分類的簡單樣本;
接近真實(shí)決策邊界的難被分類的樣本,容易被錯(cuò)誤分類;
以及可能誤導(dǎo)模型的噪聲樣本。
我們希望我們重新加權(quán)方案能夠提高難以分類的樣本的權(quán)重,同時(shí)降低簡單樣本和噪聲樣本的權(quán)重。
簡單樣本無論如何都可以擬合,而擬合噪聲樣本可能會(huì)導(dǎo)致擬合過度。
項(xiàng)有助于減少簡單樣本的權(quán)重。具體而言,簡單樣品的損失很小,會(huì)導(dǎo)致值較大,因此權(quán)重較小。
然而,該項(xiàng)也會(huì)增強(qiáng)噪聲樣本,因?yàn)閮H根據(jù)損失值很難區(qū)分噪聲樣本和難以分類的樣本。我們通過的損失曲線來區(qū)分它們(上圖b)。我們?yōu)榫哂羞f減歸一化損失曲線的樣本分配了較大的權(quán)重。由于訓(xùn)練過程是由大多數(shù)樣本驅(qū)動(dòng)的,因此大多數(shù)樣本的損失趨于減少,而噪聲樣本的損失通常保持不變甚至增加。因此,噪聲樣本的歸一化損耗曲線將增加,從而導(dǎo)致較大的值和較小的權(quán)重。對于簡單易分類的樣品,它們的標(biāo)準(zhǔn)化損耗曲線更有可能保持不變或者輕微波動(dòng),這會(huì)導(dǎo)致值適中。對于難以分類的樣本,它們的歸一化損失曲線在訓(xùn)練過程中緩慢下降,這表明它們對決策邊界的貢獻(xiàn)。這導(dǎo)致值較小,因此權(quán)重較大。如果上圖1c所示。使用不僅增加了難分類樣本的權(quán)重,而且也增加了難分類樣本的權(quán)重。
最終通過和的結(jié)合,我們可以減少容易分類樣本的權(quán)重和噪音樣本的權(quán)重。
03
shuffling based feature selection
該算法用來對特征進(jìn)行選擇,并且將選擇的特征輸入到下一輪當(dāng)中。
實(shí)驗(yàn)
從上面的實(shí)驗(yàn)中,我們發(fā)現(xiàn):
本文的算法獲得了最佳的實(shí)驗(yàn)效果;
DoubleEnsemble(SR+FS)實(shí)現(xiàn)了50%以上的年化回報(bào),且風(fēng)險(xiǎn)較低。夏普比接近5.0,最大drawdown小于6.0%。這表明Doubleensemble的策略具有優(yōu)越而穩(wěn)定的性能。
小結(jié)
本文通過學(xué)習(xí)基于軌跡的樣本重加權(quán)和基于洗牌的特征選擇,提出了一種穩(wěn)健有效的集成模型DoubleEnsemble。基于學(xué)習(xí)軌跡的樣本重加權(quán)方法將不同難度的樣本賦予不同的權(quán)重,非常適合于高噪聲和不規(guī)則的市場數(shù)據(jù)。基于shuffle的特征選擇可以識別特征對模型的貢獻(xiàn),并為不同的子模型選擇權(quán)重和多樣的特征。目前該方法代碼已經(jīng)開源,有興趣的朋友可以嘗試一下。
參考文獻(xiàn)
https://arxiv.org/pdf/2010.01265.pdf
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯黃海廣老師《機(jī)器學(xué)習(xí)課程》課件合集 本站qq群851320808,加入微信群請掃碼:
總結(jié)
以上是生活随笔為你收集整理的【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电脑重装系统按哪个键
- 下一篇: springMVCs下载