日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。

發(fā)布時(shí)間:2025/3/12 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:杰少

DoubleEnsemble?

簡介

本文,我們介紹一種新的集成算法,算法的基本思想是希望讓噪音樣本的權(quán)重減小,讓難以分類的樣本權(quán)重增大從而提升模型的效果,從論文的思路和實(shí)驗(yàn)結(jié)果來看都是非常不錯(cuò)的,和大家一起分享一下。

在金融數(shù)據(jù)集中,數(shù)據(jù)的信噪比是非常低的,使用復(fù)雜的NN模型最大的挑戰(zhàn)就是過擬合問題,而且相對并不穩(wěn)定。當(dāng)前非常多交易公司會(huì)生產(chǎn)非常多的特征(也稱因子)。如何自動(dòng)選擇有效的特征成為一個(gè)迫在眉睫的問題。為了解決這些問題,本文提出DoubleEnsemble,這是一個(gè)集成框架,利用基于學(xué)習(xí)軌跡的樣本重新加權(quán)和基于shuffle的特征選擇。

具體地說,我們根據(jù)每個(gè)樣本的訓(xùn)練動(dòng)態(tài)識別關(guān)鍵樣本,并通過shuffle根據(jù)每個(gè)特征的消融影響提取關(guān)鍵特征。

我們的模型適用于廣泛的基礎(chǔ)模型,能夠抽取復(fù)雜的模式,同時(shí)緩解金融市場預(yù)測的過度擬合和不穩(wěn)定問題。我們進(jìn)行了廣泛的實(shí)驗(yàn),包括加密貨幣和股票交易的價(jià)格預(yù)測,使用DNN和GBDT作為基礎(chǔ)模型。實(shí)驗(yàn)結(jié)果表明,與幾種基線方法相比,DoubleEnsemble具有更好的性能。

背景

金融數(shù)據(jù)中存在較低的信噪比,為了解決低信噪比的問題,本文提出了一種新的金融市場預(yù)測集成框架DoubleEnsemble。特別地:

  • 在ensemble中逐個(gè)構(gòu)造子模型,其中每個(gè)子模型都使用樣本的權(quán)重和精心選擇的特征進(jìn)行訓(xùn)練。

在學(xué)習(xí)子模型時(shí),可以使用多種基本模型,如線性回歸模型、boosting決策樹和深度神經(jīng)網(wǎng)絡(luò)。每次,使用基于采樣重新加權(quán)機(jī)制的學(xué)習(xí)路徑,我們對原始訓(xùn)練集合中的每個(gè)樣本賦予一個(gè)權(quán)重,我們根據(jù)前一個(gè)子模型的損失曲線和當(dāng)前集合的損失值(稱之為學(xué)習(xí)軌跡),為原始訓(xùn)練集中的每個(gè)樣本分配一個(gè)權(quán)重。此外,我們通過shuffle技術(shù)根據(jù)特征對當(dāng)前集合的貢獻(xiàn)來選擇特征。

提出的方法

特征矩陣,標(biāo)簽, 其中,其中為樣本個(gè)數(shù),是特征個(gè)數(shù)。為第個(gè)樣本特征向量, 是第個(gè)樣本的標(biāo)簽。

在過程中,我們序列化地構(gòu)建哥自模型,,在構(gòu)建完第哥自模型之后,我們定義當(dāng)前的集成模型為:,DoubleEnsemble的輸出為是個(gè)子模型的均值。

每個(gè)子模型是在訓(xùn)練數(shù)據(jù)集以及一個(gè)選出的特征集合, 權(quán)重為,其中為第個(gè)樣本的權(quán)重,對于第一個(gè)子模型,我們使用所有的特征以及一樣的權(quán)重,對于接下來的子模型,我們使用基于采樣重新加權(quán)的學(xué)習(xí)路徑以及基于特征選擇的shuggle技術(shù)來決定權(quán)重并且選擇特征。

SR(Sample Reweighting)

我們抽取在前一個(gè)模型的訓(xùn)練損失曲線和當(dāng)前集成的損失曲線,假設(shè)在之前子模型的訓(xùn)練中有輪迭代。我們使用來表示學(xué)習(xí)曲線,其中是在第輪的第個(gè)樣本的誤差,我們使用表示損失值,為第個(gè)樣本的當(dāng)前集成的誤差(即和的誤差);

FS(Feature Selection)

我們直接提供訓(xùn)練數(shù)據(jù)以及當(dāng)前的集成結(jié)果。

DoubleEnsemble算法

01


算法

其中SR為:

SR算法中的(1)為,

為了防止極值的影響,我們將樣本劃分為B個(gè)分桶,并且給予同一個(gè)分桶中的樣本一樣的權(quán)重,

其中b為第個(gè)分桶的平均值,為衰減因子,這樣可以是的后續(xù)的集成子模型更加均勻。

02


背后的思想

如上圖所示:我們考慮分類任務(wù)中的三類樣本:

  • 容易被正確分類的簡單樣本;

  • 接近真實(shí)決策邊界的難被分類的樣本,容易被錯(cuò)誤分類;

  • 以及可能誤導(dǎo)模型的噪聲樣本。

我們希望我們重新加權(quán)方案能夠提高難以分類的樣本的權(quán)重,同時(shí)降低簡單樣本和噪聲樣本的權(quán)重

  • 簡單樣本無論如何都可以擬合,而擬合噪聲樣本可能會(huì)導(dǎo)致擬合過度。

項(xiàng)有助于減少簡單樣本的權(quán)重。具體而言,簡單樣品的損失很小,會(huì)導(dǎo)致值較大,因此權(quán)重較小。

然而,該項(xiàng)也會(huì)增強(qiáng)噪聲樣本,因?yàn)閮H根據(jù)損失值很難區(qū)分噪聲樣本和難以分類的樣本。我們通過的損失曲線來區(qū)分它們(上圖b)。我們?yōu)榫哂羞f減歸一化損失曲線的樣本分配了較大的權(quán)重。由于訓(xùn)練過程是由大多數(shù)樣本驅(qū)動(dòng)的,因此大多數(shù)樣本的損失趨于減少,而噪聲樣本的損失通常保持不變甚至增加。因此,噪聲樣本的歸一化損耗曲線將增加,從而導(dǎo)致較大的值和較小的權(quán)重。對于簡單易分類的樣品,它們的標(biāo)準(zhǔn)化損耗曲線更有可能保持不變或者輕微波動(dòng),這會(huì)導(dǎo)致值適中。對于難以分類的樣本,它們的歸一化損失曲線在訓(xùn)練過程中緩慢下降,這表明它們對決策邊界的貢獻(xiàn)。這導(dǎo)致值較小,因此權(quán)重較大。如果上圖1c所示。使用不僅增加了難分類樣本的權(quán)重,而且也增加了難分類樣本的權(quán)重。

最終通過和的結(jié)合,我們可以減少容易分類樣本的權(quán)重和噪音樣本的權(quán)重。

03


shuffling based feature selection

該算法用來對特征進(jìn)行選擇,并且將選擇的特征輸入到下一輪當(dāng)中。


實(shí)驗(yàn)


從上面的實(shí)驗(yàn)中,我們發(fā)現(xiàn):

  • 本文的算法獲得了最佳的實(shí)驗(yàn)效果;

  • DoubleEnsemble(SR+FS)實(shí)現(xiàn)了50%以上的年化回報(bào),且風(fēng)險(xiǎn)較低。夏普比接近5.0,最大drawdown小于6.0%。這表明Doubleensemble的策略具有優(yōu)越而穩(wěn)定的性能。

小結(jié)

本文通過學(xué)習(xí)基于軌跡的樣本重加權(quán)和基于洗牌的特征選擇,提出了一種穩(wěn)健有效的集成模型DoubleEnsemble。基于學(xué)習(xí)軌跡的樣本重加權(quán)方法將不同難度的樣本賦予不同的權(quán)重,非常適合于高噪聲和不規(guī)則的市場數(shù)據(jù)。基于shuffle的特征選擇可以識別特征對模型的貢獻(xiàn),并為不同的子模型選擇權(quán)重和多樣的特征。目前該方法代碼已經(jīng)開源,有興趣的朋友可以嘗試一下。

參考文獻(xiàn)

  • https://arxiv.org/pdf/2010.01265.pdf


  • 往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯黃海廣老師《機(jī)器學(xué)習(xí)課程》課件合集 本站qq群851320808,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。