當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Dynamic Weighted Majority for Incremental Learning

發(fā)布時間：2024/7/5 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | Dynamic Weighted Majority for Incremental Learning 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Yang Lu , Yiu-ming Cheung , Yuan Yan Tang. Dynamic Weighted Majority for Incremental Learning ofImbalanced Data Streams with Concept Drift. In?Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)

論文鏈接：http://www.ijcai.org/proceedings/2017/0333.pdf

數(shù)據(jù)流中發(fā)生的概念漂移將降低在線學(xué)習(xí)過程的準(zhǔn)確性和穩(wěn)定性。如果數(shù)據(jù)流不平衡，檢測和修正概念漂移將更具挑戰(zhàn)性。目前已經(jīng)對這兩個問題分別進(jìn)行了深入的研究，但是還沒有考慮它們同時出現(xiàn)的情況。在本文中，作者提出了一種基于塊的增量學(xué)習(xí)方法，稱為動態(tài)加權(quán)多數(shù)增量學(xué)習(xí)（DWMIL）來處理具有概念漂移和類不平衡問題的數(shù)據(jù)流。DWMIL 根據(jù)基分類器在當(dāng)前數(shù)據(jù)塊上的性能，對基分類器進(jìn)行動態(tài)加權(quán)，實現(xiàn)了一個整體框架。

Algorithm & Ensemble Framework：

算法的輸入：在時間點 t 的數(shù)據(jù) D^(t)={xi belongs to X,yi belongs to Y}, i=1,...,N, 刪除分類器的閾值 theta, 基分類器集合 H^(t-1)={H^(t-1)_1,...,H^(t-1)_m}, 基分類器的權(quán)重 w^(t-1), 基分類器的數(shù)量 m, 集成的規(guī)模大小 T。

step 1: 通過集成分類器對輸入的進(jìn)行預(yù)測

step 2: 計算當(dāng)前輸入的數(shù)據(jù)塊在基分類器上的錯誤率 epsilon^t_j, 并更新基分類器的權(quán)重

step 3: 移除過時的分類器（權(quán)重值小于閾值 theta）并更新基分類器數(shù)量

step 4: 構(gòu)建新的分類器并對其初始化

算法的輸出：更新的基分類器集合 H^(t), 基分類器的權(quán)重 W^(t), 基分類器的數(shù)量 m, 目標(biāo)預(yù)測值 bar_y。

本文的算法如下圖所示：

Experiments：

本文選取了4個合成、2個真實的均具有概念漂移的數(shù)據(jù)集。并且在集合方法、自適應(yīng)方法、主動漂移檢測方法中各選取了一個具有代表性的作為baseline，分別是：Learn++.NIE(LPN)、Recursive Ensemble Approach (REA)、Class-Based ensemble for Class Evolution(CBCE)，并與Dynamic Weighted Majority (DWM)也進(jìn)行了比較。對具有概念漂移的合成數(shù)據(jù)集和實際數(shù)據(jù)集的實驗表明，DWMIL與現(xiàn)有技術(shù)相比，性能更好，計算成本更低。

Comparisons:

與現(xiàn)有方法相比，其優(yōu)點在于以下 4 點：

?能夠使非偏移的數(shù)據(jù)流保持穩(wěn)定，快速適應(yīng)新的概念;

它是完全增量的，即不需要存儲以前的數(shù)據(jù);

?模型中保持有限數(shù)量的分類器以確保高效;

簡單，只需要一個閾值參數(shù)。

DWMIL與DWM相比:

在學(xué)習(xí)數(shù)據(jù)流的過程中，DWMIL和DWM都保留了一些分類器。但是，

在決定是否創(chuàng)建一個新的分類器時，DWM的依據(jù)是單個樣本的預(yù)測性能。如果數(shù)據(jù)不平衡，則樣本屬于多數(shù)類的概率比少數(shù)類的高得多，并且對多數(shù)類樣本錯誤分類的概率較低。因此，DWM在不平衡數(shù)據(jù)流上創(chuàng)建新分類器的機(jī)會很低。事實證明，它可能無法有效地適應(yīng)新的概念。相比之下，DWMIL為每個數(shù)據(jù)塊創(chuàng)建一個新的分類器，以及時學(xué)習(xí)新的概念。

?在決定是否移除一個過時或低效的分類器時，DWM中分類器的權(quán)重通過固定的參數(shù)β減少，并且在歸一化之后再次減小。相反，DWMIL根據(jù)性能降低了權(quán)重，沒有任何標(biāo)準(zhǔn)化。因此，如果當(dāng)前概念與創(chuàng)建分類器的概念類似，則分類器可以持續(xù)更長時間來對預(yù)測做出貢獻(xiàn)。

DWMIL與Learn++相比:

Learn++和DWMIL都是為每個數(shù)據(jù)塊創(chuàng)建分類，并使用分類錯誤率來調(diào)整權(quán)重。但是，

關(guān)于降低在過去的數(shù)據(jù)塊上訓(xùn)練的分類器的權(quán)重這一問題，Learn++使用了時間衰減函數(shù)σ。這個σ取決于兩個自由參數(shù)：a和b，其中不同的值會產(chǎn)生不同的結(jié)果。在DWMIL中，減重僅取決于沒有自由參數(shù)的分類器的性能。

關(guān)于分類器權(quán)重的影響因素，在Learn++中，權(quán)重不僅取決于當(dāng)前數(shù)據(jù)塊，還取決于創(chuàng)建的分類器到當(dāng)前數(shù)據(jù)塊的數(shù)據(jù)塊。在這種情況下，可能會產(chǎn)生偏差。具體來說，如果一個分類器在其創(chuàng)建的數(shù)據(jù)塊上表現(xiàn)得非常好，它將在接下來幾個數(shù)據(jù)塊中持續(xù)獲得更高的權(quán)重。如果概念發(fā)生變化，那么在舊概念上訓(xùn)練的分類器的高權(quán)重將降低預(yù)測效果。

關(guān)于分類器的性能，Learn++會保留所有的分類器。如果數(shù)據(jù)流很長，累積的分類器會增加計算負(fù)擔(dān)，因為它需要評估當(dāng)前分塊上所有過去的分類器的性能。相比之下，DWMIL放棄了過時或無用的分類器來提高計算效率。

筆者認(rèn)為，這篇文章的主要創(chuàng)新點在于：用數(shù)據(jù)塊的輸入代替?zhèn)鹘y(tǒng)的單一樣本輸入，使得模型可以更快地對概念漂移作出反應(yīng)；通過對分類器性能的檢測，動態(tài)調(diào)整它們的權(quán)重，并及時剔除過時或低效的分類器，使得模型比較高效。

本文作者鄧淑敏，浙江大學(xué)計算機(jī)學(xué)院2017級直博生，研究興趣為知識圖譜，描述邏輯，ontology stream。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

轉(zhuǎn)載須知：轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題，請注明原標(biāo)題。

點擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | Dynamic Weighted Majority for Incremental Learning的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：肖仰华 | 基于知识图谱的可解释人工智能
下一篇： Python 文件操作中的读写模式:op