论文浅尝 | Dynamic Weighted Majority for Incremental Learning
?
Yang Lu , Yiu-ming Cheung , Yuan Yan Tang. Dynamic Weighted Majority for Incremental Learning ofImbalanced Data Streams with Concept Drift. In?Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)
?
論文鏈接:http://www.ijcai.org/proceedings/2017/0333.pdf
?
數據流中發生的概念漂移將降低在線學習過程的準確性和穩定性。如果數據流不平衡,檢測和修正概念漂移將更具挑戰性。目前已經對這兩個問題分別進行了深入的研究,但是還沒有考慮它們同時出現的情況。在本文中,作者提出了一種基于塊的增量學習方法,稱為動態加權多數增量學習(DWMIL)來處理具有概念漂移和類不平衡問題的數據流。DWMIL 根據基分類器在當前數據塊上的性能,對基分類器進行動態加權,實現了一個整體框架。
Algorithm & Ensemble Framework:
算法的輸入:在時間點 t 的數據 D^(t)={xi belongs to X,yi belongs to Y}, i=1,...,N, 刪除分類器的閾值 theta, 基分類器集合 H^(t-1)={H^(t-1)_1,...,H^(t-1)_m}, 基分類器的權重 w^(t-1), 基分類器的數量 m, 集成的規模大小 T。
step 1: 通過集成分類器對輸入的進行預測
step 2: 計算當前輸入的數據塊在基分類器上的錯誤率 epsilon^t_j, 并更新基分類器的權重
step 3: 移除過時的分類器(權重值小于閾值 theta)并更新基分類器數量
step 4: 構建新的分類器并對其初始化
算法的輸出:更新的基分類器集合 H^(t), 基分類器的權重 W^(t), 基分類器的數量 m, 目標預測值 bar_y。
本文的算法如下圖所示:
Experiments:
本文選取了4個合成、2個真實的均具有概念漂移的數據集。并且在集合方法、自適應方法、主動漂移檢測方法中各選取了一個具有代表性的作為baseline,分別是:Learn++.NIE(LPN)、Recursive Ensemble Approach (REA)、Class-Based ensemble for Class Evolution(CBCE),并與Dynamic Weighted Majority (DWM)也進行了比較。對具有概念漂移的合成數據集和實際數據集的實驗表明,DWMIL與現有技術相比,性能更好,計算成本更低。
Comparisons:
與現有方法相比,其優點在于以下 4 點:
?能夠使非偏移的數據流保持穩定,快速適應新的概念;
它是完全增量的,即不需要存儲以前的數據;
?模型中保持有限數量的分類器以確保高效;
簡單,只需要一個閾值參數。
DWMIL與DWM相比:
在學習數據流的過程中,DWMIL和DWM都保留了一些分類器。但是,
在決定是否創建一個新的分類器時,DWM的依據是單個樣本的預測性能。如果數據不平衡,則樣本屬于多數類的概率比少數類的高得多,并且對多數類樣本錯誤分類的概率較低。因此,DWM在不平衡數據流上創建新分類器的機會很低。事實證明,它可能無法有效地適應新的概念。相比之下,DWMIL為每個數據塊創建一個新的分類器,以及時學習新的概念。
?在決定是否移除一個過時或低效的分類器時,DWM中分類器的權重通過固定的參數β減少,并且在歸一化之后再次減小。相反,DWMIL根據性能降低了權重,沒有任何標準化。因此,如果當前概念與創建分類器的概念類似,則分類器可以持續更長時間來對預測做出貢獻。
DWMIL與Learn++相比:
Learn++和DWMIL都是為每個數據塊創建分類,并使用分類錯誤率來調整權重。但是,
關于降低在過去的數據塊上訓練的分類器的權重這一問題,Learn++使用了時間衰減函數σ。這個σ取決于兩個自由參數:a和b,其中不同的值會產生不同的結果。在DWMIL中,減重僅取決于沒有自由參數的分類器的性能。
關于分類器權重的影響因素,在Learn++中,權重不僅取決于當前數據塊,還取決于創建的分類器到當前數據塊的數據塊。在這種情況下,可能會產生偏差。具體來說,如果一個分類器在其創建的數據塊上表現得非常好,它將在接下來幾個數據塊中持續獲得更高的權重。如果概念發生變化,那么在舊概念上訓練的分類器的高權重將降低預測效果。
關于分類器的性能,Learn++會保留所有的分類器。如果數據流很長,累積的分類器會增加計算負擔,因為它需要評估當前分塊上所有過去的分類器的性能。相比之下,DWMIL放棄了過時或無用的分類器來提高計算效率。
筆者認為,這篇文章的主要創新點在于:用數據塊的輸入代替傳統的單一樣本輸入,使得模型可以更快地對概念漂移作出反應;通過對分類器性能的檢測,動態調整它們的權重,并及時剔除過時或低效的分類器,使得模型比較高效。
?
本文作者鄧淑敏,浙江大學計算機學院2017級直博生,研究興趣為知識圖譜,描述邏輯,ontology stream。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Dynamic Weighted Majority for Incremental Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 肖仰华 | 基于知识图谱的可解释人工智能
- 下一篇: 胡伟 | 面向多实体人机协作消解的对比表