當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

PU learning学习笔记

發(fā)布時(shí)間：2024/1/23 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了 PU learning学习笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、背景介紹

現(xiàn)實(shí)生活許多例子只有正樣本和大量未標(biāo)記樣本，這是因?yàn)楂@取負(fù)類樣本較為困難、負(fù)類數(shù)據(jù)太過(guò)多樣化且動(dòng)態(tài)變化。比如在推薦系統(tǒng)，用戶點(diǎn)擊為正樣本，卻不能因?yàn)橛脩魶](méi)有點(diǎn)擊就認(rèn)為它是負(fù)樣本，因?yàn)榭赡軜颖镜奈恢煤芷?#xff0c;導(dǎo)致用戶沒(méi)有點(diǎn)擊。

PU Learning（Positive-unlabeled learning）是半監(jiān)督學(xué)習(xí)的一個(gè)研究方向，指在只有正類和無(wú)標(biāo)記數(shù)據(jù)的情況下，訓(xùn)練二分類器，伊利諾伊大學(xué)芝加哥分校（UIC）的劉兵（Bing Liu）教授和日本理化研究所的杉山將（Masashi Sugiyama）實(shí)驗(yàn)室對(duì)PU Learning有較深的研究。

二、方法介紹

目前有兩種解決方法：

1、啟發(fā)式地從未標(biāo)注樣本里找到可靠的負(fù)樣本，以此訓(xùn)練二分類器，該方法問(wèn)題是分類效果嚴(yán)重依賴先驗(yàn)知識(shí)。

2、將未標(biāo)注樣本作為負(fù)樣本訓(xùn)練分類器，由于負(fù)樣本中含有正樣本，錯(cuò)誤的標(biāo)簽指定導(dǎo)致分類錯(cuò)誤。

2.1 直接利用標(biāo)準(zhǔn)分類方法

將正樣本和未標(biāo)記樣本分別看作是positive samples和negative samples, 然后利用這些數(shù)據(jù)訓(xùn)練一個(gè)標(biāo)準(zhǔn)分類器。分類器將為每個(gè)物品打一個(gè)分?jǐn)?shù)（概率值），通常正樣本分?jǐn)?shù)高于負(fù)樣本的分?jǐn)?shù)，因此對(duì)于那些未標(biāo)記的物品，分?jǐn)?shù)較高的最有可能為positive。

這種樸素的方法在文獻(xiàn)Learning classifiers from only positive and unlabeled data中有介紹。論文核心結(jié)果是，在某些基本假設(shè)下,合理利用正例和未貼標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練得到的標(biāo)準(zhǔn)分類器應(yīng)該能夠給出與實(shí)際正確分?jǐn)?shù)成正比的分?jǐn)?shù)。

2.2 PU bagging

a)通過(guò)將所有正樣本和未標(biāo)記樣本進(jìn)行隨機(jī)組合來(lái)創(chuàng)建訓(xùn)練集；

b)利用這個(gè)“bootstrap”樣本來(lái)構(gòu)建分類器，分別將正樣本和未標(biāo)記樣本視為positive和negative；

c)將分類器應(yīng)用于不在訓(xùn)練集中的未標(biāo)記樣本 - OOB（“out of bag”）- 并記錄其分?jǐn)?shù)；

d)重復(fù)上述三個(gè)步驟，最后為每個(gè)樣本的分?jǐn)?shù)為OOB分?jǐn)?shù)的平均值。

通過(guò)bagging的方法可以將所有未標(biāo)記樣本進(jìn)行分類（粗），增大了分類精度。描述這種方法的一篇論文是A bagging SVM to learn from positive and unlabeled examples。該方法優(yōu)于使用PU學(xué)習(xí)的最新方法的性能，特別是當(dāng)正例的數(shù)量有限并且未標(biāo)記的例子中的負(fù)片的比例小時(shí)。所提出的方法也可以比現(xiàn)有技術(shù)方法運(yùn)行得快得多，特別是當(dāng)未標(biāo)記的示例集很大時(shí)。

2.3 Two-step approaches

大部分的PU learning策略屬于“two-step approaches”。最近的一篇介紹這些方法的論文是?An Evaluation of Two-Step Techniques for Positive-Unlabeled Learning in Text Classification。

a)識(shí)別可以百分之百標(biāo)記為negative的未標(biāo)記樣本子集（“reliable negatives”）；需要較大的人工標(biāo)注

b)使用正負(fù)樣本訓(xùn)練標(biāo)準(zhǔn)分類器并將其應(yīng)用于剩余的未標(biāo)記樣本。

2.4 Positive unlabeled random forest

這里值得一提的關(guān)于PU learning的最新一個(gè)發(fā)展是文獻(xiàn)Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework中提出的一種算法。

所提議的框架，稱為PURF（正無(wú)標(biāo)簽隨機(jī)森林），能夠從正面和未標(biāo)記實(shí)例中學(xué)習(xí)，通過(guò)并行計(jì)算根據(jù)UCI數(shù)據(jù)集上的實(shí)驗(yàn)，通過(guò)完全標(biāo)記數(shù)據(jù)訓(xùn)練的RF實(shí)現(xiàn)可比較的分類性能。該框架將包括廣泛使用的PU信息增益（PURF-IG）和新開(kāi)發(fā)的PU基尼指數(shù)（PURF-GI）的PU學(xué)習(xí)技術(shù)與可擴(kuò)展的并行計(jì)算算法（即RF）相結(jié)合。

并行化步驟：

1、創(chuàng)建t棵樹(shù)、4個(gè)進(jìn)程，每個(gè)進(jìn)程負(fù)責(zé)創(chuàng)建t/4棵決策樹(shù)，創(chuàng)建好的t/4棵決策樹(shù)以列表形式返回主進(jìn)程；

2、分別得到4個(gè)子進(jìn)程的決策樹(shù)列表后，將4個(gè)子列表整合到一個(gè)長(zhǎng)度為t的決策樹(shù)列表L；

3、創(chuàng)建4個(gè)分類進(jìn)程，將決策樹(shù)列表復(fù)制4份分別傳遞到4個(gè)分類進(jìn)程，同時(shí)將測(cè)試數(shù)據(jù)分成4份，[0,388]行為第1部分，[389,777]行為第2部分，[778,1166]行為第3部分，[1167,1558]行為第4部分，分別傳遞到4個(gè)分類子進(jìn)程；

4、第一個(gè)子進(jìn)程以列表的形式返回[0,388]行的分類結(jié)果，第二個(gè)子進(jìn)程以列表的形式返回[389,777]行的分類結(jié)果，第三個(gè)子進(jìn)程以列表的形式返回[778,1166]行的分類結(jié)果，第四個(gè)子進(jìn)程以列表的形式返回[1167,1558]行的分類結(jié)果。

5、分別得到4個(gè)子進(jìn)程的標(biāo)簽列表之后，將4個(gè)子列表整合到一個(gè)長(zhǎng)度為1559的結(jié)果標(biāo)簽列表。

2.5 參考代碼（介紹）

https://roywright.me/2017/11/16/positive-unlabeled-learning/（Positive-unlabeled learning）

https://github.com/phuijse/bagging_pu/blob/master/PU_Learning_simple_example.ipynb（PU_Learning_simple_example.ipynb）

https://github.com/roywright/pu_learning/blob/master/circles.ipynb（PU learning techniques applied to artificial data“circle”）

三、Estimating the Class Prior in Positive and Unlabeled Data through Decision Tree Induction（類先驗(yàn)）

論文通過(guò)決策樹(shù)歸納對(duì)數(shù)據(jù)子域概率給出下限，隨著標(biāo)記示例比率的增加，該下限更接近實(shí)際概率。論文方法的估計(jì)與現(xiàn)有技術(shù)方法的估計(jì)一樣準(zhǔn)確，并且速度提高了一個(gè)數(shù)量級(jí)。

3.1 應(yīng)用背景

1、醫(yī)療記錄通常只列出每個(gè)人的診斷疾病，而不是該人沒(méi)有的疾病，沒(méi)有診斷并不意味著患者沒(méi)有患病；

2、知識(shí)庫(kù)（KB）完成的任務(wù)本質(zhì)上也是一個(gè)積極且無(wú)標(biāo)簽的問(wèn)題，自動(dòng)構(gòu)造的KB只包含真實(shí)的事實(shí)，并不完整，未包括在KB中的事實(shí)的真值是未知的，但并不一定錯(cuò)誤；

3、文本分類也可通過(guò)正樣本和未標(biāo)記數(shù)據(jù)來(lái)表征，如對(duì)用戶的網(wǎng)頁(yè)首選項(xiàng)進(jìn)行分類可以將帶書(shū)簽的頁(yè)面用作正例，將所有其他頁(yè)面用作未標(biāo)記的頁(yè)面。

3.2 方法介紹

知道標(biāo)簽頻率c（為正樣本或副樣本）大大簡(jiǎn)化了PU學(xué)習(xí)。首先，可以訓(xùn)練概率分類器來(lái)預(yù)測(cè)Pr，并調(diào)整輸出概率；其次，使用相同的分類器對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行加權(quán)，然后對(duì)加權(quán)數(shù)據(jù)訓(xùn)練不同的分類器。第三，使用下列等式修改學(xué)習(xí)算法，如基于計(jì)數(shù)的算法——樹(shù)歸納和樸素貝葉斯，只考慮數(shù)據(jù)的屬性條件子集中正例和負(fù)例的數(shù)量。標(biāo)簽頻率可通過(guò)三種方式獲得：來(lái)自領(lǐng)域知識(shí)、通過(guò)從小的完全標(biāo)記數(shù)據(jù)集估計(jì)、直接根據(jù)PU數(shù)據(jù)估算。

論文提出了一種簡(jiǎn)單有效的方法估計(jì)類先驗(yàn)，該方法基于以下觀點(diǎn)：標(biāo)簽頻率預(yù)期在屬性的任何子域中相同，數(shù)據(jù)的子集自然地暗示標(biāo)簽頻率的下限。使用基于PU數(shù)據(jù)的決策樹(shù)歸納可以容易地找到可能的正子域。論文將以下先前估計(jì)方法進(jìn)行比較，使用了“完全隨機(jī)選擇”假設(shè)：EN（Elkan和Noto 2008），PE（du Plessis和Sugiyama 2014），pen-L1（du Plessis，Niu和Sugiyama 2015），KM1和KM2（Ramaswamy，Scott和Tewari 2016），AlphaMax（Jain等人2016）和AlphaMax N（Jain，White和Radivojac 2016）。與這些論文的作者一樣，本文對(duì)數(shù)據(jù)集二次抽樣，最多包含2000個(gè)示例，并重復(fù)該過(guò)程五次。

論文目標(biāo)是深入了解TIcE（Tree Induction for Label Frequency Estimation）的性能，用于c估計(jì)的樹(shù)誘導(dǎo)，估計(jì)來(lái)自PU數(shù)據(jù)的標(biāo)簽頻率。首先，檢查在實(shí)踐中是否最好采用下限的最大值或使用一個(gè)下限；其次，評(píng)估設(shè)置δ的方法；最后，將TIcE與其他類先驗(yàn)估計(jì)算法進(jìn)行比較。

該算法將數(shù)據(jù)集分成兩個(gè)獨(dú)立的集合，使用一組可能是正樣本的子域，并使用另一個(gè)集合通過(guò)最緊密下限來(lái)估計(jì)c在子域中的計(jì)算。尋找數(shù)據(jù)中純子集也是決策樹(shù)歸納的目標(biāo)，因此TIcE通過(guò)引入決策樹(shù)來(lái)尋找純標(biāo)記子集，將未標(biāo)記數(shù)據(jù)視為負(fù)數(shù)。

拆分標(biāo)準(zhǔn)決策樹(shù)歸納的目標(biāo)是找到純節(jié)點(diǎn)，使用陽(yáng)性比例（max-bepp）得分的最大偏差估計(jì)值，選擇給出具有最高bepp的子集的分裂：TP。

參考文獻(xiàn)

1-Learning from Positive and Unlabeled Examples with Different Data Distributions

2-Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework

3-Positive-Unlabeled Learning with Non-Negative Risk Estimator

4-Estimating Rule Quality for Knowledge Base Completion with the Relationship between Coverage Assumption

5-Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data

6-Learning From Positive and Unlabeled Data: A Survey

總結(jié)

以上是生活随笔為你收集整理的PU learning学习笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：基于XGBoost的PU-Learnin
下一篇：无偏PU learning简介