日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

PU learning学习笔记

發(fā)布時(shí)間:2024/1/23 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PU learning学习笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、背景介紹

現(xiàn)實(shí)生活許多例子只有正樣本和大量未標(biāo)記樣本,這是因?yàn)楂@取負(fù)類樣本較為困難、負(fù)類數(shù)據(jù)太過(guò)多樣化且動(dòng)態(tài)變化。比如在推薦系統(tǒng),用戶點(diǎn)擊為正樣本,卻不能因?yàn)橛脩魶](méi)有點(diǎn)擊就認(rèn)為它是負(fù)樣本,因?yàn)榭赡軜颖镜奈恢煤芷?#xff0c;導(dǎo)致用戶沒(méi)有點(diǎn)擊。

PU Learning(Positive-unlabeled learning)是半監(jiān)督學(xué)習(xí)的一個(gè)研究方向,指在只有正類和無(wú)標(biāo)記數(shù)據(jù)的情況下,訓(xùn)練二分類器,伊利諾伊大學(xué)芝加哥分校(UIC)的劉兵(Bing Liu)教授和日本理化研究所的杉山將(Masashi Sugiyama)實(shí)驗(yàn)室對(duì)PU Learning有較深的研究。

二、方法介紹

目前有兩種解決方法:

1、啟發(fā)式地從未標(biāo)注樣本里找到可靠的負(fù)樣本,以此訓(xùn)練二分類器,該方法問(wèn)題是分類效果嚴(yán)重依賴先驗(yàn)知識(shí)。

2、將未標(biāo)注樣本作為負(fù)樣本訓(xùn)練分類器,由于負(fù)樣本中含有正樣本,錯(cuò)誤的標(biāo)簽指定導(dǎo)致分類錯(cuò)誤。

2.1 直接利用標(biāo)準(zhǔn)分類方法

將正樣本和未標(biāo)記樣本分別看作是positive samples和negative samples, 然后利用這些數(shù)據(jù)訓(xùn)練一個(gè)標(biāo)準(zhǔn)分類器。分類器將為每個(gè)物品打一個(gè)分?jǐn)?shù)(概率值),通常正樣本分?jǐn)?shù)高于負(fù)樣本的分?jǐn)?shù),因此對(duì)于那些未標(biāo)記的物品,分?jǐn)?shù)較高的最有可能為positive。

這種樸素的方法在文獻(xiàn)Learning classifiers from only positive and unlabeled data中有介紹。論文核心結(jié)果是,在某些基本假設(shè)下,合理利用正例和未貼標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練得到的標(biāo)準(zhǔn)分類器應(yīng)該能夠給出與實(shí)際正確分?jǐn)?shù)成正比的分?jǐn)?shù)。

2.2 PU bagging

a)通過(guò)將所有正樣本和未標(biāo)記樣本進(jìn)行隨機(jī)組合來(lái)創(chuàng)建訓(xùn)練集;

b)利用這個(gè)“bootstrap”樣本來(lái)構(gòu)建分類器,分別將正樣本和未標(biāo)記樣本視為positive和negative;

c)將分類器應(yīng)用于不在訓(xùn)練集中的未標(biāo)記樣本 - OOB(“out of bag”)- 并記錄其分?jǐn)?shù);

d)重復(fù)上述三個(gè)步驟,最后為每個(gè)樣本的分?jǐn)?shù)為OOB分?jǐn)?shù)的平均值。

通過(guò)bagging的方法可以將所有未標(biāo)記樣本進(jìn)行分類(粗),增大了分類精度。描述這種方法的一篇論文是A bagging SVM to learn from positive and unlabeled examples。該方法優(yōu)于使用PU學(xué)習(xí)的最新方法的性能,特別是當(dāng)正例的數(shù)量有限并且未標(biāo)記的例子中的負(fù)片的比例小時(shí)。所提出的方法也可以比現(xiàn)有技術(shù)方法運(yùn)行得快得多,特別是當(dāng)未標(biāo)記的示例集很大時(shí)。

2.3 Two-step approaches

大部分的PU learning策略屬于“two-step approaches”。最近的一篇介紹這些方法的論文是?An Evaluation of Two-Step Techniques for Positive-Unlabeled Learning in Text Classification。

a)識(shí)別可以百分之百標(biāo)記為negative的未標(biāo)記樣本子集(“reliable negatives”);需要較大的人工標(biāo)注

b)使用正負(fù)樣本訓(xùn)練標(biāo)準(zhǔn)分類器并將其應(yīng)用于剩余的未標(biāo)記樣本。

2.4 Positive unlabeled random forest

這里值得一提的關(guān)于PU learning的最新一個(gè)發(fā)展是文獻(xiàn)Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework中提出的一種算法。

所提議的框架,稱為PURF(正無(wú)標(biāo)簽隨機(jī)森林),能夠從正面和未標(biāo)記實(shí)例中學(xué)習(xí),通過(guò)并行計(jì)算根據(jù)UCI數(shù)據(jù)集上的實(shí)驗(yàn),通過(guò)完全標(biāo)記數(shù)據(jù)訓(xùn)練的RF實(shí)現(xiàn)可比較的分類性能。該框架將包括廣泛使用的PU信息增益(PURF-IG)和新開(kāi)發(fā)的PU基尼指數(shù)(PURF-GI)的PU學(xué)習(xí)技術(shù)與可擴(kuò)展的并行計(jì)算算法(即RF)相結(jié)合。

并行化步驟:

1、創(chuàng)建t棵樹(shù)、4個(gè)進(jìn)程,每個(gè)進(jìn)程負(fù)責(zé)創(chuàng)建t/4棵決策樹(shù),創(chuàng)建好的t/4棵決策樹(shù)以列表形式返回主進(jìn)程;

2、分別得到4個(gè)子進(jìn)程的決策樹(shù)列表后,將4個(gè)子列表整合到一個(gè)長(zhǎng)度為t的決策樹(shù)列表L;

3、創(chuàng)建4個(gè)分類進(jìn)程,將決策樹(shù)列表復(fù)制4份分別傳遞到4個(gè)分類進(jìn)程,同時(shí)將測(cè)試數(shù)據(jù)分成4份,[0,388]行為第1部分,[389,777]行為第2部分,[778,1166]行為第3部分,[1167,1558]行為第4部分,分別傳遞到4個(gè)分類子進(jìn)程;

4、第一個(gè)子進(jìn)程以列表的形式返回[0,388]行的分類結(jié)果,第二個(gè)子進(jìn)程以列表的形式返回[389,777]行的分類結(jié)果,第三個(gè)子進(jìn)程以列表的形式返回[778,1166]行的分類結(jié)果,第四個(gè)子進(jìn)程以列表的形式返回[1167,1558]行的分類結(jié)果。

5、分別得到4個(gè)子進(jìn)程的標(biāo)簽列表之后,將4個(gè)子列表整合到一個(gè)長(zhǎng)度為1559的結(jié)果標(biāo)簽列表。

2.5 參考代碼(介紹)

https://roywright.me/2017/11/16/positive-unlabeled-learning/(Positive-unlabeled learning)

https://github.com/phuijse/bagging_pu/blob/master/PU_Learning_simple_example.ipynb(PU_Learning_simple_example.ipynb)

https://github.com/roywright/pu_learning/blob/master/circles.ipynb(PU learning techniques applied to artificial data“circle”)

三、Estimating the Class Prior in Positive and Unlabeled Data through Decision Tree Induction(類先驗(yàn))

論文通過(guò)決策樹(shù)歸納對(duì)數(shù)據(jù)子域概率給出下限,隨著標(biāo)記示例比率的增加,該下限更接近實(shí)際概率。論文方法的估計(jì)與現(xiàn)有技術(shù)方法的估計(jì)一樣準(zhǔn)確,并且速度提高了一個(gè)數(shù)量級(jí)。

3.1 應(yīng)用背景

1、醫(yī)療記錄通常只列出每個(gè)人的診斷疾病,而不是該人沒(méi)有的疾病,沒(méi)有診斷并不意味著患者沒(méi)有患病;

2、知識(shí)庫(kù)(KB)完成的任務(wù)本質(zhì)上也是一個(gè)積極且無(wú)標(biāo)簽的問(wèn)題,自動(dòng)構(gòu)造的KB只包含真實(shí)的事實(shí),并不完整,未包括在KB中的事實(shí)的真值是未知的,但并不一定錯(cuò)誤;

3、文本分類也可通過(guò)正樣本和未標(biāo)記數(shù)據(jù)來(lái)表征,如對(duì)用戶的網(wǎng)頁(yè)首選項(xiàng)進(jìn)行分類可以將帶書(shū)簽的頁(yè)面用作正例,將所有其他頁(yè)面用作未標(biāo)記的頁(yè)面。

3.2 方法介紹

知道標(biāo)簽頻率c(為正樣本或副樣本)大大簡(jiǎn)化了PU學(xué)習(xí)。首先,可以訓(xùn)練概率分類器來(lái)預(yù)測(cè)Pr,并調(diào)整輸出概率;其次,使用相同的分類器對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行加權(quán),然后對(duì)加權(quán)數(shù)據(jù)訓(xùn)練不同的分類器。第三,使用下列等式修改學(xué)習(xí)算法,如基于計(jì)數(shù)的算法——樹(shù)歸納和樸素貝葉斯,只考慮數(shù)據(jù)的屬性條件子集中正例和負(fù)例的數(shù)量。標(biāo)簽頻率可通過(guò)三種方式獲得:來(lái)自領(lǐng)域知識(shí)、通過(guò)從小的完全標(biāo)記數(shù)據(jù)集估計(jì)、直接根據(jù)PU數(shù)據(jù)估算。

論文提出了一種簡(jiǎn)單有效的方法估計(jì)類先驗(yàn),該方法基于以下觀點(diǎn):標(biāo)簽頻率預(yù)期在屬性的任何子域中相同,數(shù)據(jù)的子集自然地暗示標(biāo)簽頻率的下限。使用基于PU數(shù)據(jù)的決策樹(shù)歸納可以容易地找到可能的正子域。論文將以下先前估計(jì)方法進(jìn)行比較,使用了“完全隨機(jī)選擇”假設(shè):EN(Elkan和Noto 2008),PE(du Plessis和Sugiyama 2014),pen-L1(du Plessis,Niu和Sugiyama 2015),KM1和KM2(Ramaswamy,Scott和Tewari 2016),AlphaMax(Jain等人2016)和AlphaMax N(Jain,White和Radivojac 2016)。與這些論文的作者一樣,本文對(duì)數(shù)據(jù)集二次抽樣,最多包含2000個(gè)示例,并重復(fù)該過(guò)程五次。

論文目標(biāo)是深入了解TIcE(Tree Induction for Label Frequency Estimation)的性能,用于c估計(jì)的樹(shù)誘導(dǎo),估計(jì)來(lái)自PU數(shù)據(jù)的標(biāo)簽頻率。首先,檢查在實(shí)踐中是否最好采用下限的最大值或使用一個(gè)下限;其次,評(píng)估設(shè)置δ的方法;最后,將TIcE與其他類先驗(yàn)估計(jì)算法進(jìn)行比較。

該算法將數(shù)據(jù)集分成兩個(gè)獨(dú)立的集合,使用一組可能是正樣本的子域,并使用另一個(gè)集合通過(guò)最緊密下限來(lái)估計(jì)c在子域中的計(jì)算。尋找數(shù)據(jù)中純子集也是決策樹(shù)歸納的目標(biāo),因此TIcE通過(guò)引入決策樹(shù)來(lái)尋找純標(biāo)記子集,將未標(biāo)記數(shù)據(jù)視為負(fù)數(shù)。

拆分標(biāo)準(zhǔn)決策樹(shù)歸納的目標(biāo)是找到純節(jié)點(diǎn),使用陽(yáng)性比例(max-bepp)得分的最大偏差估計(jì)值,選擇給出具有最高bepp的子集的分裂:TP。

參考文獻(xiàn)

1-Learning from Positive and Unlabeled Examples with Different Data Distributions

2-Towards Positive Unlabeled Learning for Parallel Data Mining: A Random Forest Framework

3-Positive-Unlabeled Learning with Non-Negative Risk Estimator

4-Estimating Rule Quality for Knowledge Base Completion with the Relationship between Coverage Assumption

5-Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data

6-Learning From Positive and Unlabeled Data: A Survey

總結(jié)

以上是生活随笔為你收集整理的PU learning学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。