推理计算过程_转导推理—Transductive Learning
在統(tǒng)計(jì)學(xué)習(xí)中,轉(zhuǎn)導(dǎo)推理(Transductive Inference)是一種通過(guò)觀察特定的訓(xùn)練樣本,進(jìn)而預(yù)測(cè)特定的測(cè)試樣本的方法。另一方面,歸納推理(Induction Inference)先從訓(xùn)練樣本中學(xué)習(xí)得到通過(guò)的規(guī)則,再利用規(guī)則判斷測(cè)試樣本。然而有些轉(zhuǎn)導(dǎo)推理的預(yù)測(cè)無(wú)法由歸納推理獲得,這是因?yàn)檗D(zhuǎn)導(dǎo)推理在不同的測(cè)試集上會(huì)產(chǎn)生相互不一致的預(yù)測(cè),這也是最令轉(zhuǎn)導(dǎo)推理的學(xué)者感興趣的地方。
歸納推理中的一個(gè)經(jīng)典方法是貝葉斯決策,通過(guò)求解P(Y|X)=P(X|Y)P(Y)/P(X)得到從樣本X到類(lèi)別Y的概率分布P(Y|X),進(jìn)而使用P(Y|X)預(yù)測(cè)測(cè)試樣本的類(lèi)別。這一過(guò)程的缺點(diǎn)在于,在預(yù)測(cè)某一測(cè)試樣本的類(lèi)別之前,先要建立一個(gè)更通用的判別模型。那么是否能夠更直接判別測(cè)試樣本的類(lèi)別呢?一個(gè)辦法就是通過(guò)轉(zhuǎn)導(dǎo)推理。轉(zhuǎn)導(dǎo)推理由Vladimir Naumovich Vapnik(弗拉基米爾·萬(wàn)普尼克)于20世紀(jì)90年代最先提出,其目的就在于建立一個(gè)更適用于問(wèn)題域的模型,而非一個(gè)更通用的模型。這方面的經(jīng)典算法有最近鄰(K Nearest Neighbour)和支持向量機(jī)(Support Vector Machine)等。
特別是當(dāng)訓(xùn)練樣本非常少,而測(cè)試樣本非常多時(shí),使用歸納推理得到的類(lèi)別判別模型的性能很差,轉(zhuǎn)導(dǎo)推理能利用無(wú)標(biāo)注的測(cè)試樣本的信息發(fā)現(xiàn)聚簇,進(jìn)而更有效地分類(lèi)。而這正是只使用訓(xùn)練樣本推導(dǎo)模型的歸納推理所無(wú)法做到的。一些學(xué)者將這些方法歸類(lèi)于半監(jiān)督模型(Semi-Supervised Learning),但Vapnik認(rèn)為是轉(zhuǎn)導(dǎo)推理3。這方面的經(jīng)典算法有轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine)等。
轉(zhuǎn)導(dǎo)推理的產(chǎn)生的第三個(gè)動(dòng)機(jī)在于模型近似。在某些工程應(yīng)用中,嚴(yán)格的推導(dǎo)所產(chǎn)生的計(jì)算量可能是非常巨大的,工程人員希望找到某些近似模型能適應(yīng)他們所面臨的特定問(wèn)題,不需要適用于所有情況。
如下圖所示。判別模型的任務(wù)是預(yù)測(cè)未標(biāo)注數(shù)據(jù)點(diǎn)的類(lèi)別。歸納推理方法通過(guò)訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)模型來(lái)預(yù)測(cè)所有未標(biāo)注點(diǎn)的類(lèi)別。這樣,訓(xùn)練樣本中就只有5個(gè)點(diǎn)供以訓(xùn)練監(jiān)督學(xué)習(xí)模型。對(duì)于圖中較靠中心的某點(diǎn)(紅色圓圈),利用最近鄰算法就會(huì)將其標(biāo)記為A或C,但從所有數(shù)據(jù)組成的類(lèi)簇來(lái)看,此點(diǎn)應(yīng)標(biāo)為B。
圖1:少量標(biāo)注樣本時(shí),使用KNN算法預(yù)測(cè)樣本類(lèi)別。訓(xùn)練樣本是少量已經(jīng)標(biāo)注(A、B、C)的點(diǎn),而其它大部分的點(diǎn)都是未標(biāo)注的(記為?)。
轉(zhuǎn)導(dǎo)推理會(huì)利用所有點(diǎn)的信息進(jìn)行預(yù)測(cè),也就是說(shuō)轉(zhuǎn)導(dǎo)推理會(huì)根據(jù)數(shù)據(jù)所從屬的類(lèi)簇進(jìn)行類(lèi)別標(biāo)注。這樣中間紅色圈的點(diǎn)由于非常接近標(biāo)為B的點(diǎn)所從屬的類(lèi)簇,就會(huì)標(biāo)注為B。可以看出轉(zhuǎn)導(dǎo)推理的優(yōu)勢(shì)就在于其能通過(guò)少量的標(biāo)注樣本進(jìn)行預(yù)測(cè)。而其不足之處就在于其沒(méi)有預(yù)測(cè)模型。當(dāng)新未知點(diǎn)加入數(shù)據(jù)集時(shí),轉(zhuǎn)導(dǎo)推理可能需要與數(shù)據(jù)量成正比的計(jì)算來(lái)預(yù)測(cè)類(lèi)別,特別是當(dāng)新數(shù)據(jù)不斷地被獲取和加入時(shí),這種計(jì)算量的增長(zhǎng)顯得猶為突出,而且新數(shù)據(jù)的添加可能會(huì)造成舊數(shù)據(jù)類(lèi)別的改變(根據(jù)實(shí)際應(yīng)用的不同,可能是好的,也可能是壞的)。相反地,歸納推理由于有模型存在,在計(jì)算量上可能會(huì)優(yōu)于轉(zhuǎn)導(dǎo)推理(模型的更新可能增加計(jì)算量)。
文章的后面部分將以二分類(lèi)為例,先從較簡(jiǎn)單的情況開(kāi)始,即給定大量的標(biāo)注樣本,判斷測(cè)試樣本的類(lèi)別,討論最近鄰(k Nearest Neighbours,KNN)和支持向量機(jī)(Support Vector Machine,SVM)。接著就討論在給定少量標(biāo)注樣本和大量測(cè)試樣本的情況下,判斷測(cè)試樣本的方法,主要是轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine,TSVM)。
總結(jié)
以上是生活随笔為你收集整理的推理计算过程_转导推理—Transductive Learning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 鼻息肉手术多少钱啊?
- 下一篇: 便利vector_C++面试题之list