大数据聚类分析用于预测_多模态数据中的非负矩阵分解用于分割和标签预测
引用
Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.
摘要
隨著 Internet 上帶注釋的多媒體數(shù)據(jù)的可用性不斷提高,要求有一種技術(shù)可以實現(xiàn)不同類型數(shù)據(jù)的原則性聯(lián)合處理。多視圖學(xué)習(xí)和多視圖聚類試圖以同時的方式識別不同特征空間中的潛在成分。所得的基向量或質(zhì)心忠實地代表數(shù)據(jù)上的不同視圖,但是隱式耦合,并且它們是聯(lián)合估計的。這為諸如標(biāo)簽預(yù)測,圖像檢索或語義分組之類的問題開辟了新途徑。本文提出了一種用于多視圖聚類的新模型,該模型將傳統(tǒng)的非負(fù)矩陣分解擴(kuò)展到不同數(shù)據(jù)矩陣的聯(lián)合分解。因此,該技術(shù)為圖像部分和屬性的聯(lián)合處理提供了一種新方法。圖像分割和圖像特征與圖像標(biāo)簽的多視圖聚類的首次實驗顯示出令人鼓舞的結(jié)果,并表明該方法為不同抽象級別的圖像分析提供了一個通用框架。
1 動機和背景
社交網(wǎng)絡(luò)的興起和用戶生成的內(nèi)容運動已將 Internet 變成了一個幾乎無限的,帶有注釋和評級的多媒體數(shù)據(jù)的存儲庫。例如,截至撰寫本文時,flickr 上提供了超過 45 億張圖像,其中大多數(shù)由社區(qū)進(jìn)行了標(biāo)記,評級,分類和評估。這種發(fā)展為圖像理解的研究提供了巨大的可能性,但同時也要求允許對不同類型的數(shù)據(jù)進(jìn)行綜合處理的方法。
我們的目標(biāo)是對圖像特征和圖像標(biāo)簽進(jìn)行原則上的聯(lián)合處理。我們提出了一種用于多視圖聚類的新技術(shù),該技術(shù)可以同時確定不同特征空間中的潛在維數(shù)或質(zhì)心向量。與諸如將不同類型的特征串聯(lián)到單個描述符中的臨時方法相反,多視圖聚類忠實于不同描述符的不同特征。由于潛在分量或質(zhì)心是聯(lián)合估計的,因此多視圖技術(shù)可進(jìn)行高級推理。由于對于一個特征空間中的每個質(zhì)心,在另一個空間中都有一個對應(yīng)的質(zhì)心,因此不同視圖之間的轉(zhuǎn)換非常簡單。這為分割、自動圖像標(biāo)記或基于標(biāo)簽的圖像檢索提供了新的方法。
盡管它們具有悠久而古老的傳統(tǒng),但人們對多視圖學(xué)習(xí)和多視圖群集有了新的興趣。可以同時發(fā)現(xiàn)不同空間中潛在成分的方法的典型示例是 Hotelling 的典型相關(guān)分析(CCA),該方法最近已經(jīng)提出了核化和概率擴(kuò)展。其他最近的發(fā)展考慮了將頻譜聚類擴(kuò)展到編碼不同類型相似性的多個圖。
我們的多視圖聚類新方法將非負(fù)矩陣分解(NMF)擴(kuò)展到幾個數(shù)據(jù)矩陣的聯(lián)合分解。它是出于以下注意事項:
1)與主成分分析(PCA)或奇異值分解(SVD)相似,CCA 不一定對諸如顏色直方圖或項頻率向量之類的純非負(fù)數(shù)據(jù)具有合理性。但是,非負(fù)矩陣分解通常會產(chǎn)生可被視為基于零件的表示并適應(yīng)人類感知的結(jié)果。
2)基于相似度矩陣的光譜聚類的方法隨數(shù)據(jù)數(shù)量呈二次方縮放,因此在現(xiàn)代的大規(guī)模數(shù)據(jù)和圖像分析問題中是禁止的。
3)另一方面,對于 NMF,存在有效的算法,該算法可將數(shù)十億個條目的矩陣分解,這可能適用于多視圖設(shè)置。
在下一部分中,我們闡明矩陣分解和聚類之間的關(guān)系。然后,在第 3 節(jié)中,我們根據(jù)研究現(xiàn)狀簡要回顧了 NMF,并將這種方法擴(kuò)展到不同數(shù)據(jù)矩陣的聯(lián)合分解。在第 4 節(jié)中,我們介紹了在圖像分割,標(biāo)簽預(yù)測和圖像檢索中使用多視圖 NMF 的實驗。
2 矩陣降階和聚類
在本節(jié)中,我們簡要回顧一下矩陣秩降低如何應(yīng)用于聚類或矢量量化問題。
3 用于多視圖聚類的 NMF
在本節(jié)中,我們首先總結(jié)非負(fù)矩陣分解(NMF),然后介紹我們對多視圖聚類的 NMF 推廣。
3.1 通過 NMF 分解數(shù)據(jù)
正交基向量(例如由 PCA 或 SVD 確定)并非始終是降維或聚類的最佳選擇。特別是,僅由非負(fù)測量組成的數(shù)據(jù)在投影到由其主要特征向量跨越的低維子空間后,不能保證保持非負(fù)。作為對某些數(shù)據(jù)的非負(fù)性質(zhì)正確的替代方案,Lee 和 Seung 推廣了非負(fù)矩陣分解的概念。在計算機視覺中,圖像數(shù)據(jù)通常由非負(fù)值組成,觀察到 NMF 在分割,特征提取,運動或姿勢估計方面可產(chǎn)生優(yōu)異的結(jié)果。
NMF 被視為約束最小二乘優(yōu)化問題,足以解決
盡管(8)在 W 或 H 中都是凸的,但(8)中的基矢量和系數(shù)的同時估計不允許采用封閉形式的解,并且已知存在許多局部最小值。可證明存在一個唯一的最優(yōu)值,但是迄今為止尚無法確定能找到它的算法。
3.2 通過 NMF 同時分解多視圖數(shù)據(jù)
本文提出的工作背后的主要動機是對可提供不同類型數(shù)據(jù)的實體進(jìn)行聚類。例如,可以通過不同的抽象圖像特征來表征從 flickr 檢索到的圖像,但同時存在用戶生成的描述其內(nèi)容或形式的標(biāo)記或標(biāo)簽。我們假設(shè)同時對數(shù)據(jù)的這些不同視圖進(jìn)行聚類將產(chǎn)生更有意義的聚類,并可能提供一種工具來填充丟失的信息。特別地,圖像特征和圖像標(biāo)簽的多視圖聚類可以提供一種方法,該方法在給定圖像的情況下預(yù)測一組標(biāo)簽或在給定一組查詢標(biāo)簽的情況下從數(shù)據(jù)庫檢索相關(guān)圖像。
假設(shè)有一組 n 個不同的圖像,它的特征可以是 m _ n 個圖像特征矩陣 X 以及 l _ n 個逐個圖像矩陣 Y。我們的基本思想是為圖像和文本特征分別找到合適的基數(shù) W 和 V,它們通過一個公共系數(shù)矩陣 H 隱式耦合。換句話說,我們的目標(biāo)是找到兩個低秩近似。
我們的解決方案是將此思想形式化為兩個受約束的最小二乘問題的凸組合。
其中 是用戶指定的常數(shù),它允許表達(dá)兩種要素類型中任一種的偏好。就像(8)中的原始 NMF 問題一樣,(11)中的擴(kuò)展問題也不允許采用封閉形式的解決方案。因此,我們使 Lee 和 Seung 型不動點迭代適合于我們的情況。對于基向量 W 和 V 的矩陣,更新規(guī)則立即執(zhí)行并讀取:
由于系數(shù)矩陣 H 現(xiàn)在耦合兩個基數(shù),因此其更新要稍微多一些。系數(shù)的定點迭代的簡化版本為:
3.3 討論
我們在(11)中選擇單個優(yōu)化問題的凸組合并不是一個任意決定。非負(fù)矩陣分解與概率潛在語義分析之間存在著密切的聯(lián)系。假設(shè)適當(dāng)?shù)臍w一化,NMF 可以理解為學(xué)習(xí)聯(lián)合概率分布的參數(shù),該參數(shù)表示為邊際分布的乘積。通過選擇兩個 NMF 問題的凸組合,可以將此類推到學(xué)習(xí)分布分布的水平。這類似于潛在的 Dirichlet 分配,但我們將對未來的工作留下可能的影響。
我們注意到,通過設(shè)置,我們的模型及其更新會減少為 NMF 的原始形式。此外,該模型不限于兩種不同類型的視圖。它對 p 個不同視圖的凸組合的擴(kuò)展很簡單:
最后,與所有交替最小二乘方案一樣,可以保證多視圖 NMF 的擴(kuò)展更新算法的收斂性。我們省略了形式證明,但略述了論點:給定 H,(12)中的任何更新都不會增加(11)中的任何一項;給定 W 和 V,(13)中的更新不能增加(11)中的表達(dá)式。
4 實驗
在以下小節(jié)中,我們介紹了通過使用多視圖 NMF 進(jìn)行圖像分割,標(biāo)簽預(yù)測和圖像檢索獲得的第一個實驗結(jié)果。請注意,到目前為止,這些都是旨在驗證該方法的初步實驗。我們目前正在進(jìn)行擴(kuò)展的實驗評估,以將所提出的方法與文獻(xiàn)中的其他方法進(jìn)行比較。
4.1 通過聯(lián)合非負(fù)矩陣分解進(jìn)行圖像分割
在第一個系列實驗中,我們將同時 NMF 應(yīng)用于圖像分割問題。我們考慮從 flickr 下載的自然場景的彩色圖像。由于其所謂的感知均勻性,我們將 RGB 像素值轉(zhuǎn)換為 LUV 色彩空間,這確保了色彩空間中等距的顏色在感知上也將等距。
為了將圖像分割成均勻區(qū)域,我們從每個圖像中采樣了 1000 個像素,并建立了兩個特征矩陣,一個包含 1000 個顏色信息的三維列向量,另一個包含 1000 個包含像素坐標(biāo)的二維列向量。這樣,我們將顏色與位置分開,并同時運行 NMF,以獲得通過公共系數(shù) H 耦合的各個空間中的質(zhì)心向量 W 和 V。
我們進(jìn)行了幾個實驗,其中我們改變了質(zhì)心的數(shù)量 k = {4,10,20},加權(quán)參數(shù)= {0.1,0.5,0.9}。當(dāng)較大時,對像素的顏色描述符給予更大的權(quán)重,而當(dāng)較小時,對像素的位置給予更大的權(quán)重。在隨機初始化為從高斯分布采樣的正值之后,我們對矩陣 W,V 和 H 運行更新規(guī)則,直到收斂,但最多進(jìn)行 100 次。
給定訓(xùn)練階段的結(jié)果,這些實驗中的測試階段包括將圖像的每個像素 x 分配給 k 個生成的聚類質(zhì)心之一。給定 W 和 V,我們求解的系數(shù) h,且聚類索引 c 根據(jù)
圖 1
4.2 通過圖像和文本特征的聯(lián)合分解來進(jìn)行標(biāo)簽預(yù)測和圖像檢索
該系列實驗旨在探索多視圖 NMF 是否能夠填充丟失的信息。我們考慮了從 flickr 的“最有趣”類別中檢索到的一組自然圖像訓(xùn)練。這組訓(xùn)練圖像包含 10 個不同類別的動機(云,月光,海灘,輪船,橋梁,山脈,森林,城市,教堂,城堡),我們考慮每個類別 300 張圖像。
在這些實驗中,使用局部自相似(SSIM)特征提取方案計算特征向量。然后將特征向量聚類為 k = 750 個視覺單詞的視覺詞匯。對于數(shù)據(jù)集中的每個圖像,將創(chuàng)建此詞匯表的直方圖。接下來,將數(shù)據(jù)集中所有圖像的各個直方圖收集在圖像特征矩陣中。
4.2.1 標(biāo)簽預(yù)測
圖 2
4.2.2 圖像檢索
給定 x,我們搜索最小的訓(xùn)練數(shù)據(jù)矩陣 X 的列向量 xi。表 2 中顯示了與以下單詞相對應(yīng)的四個最相似的圖像。
表 1
5 結(jié)論與未來工作
本文介紹的工作旨在對圖像進(jìn)行分析,并為其提供更多信息。我們引入了一種用于多視圖聚類的新模型,該模型將非負(fù)矩陣分解(NMF)的思想擴(kuò)展到對不同類型特征的聯(lián)合分析中。我們將多視圖 NMF 轉(zhuǎn)換為單個優(yōu)化問題的凸組合,并在這種情況下對 NMF 采用眾所周知的乘法定點算法。該方法避免了不同類型特征的臨時組合,因此忠實于不同描述符的性質(zhì)。我們的多視圖 NMF 公式中的各個優(yōu)化問題是通過一個公共系數(shù)矩陣耦合的。由于這種耦合,所得的基矢量或聚類質(zhì)心允許從另一類型的描述符(例如圖像特征)推斷出一種類型的描述符(例如圖像標(biāo)簽)。
在初步實驗中,我們驗證了該方法在圖像分割,標(biāo)簽預(yù)測和基于標(biāo)簽的圖像檢索中的適用性。我們的第一個結(jié)果表明,多視圖聚類可以提供適用于不同抽象級別的圖像分析框架,可以通過以多視圖方法提供的主要方式組合像素顏色和位置信息來識別圖像部分。使用我們的框架可以將顏色直方圖和按圖像的文本向量等各種信息耦合在一起,我們發(fā)現(xiàn)它能夠根據(jù)可用數(shù)據(jù)預(yù)測丟失的信息。
目前,我們正在進(jìn)行更廣泛的實驗,以提供更定量的分析,并將擬議的方法與其他多視圖方法(如(內(nèi)核化)規(guī)范成分分析)進(jìn)行比較。與現(xiàn)有的相關(guān)方法相比,我們期望多視圖 NMF 的高效實現(xiàn)是可能的。為此,我們目前在模型中采用了凸包 NMF 等技術(shù)。我們還將進(jìn)一步探討多視圖 NMF 與 LDA 的關(guān)系,以及它是否為層次化潛在主題模型提供替代方法。最后,我們設(shè)想了該方法的進(jìn)一步應(yīng)用,例如在高光譜成像領(lǐng)域。
致謝
本文由南京大學(xué)軟件學(xué)院 2020 級碩士生劉子夕翻譯轉(zhuǎn)述
總結(jié)
以上是生活随笔為你收集整理的大数据聚类分析用于预测_多模态数据中的非负矩阵分解用于分割和标签预测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为畅玩5刷机不用电脑连接(华为畅玩5怎
- 下一篇: go 监测tcp 连接断开_TCP三次握