神经网络如何处理测试阶段出现的新特征?面向开放环境特征外推的图学习解决方案...
?作者 |?吳齊天
單位?|?上海交通大學(xué)
研究方向 |?圖神經(jīng)網(wǎng)絡(luò)
本文介紹被NeurIPS 2021接收的新工作。我們對(duì)一個(gè)全新的問題在通用的設(shè)定下進(jìn)行了探索,相關(guān)問題定義和方法適用于諸多具體應(yīng)用。論文和代碼鏈接在文末提供。
論文標(biāo)題:
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach
作者信息:
Qitian Wu, Chenxiao Yang, Junchi Yan (Shanghai Jiao Tong University)
關(guān)鍵詞:
圖神經(jīng)網(wǎng)絡(luò)、特征表示學(xué)習(xí)、分布外泛化
論文鏈接:
https://proceedings.neurips.cc/paper/2021/file/a1c5aff9679455a233086e26b72b9a06-Paper.pdf
代碼鏈接:
htthttps://github.com/qitianwu/FATE
動(dòng)機(jī):特征外推問題的定義與重要性
目前的大多數(shù)機(jī)器學(xué)習(xí)任務(wù),通常假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)共享一個(gè)特征空間。然而在實(shí)際場(chǎng)景中,訓(xùn)練好的模型通常需要與一個(gè)開放環(huán)境進(jìn)行交互,測(cè)試集中就會(huì)出現(xiàn)新的特征。例如推薦系統(tǒng)中利用用戶的年齡、職業(yè)等特征訓(xùn)練好了一個(gè)推薦模型,后來公司新發(fā)布了某個(gè)應(yīng)用,收集到了新的用戶數(shù)據(jù),這就需要用新的用戶特征進(jìn)行決策。
下圖給出了一個(gè)直觀的說明,我們考慮訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的特征維度不一致(后者是前者的擴(kuò)張),在這種情況下如果我們把訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)直接遷移到測(cè)試集,由于對(duì)應(yīng)新特征維度的神經(jīng)元未經(jīng)過訓(xùn)練,網(wǎng)絡(luò)的測(cè)試性能就會(huì)大大下降,而重新在包含新特征的數(shù)據(jù)集上訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)又需要耗費(fèi)大量的計(jì)算資源。本篇論文中,我們提出了一種新的學(xué)習(xí)方法,基于特征與樣本之間的關(guān)系所形成的圖結(jié)構(gòu),利用已知的特征表示(embedding)來外推新特征的表示,模型無需重新訓(xùn)練就能泛化到包含新特征的數(shù)據(jù)上。
我們把第個(gè)數(shù)據(jù)樣本表示為,其中表示第個(gè)特征的one-hot表示向量(離散特征的常見表示形式,連續(xù)特征可先做離散化再表示成one-hot向量),這里共有個(gè)特征。下面為開放世界特征外推問題(open-world feature extrapolation)給出數(shù)學(xué)定義:
給定訓(xùn)練數(shù)據(jù)其中, ,我們需要訓(xùn)練一個(gè)分類器使得它能夠泛化到測(cè)試數(shù)據(jù)其中, 。注意到,這里我們假設(shè):1)訓(xùn)練集特征空間包含于測(cè)試集特征空間,即;2)訓(xùn)練集與測(cè)試集共享同一個(gè)輸出空間。
重要觀察
直接解決上述問題是很困難的,因?yàn)橛?xùn)練階段對(duì)測(cè)試數(shù)據(jù)中額外增加的特征信息一無所知(包括特征的數(shù)目和分布都不可見)。不過我們有兩點(diǎn)重要觀察,可以引導(dǎo)我們給出一個(gè)合理的解決方案。
首先,神經(jīng)網(wǎng)絡(luò)分類器可以分解為兩個(gè)級(jí)聯(lián)的子模塊,分別是特征embedding層和classifier層(如下圖(a)所示)。這里的embedding層可以視為一個(gè)特征embedding字典,每一行是一個(gè)特征的embedding,它對(duì)輸入向量中每一個(gè)非0的特征查找出相應(yīng)的embedding,而后對(duì)所有返回的特征embedding做一個(gè)sum pooling聚合,得到中間層的hidden vector,用于接下來classifier層的前饋計(jì)算。這里的sum pooling操作對(duì)于特征維度是置換不變(permutation-invariant)的。所謂置換不變性,就是指當(dāng)交換輸入各元素的位置,輸出保持不變。
其次,如果我們把所有輸入的數(shù)據(jù)(比如訓(xùn)練樣本)堆疊起來,形成一個(gè)矩陣(維度為樣本數(shù)特征數(shù)),它定義了一個(gè)樣本-特征的二分圖。圖中每個(gè)樣本與每個(gè)特征都是節(jié)點(diǎn),連邊是樣本對(duì)特征的隸屬關(guān)系(即該樣本是否包含該特征)。
聯(lián)合以上兩點(diǎn)我們可以發(fā)現(xiàn),如果我們把所有輸入數(shù)據(jù)(或一個(gè)batch的數(shù)據(jù))視為一張圖,再輸入神經(jīng)網(wǎng)絡(luò),由于網(wǎng)絡(luò)embedding層的置換不變性,不論輸入的圖包含多少特征節(jié)點(diǎn),網(wǎng)絡(luò)都能靈活處理。這就說明我們能夠適當(dāng)改造神經(jīng)網(wǎng)絡(luò),使它能夠處理特征空間的擴(kuò)張。
方法
下面介紹本文提出的用于特征外推的模型框架(下圖顯示了模型的前饋過程)。整個(gè)模型框架包含輸入的數(shù)據(jù)表示,一個(gè)high-level圖神經(jīng)網(wǎng)絡(luò)(GNN)模型,和一個(gè)low-level的backbone模型。GNN模型用于在樣本-特征二分圖上進(jìn)行消息傳遞,通過抽象的信息聚合來推斷新特征的embedding。這一過程模擬了人腦的思考過程,即從熟悉的知識(shí)概念外推出對(duì)新概念的理解。backbone模型就是一個(gè)普通的分類器,不過embedding層的參數(shù)將由GNN模型的輸出替代。
下圖是針對(duì)上述模型提出的兩種訓(xùn)練策略。圖(a)中我們采用self-supervised訓(xùn)練,每次將部分特征mask,然后利用其他特征來推斷mask的特征。圖(b)中我們采用inductive訓(xùn)練方式,每次采樣一部分訓(xùn)練集的特征,只利用這部分特征來給出預(yù)測(cè)結(jié)果。此外,GNN和backbone采用異步更新,即每k輪更新backbone后再更新一次GNN。
理論分析
我們對(duì)提出的訓(xùn)練方法做了一番理論分析,主要考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)損失(即部分觀測(cè)集上的模型預(yù)測(cè)誤差)與期望風(fēng)險(xiǎn)損失(即整體數(shù)據(jù)分布上的模型預(yù)測(cè)誤差)關(guān)于算法隨機(jī)性的期望差值。這一差值的上界可以由以下定理給出,結(jié)論就是泛化誤差上界主要與輸入特征維度以及采樣算法可能產(chǎn)生的特征組合數(shù)目有關(guān)。
實(shí)驗(yàn)結(jié)果
在多/二分類數(shù)據(jù)集上,我們考慮如下評(píng)測(cè)準(zhǔn)則:隨機(jī)將數(shù)據(jù)樣本劃分為6:2:2的train/val/test集,再隨機(jī)從所有特征中選出部分觀測(cè)特征;模型在只有觀測(cè)特征的訓(xùn)練數(shù)據(jù)上訓(xùn)練,在具有所有特征的測(cè)試數(shù)據(jù)上計(jì)算accuracy(多分類)或ROC-AUC(二分類)。
對(duì)比以下方法:1)Base-NN只用觀測(cè)特征訓(xùn)練和測(cè)試;2)Oracle-NN:使用全部特征訓(xùn)練和測(cè)試;3)Average-NN/KNN-NN/Pooling-NN:使用average pooling聚合所有特征embedding/KNN聚合相近特征embedding/不含參數(shù)的mean pooling GCN聚合相鄰特征embedding來推斷新特征的embedding;4)INL-NN先在僅有觀測(cè)特征的訓(xùn)練數(shù)據(jù)上訓(xùn)練到飽和再在新特征上局部更新。在6個(gè)小數(shù)據(jù)集上,考慮不同的觀測(cè)特征比例(從30%到80%),對(duì)比結(jié)果如下(圖中FATE為本文提出的方法)。
此外,我們還在大規(guī)模廣告數(shù)據(jù)集(百萬級(jí)樣本和特征)開展了實(shí)驗(yàn)。這里我們采用動(dòng)態(tài)時(shí)間劃分:將所有樣本按時(shí)間先后排序,再分為10份,取第一份為訓(xùn)練數(shù)據(jù),第二份作為驗(yàn)證集,第三到第十份作為測(cè)試集。這樣的劃分方式天然的在測(cè)試集中引入了訓(xùn)練集中未出現(xiàn)的新特征,新舊特征的比例接近1:1。我們分別以DNN和DeepFM作為backbone模型,使用ROC-AUC作為評(píng)測(cè)指標(biāo),結(jié)果如下。我們的方法能夠取得最優(yōu)的預(yù)測(cè)性能。
更多實(shí)驗(yàn)結(jié)果,例如可擴(kuò)展性測(cè)試(模型的訓(xùn)練計(jì)算時(shí)間和顯存消耗相對(duì)于特征數(shù)和樣本batch size都呈現(xiàn)線性增長(zhǎng)趨勢(shì))、消融實(shí)驗(yàn)、特征可視化結(jié)果請(qǐng)參見我們的論文。
更多解釋:為什么圖學(xué)習(xí)可以幫助解決外推問題
事實(shí)上,當(dāng)我們利用輸入數(shù)據(jù)將樣本與特征表示在一張圖上后,通過圖結(jié)構(gòu)我們就能得到樣本-特征以及特征-特征之間的關(guān)系。這里特征-特征的關(guān)系由樣本作為中間節(jié)點(diǎn),也就是圖上的二階相鄰信息給出?;诖?#xff0c;圖的建立為我們提供了天然的已觀測(cè)特征與未觀測(cè)特征的聯(lián)系。當(dāng)模型完成訓(xùn)練后,我們可以得到已觀測(cè)特征的表示embedding,而后對(duì)于在測(cè)試階段引入的新特征,我們就可以利用圖結(jié)構(gòu)做信息傳遞,把已觀測(cè)特征的embedding信息通過圖神經(jīng)網(wǎng)絡(luò)計(jì)算新特征的embedding,從而實(shí)現(xiàn)特征的外推。
未來展望與總結(jié)
我們工作的最大貢獻(xiàn)在于定義了一個(gè)全新的問題框架,即特征空間的外推問題,并且說明了神經(jīng)網(wǎng)絡(luò)模型可以勝任此類任務(wù),解決測(cè)試階段新出現(xiàn)的特征。由于本文的重點(diǎn)在于探索一個(gè)新的方向,我們采用了較為通用的設(shè)定,未來可以對(duì)本文的研究問題做進(jìn)一步的拓展,包括但不限于考慮:1)持續(xù)學(xué)習(xí)(Continual Learning)中不斷到來的新特征;2)多模態(tài)學(xué)習(xí)(Multi-Modal Learning)或多視角學(xué)習(xí)(Multi-View Learning)中融合多方數(shù)據(jù)的表示;3)聯(lián)邦學(xué)習(xí)(Federated Learning)中中心服務(wù)器需要處理分布式節(jié)點(diǎn)的新特征。此外,本文研究的問題和解決思路也可以被應(yīng)用到諸多其他領(lǐng)域和場(chǎng)景。歡迎討論,請(qǐng)發(fā)郵件至 echo740@sjtu.edu.cn
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的神经网络如何处理测试阶段出现的新特征?面向开放环境特征外推的图学习解决方案...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北京内推 | 微软亚洲研究院机器学习组招
- 下一篇: NeurIPS 2021 | 通过寻找平