关于联邦学习What、How、Who的灵魂三问
最近沉迷于學(xué)習(xí)政治經(jīng)濟(jì)學(xué)無(wú)法自拔,聽了很多資本論相關(guān)的課程。今天也嘗試通過(guò)what how who的方式介紹下聯(lián)邦學(xué)習(xí),
(感謝這個(gè)領(lǐng)域的專家,老同學(xué)Dr Liu給我的輸入)
靈魂三問(wèn)指的是:
1.聯(lián)邦學(xué)習(xí)解決了什么問(wèn)題
2.聯(lián)邦學(xué)習(xí)怎么解決的問(wèn)題
3.具備什么樣條件可以實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)商業(yè)化
聯(lián)邦學(xué)習(xí)解決了什么問(wèn)題?
聯(lián)邦學(xué)習(xí)最早是Google在差不多兩年前提出的,當(dāng)時(shí)我還興奮地發(fā)了一個(gè)文章講聯(lián)邦學(xué)習(xí)。Google定義了聯(lián)邦學(xué)習(xí)的概念,是通過(guò)多個(gè)終端聯(lián)合建模,實(shí)現(xiàn)一個(gè)完整的強(qiáng)大的模型。
Google提出聯(lián)邦學(xué)習(xí)后呢,這個(gè)方向一直不溫不火,因?yàn)榉路鹇?lián)邦學(xué)習(xí)解決的是不同終端間分布式建模的問(wèn)題,把聯(lián)邦學(xué)習(xí)看作一種框架性的問(wèn)題。
?
但是最近,國(guó)內(nèi)一些公司開始逐步實(shí)現(xiàn)了聯(lián)邦學(xué)習(xí)的商業(yè)化,甚至有類似于FATE這樣的聯(lián)邦學(xué)習(xí)開源框架產(chǎn)生。我個(gè)人認(rèn)為,聯(lián)邦學(xué)習(xí)之所以能在商業(yè)化場(chǎng)景找到突破口,是因?yàn)橐恍┕境晒Φ闹匦露x了聯(lián)邦學(xué)習(xí)解決的問(wèn)題。
今天在機(jī)器學(xué)習(xí)領(lǐng)域,框架性的問(wèn)題有很多解決方案,但是數(shù)據(jù)的共享問(wèn)題一直沒(méi)有好的答案。聯(lián)邦學(xué)習(xí)被重新定義為解決數(shù)據(jù)共享的一種方案,用來(lái)解決數(shù)據(jù)孤島問(wèn)題。
之前在寫《機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用》的時(shí)候我做過(guò)一個(gè)調(diào)研,這個(gè)世界上92%以上的數(shù)據(jù)會(huì)保留到少數(shù)10家互聯(lián)網(wǎng)巨頭的數(shù)據(jù)庫(kù)里。也就是說(shuō),普通的企業(yè)如果想做模型的訓(xùn)練,數(shù)據(jù)樣本不足是一個(gè)很大的問(wèn)題,而且數(shù)據(jù)交互在業(yè)內(nèi)基本上是禁區(qū)。
所以,如果將聯(lián)邦學(xué)習(xí)重新定位為解決數(shù)據(jù)孤島問(wèn)題,在商業(yè)化方面的機(jī)會(huì)點(diǎn)會(huì)遠(yuǎn)比解決一些技術(shù)框架性問(wèn)題的機(jī)會(huì)大得多。
聯(lián)邦學(xué)習(xí)如何解決數(shù)據(jù)孤島問(wèn)題?
首先大家要知道一個(gè)概念,機(jī)器學(xué)習(xí)模型可以簡(jiǎn)單理解是一組權(quán)重值,在做模型訓(xùn)練的時(shí)候的本質(zhì)目的是找到這些權(quán)重值發(fā)展的合理方向,類似于求導(dǎo)。這種方向性可以通過(guò)梯度表示,聯(lián)邦學(xué)習(xí)就是利用了梯度的交換實(shí)現(xiàn)了不同終端的聯(lián)合建模。
如上圖講的,公司A和B,雖然不能交換數(shù)據(jù)共同建模,但是他們可以把各自模型訓(xùn)練過(guò)程中的梯度做交換,因?yàn)樘荻仍陔x開數(shù)據(jù)之后是沒(méi)有實(shí)際意義的,也不會(huì)有監(jiān)管和法律風(fēng)險(xiǎn)。
所以聯(lián)邦學(xué)習(xí)將模型訓(xùn)練抽象成了利用多個(gè)模型間的模型的共享梯度進(jìn)行建模,這就將聯(lián)邦學(xué)習(xí)轉(zhuǎn)換成了遷移學(xué)習(xí),遷移學(xué)習(xí)接下來(lái)的技術(shù)手段就很成熟了。
于是,聯(lián)邦學(xué)習(xí)的技術(shù)難點(diǎn)并不在通過(guò)得到的梯度去優(yōu)化模型,因?yàn)檫@一部分的技術(shù)很成熟。聯(lián)邦學(xué)習(xí)的難點(diǎn)在于如何做到各個(gè)公司間的梯度共享,因?yàn)檫@里面涉及到許多加密傳輸相關(guān)的問(wèn)題,是信息編碼理論的范疇。編碼有很多方式,最簡(jiǎn)單的可能就是哈希一下再傳輸(這部分沒(méi)研究過(guò),雖然我本科是通信與信息專業(yè)畢業(yè))~
?
總結(jié)下,聯(lián)邦學(xué)習(xí)解決問(wèn)題的技術(shù)手段就是在遷移學(xué)習(xí)的基礎(chǔ)上加上信息編碼技術(shù)。這里面涉及到相當(dāng)多的細(xì)節(jié),就不展開了。
比如我提一個(gè)課后題,聯(lián)邦學(xué)習(xí)怎么做預(yù)測(cè)?假如某縱向聯(lián)邦學(xué)習(xí)生成了一個(gè)10個(gè)特征的模型,是由A和B兩家公司共同建模完成,每個(gè)公司貢獻(xiàn)5個(gè)特征。A公司拿到這個(gè)模型要怎么用呢?因?yàn)锳只有包含5個(gè)特征的數(shù)據(jù)樣本啊~嘿嘿,這里面有很多設(shè)計(jì),大家開通腦筋想一想。
具備什么樣的條件才能實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)?
馬克思在《資本論》里說(shuō):“社會(huì)主義革命,會(huì)首先在生產(chǎn)力發(fā)達(dá)的國(guó)家誕生。”那想做聯(lián)邦學(xué)習(xí)這個(gè)生意需要什么樣的前提條件呢?
首先,聯(lián)邦學(xué)習(xí)按照數(shù)據(jù)的X和Y問(wèn)題,分為橫向聯(lián)邦和縱向聯(lián)邦。
縱向:
橫向:
?
以中國(guó)互聯(lián)網(wǎng)公司的情況,橫向聯(lián)邦是很難有大的市場(chǎng)的。因?yàn)闄M向聯(lián)邦意味著兩家公司需要數(shù)據(jù)格式一致,那大概率是在同一領(lǐng)域的相互競(jìng)爭(zhēng)的兩家公司,合作的概率不大。
商業(yè)機(jī)會(huì)可能在縱向聯(lián)邦,需要有一家數(shù)據(jù)非常全的公司,然后其它小公司跟這家公司撞庫(kù),這個(gè)商業(yè)模式是可能的。而梯度交換又要求所有使用聯(lián)邦學(xué)習(xí)的公司必須數(shù)據(jù)在同一云平臺(tái)。
所以,我大膽預(yù)測(cè),如果未來(lái)幾年有誰(shuí)能做好公共云聯(lián)邦學(xué)習(xí)的生意,一定背靠某個(gè)國(guó)內(nèi)的大的云廠商才行。這個(gè)論斷純屬YY,畢竟國(guó)內(nèi)還沒(méi)有特別成功的關(guān)于聯(lián)邦學(xué)習(xí)的范例共參考。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的关于联邦学习What、How、Who的灵魂三问的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 浅谈“知识蒸馏”技术在机器学习领域的应用
- 下一篇: 浅谈百度新一代query-ad 推荐引擎