如何应对“吴恩达:人工智能落地最重要的挑战之一是小数据”的困境?
這是傅一平的第302篇原創(chuàng)
作者:傅一平
個(gè)人微信:fuyipingmnb
眾所周知,在數(shù)據(jù)量非常小的時(shí)候,深度學(xué)習(xí)的復(fù)雜網(wǎng)絡(luò)無(wú)法取得很好的效果,辯證的講,數(shù)據(jù)不是一種無(wú)限的資源,而人工智能所需的數(shù)據(jù)相當(dāng)昂貴和耗時(shí),一方面深度學(xué)習(xí)需要準(zhǔn)確的標(biāo)記圖像或文本訓(xùn)練數(shù)據(jù),而標(biāo)記需要大量的人力;另一方面,許多數(shù)據(jù)存在著隱私和安全風(fēng)險(xiǎn),比如說(shuō)醫(yī)療等等,數(shù)據(jù)的開(kāi)放不是短期內(nèi)能解決的。
現(xiàn)在數(shù)據(jù)孤島、數(shù)據(jù)隱私、小數(shù)據(jù)和標(biāo)注等問(wèn)題日益突出,當(dāng)前人工智能要能進(jìn)一步發(fā)展,必須解決數(shù)據(jù)的挑戰(zhàn),找到在當(dāng)前的數(shù)據(jù)狀態(tài)下可持續(xù)發(fā)展的方法。
這就是人工智能專(zhuān)家吳恩達(dá)提出的問(wèn)題:“數(shù)據(jù)當(dāng)然是越多越好,我也并沒(méi)有說(shuō)許多數(shù)據(jù)是無(wú)用數(shù)據(jù)。但是,在農(nóng)業(yè)、制造、醫(yī)療等領(lǐng)域的部分應(yīng)用場(chǎng)景中,如果你手頭只有100張照片,比如腫瘤照片過(guò)少,怎么辦呢?” 筆者也碰到很多這種情況,比如反欺詐樣本過(guò)少的問(wèn)題。
但請(qǐng)注意,小數(shù)據(jù)問(wèn)題產(chǎn)生的根源是復(fù)雜的,既有機(jī)制上的問(wèn)題,也有技術(shù)上的問(wèn)題,而且數(shù)據(jù)大小不是解決人工智能的唯一手段,我們要回歸到第一性原理去找辦法,只要能解決問(wèn)題就行,何必拘泥于小數(shù)據(jù)或是大數(shù)據(jù)?
如果你能站住更高的角度看這個(gè)問(wèn)題,也許能找到更多的辦法,但無(wú)論如何,“小數(shù)據(jù)、大智能”,是用小數(shù)據(jù)推動(dòng)人工智能技術(shù)能力提升的重要課題,今天筆者就業(yè)界的主要做法做一個(gè)分享,希望用最通俗的語(yǔ)言為你詮釋清楚,一定要看完。
1、聯(lián)邦學(xué)習(xí)
大多時(shí)候,我們只有小數(shù)據(jù),是因?yàn)樵诖蠖鄶?shù)行業(yè)中,數(shù)據(jù)是以孤島的形式存在的,由于行業(yè)競(jìng)爭(zhēng)、隱私安全、行政手續(xù)復(fù)雜等問(wèn)題,即使是在同一個(gè)公司的不同部門(mén)之間,實(shí)現(xiàn)數(shù)據(jù)整合也面臨著重重阻力,在現(xiàn)實(shí)中將分散在各地、各個(gè)機(jī)構(gòu)的數(shù)據(jù)進(jìn)行整合幾乎是不可能的,或者說(shuō)所需的成本是巨大的。
當(dāng)前重視數(shù)據(jù)隱私和安全已經(jīng)成為了世界性的趨勢(shì)。每一次用戶數(shù)據(jù)的泄露都會(huì)引起媒體和公眾的極大關(guān)注,無(wú)論是Facebook 的數(shù)據(jù)泄露事件,還是歐盟的GDPR。
隨著人工智能落地場(chǎng)景越來(lái)越豐富,多方整合數(shù)據(jù)從而為用戶提供更好的服務(wù)迫切性非常高,尤其是在一些風(fēng)控領(lǐng)域,特別需要聯(lián)合多家企業(yè)的數(shù)據(jù)來(lái)打造更好的信用模型,從而提升用戶貸款的效率。
在現(xiàn)有的機(jī)制,流程無(wú)法改變的情況下,是否存在一種技術(shù)上的可行性,可以在不影響用戶隱私的情況下,解決數(shù)據(jù)的孤島問(wèn)題呢?
2016 年谷歌最先提出聯(lián)邦學(xué)習(xí)這個(gè)概念,聯(lián)邦學(xué)習(xí)是一種跨多個(gè)數(shù)據(jù)源的模型訓(xùn)練方法,訓(xùn)練的各方的原始數(shù)據(jù)保留在本地,只有參數(shù)進(jìn)行交互,通過(guò)加密模型訓(xùn)練得到最終的優(yōu)化模型,從而解決數(shù)據(jù)孤島的問(wèn)題。
筆者專(zhuān)門(mén)寫(xiě)過(guò)一篇文章《聯(lián)邦學(xué)習(xí),帶我們走出“數(shù)據(jù)孤島”的困境?》介紹過(guò)這個(gè)技術(shù),也組織團(tuán)隊(duì)正在進(jìn)行嘗試,但關(guān)鍵的問(wèn)題是聯(lián)邦學(xué)習(xí)業(yè)界還沒(méi)有達(dá)成安全的共識(shí),沒(méi)有第三方中立機(jī)構(gòu)為你背書(shū),機(jī)制和流程仍然是很大的挑戰(zhàn)。
最近聽(tīng)到的消息是,作為國(guó)內(nèi)“聯(lián)邦學(xué)習(xí)”技術(shù)的首倡者和領(lǐng)導(dǎo)者,微眾銀行 AI 團(tuán)隊(duì)在微眾銀行首席人工智能官楊強(qiáng)教授的帶領(lǐng)下,不斷推進(jìn)著聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)化建設(shè)工作,致力于為聯(lián)邦學(xué)習(xí)的落地應(yīng)用提供技術(shù)規(guī)范,為社會(huì)各界共建聯(lián)邦生態(tài)提供合作依據(jù)。
目前,聯(lián)邦學(xué)習(xí)技術(shù)已成功應(yīng)用至智能信貸、智能風(fēng)控、智能權(quán)益定價(jià)、智慧零售、智能用工、異常檢測(cè)等業(yè)務(wù)場(chǎng)景,為智慧城市、智慧金融等多行業(yè)賦能。而未來(lái),基于統(tǒng)一的“技術(shù)溝通語(yǔ)言”,聯(lián)邦學(xué)習(xí)將會(huì)在更多行業(yè)更多場(chǎng)景發(fā)揮無(wú)限潛能。
2、強(qiáng)化學(xué)習(xí)
兩年前,谷歌人工智能團(tuán)隊(duì)DeepMind 發(fā)布了他們的最新論文Mastering the game of Go without human knowledge,向人們介紹了阿爾法狗家族的新成員——阿爾法元。與之前幾個(gè)版本的阿爾法狗不同,阿爾法元除了解圍棋規(guī)則外,完全不依靠棋譜和人類(lèi)數(shù)據(jù),從零開(kāi)始“自學(xué)成才”,成為全世界最厲害的(人工智能)圍棋手。
自學(xué)三天,自博490萬(wàn)局棋后,阿爾法元以100:0的壓倒性優(yōu)勢(shì)打敗曾戰(zhàn)勝韓國(guó)棋手李世石的AlphaGoLee,四十多天后,經(jīng)過(guò)2900多萬(wàn)次自玩游戲,阿爾法元超過(guò)此前AlphaGo的所有版本,殺到黑白世界尸橫遍野,成為世界上最厲害的圍棋程序。
阿爾法元與幾位哥哥的最大區(qū)別是,它不再需要人類(lèi)數(shù)據(jù)作訓(xùn)練。因此,我們把AlphaGo Zero稱作“阿爾法元”,其完全擺脫人類(lèi)先驗(yàn)經(jīng)驗(yàn),除規(guī)則外,完全不借助人類(lèi)數(shù)據(jù),從第一場(chǎng)游戲開(kāi)始,自我學(xué)習(xí)。
AlphaGo團(tuán)隊(duì)負(fù)責(zé)人大衛(wèi)·席爾瓦介紹,阿爾法元使用新的強(qiáng)化學(xué)習(xí)方法,讓自己變成了老師。系統(tǒng)一開(kāi)始甚至并不知道什么是圍棋,只是從單一神經(jīng)網(wǎng)絡(luò)開(kāi)始,通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的搜索算法,進(jìn)行了自我對(duì)弈。
而大家都知道傳統(tǒng)的深度學(xué)習(xí)訓(xùn)練過(guò)程需要消耗大量人類(lèi)標(biāo)注樣本,而這對(duì)于小樣本應(yīng)用領(lǐng)域(比如醫(yī)療圖像處理)是不可能辦到的。阿爾法元是在雙方博弈訓(xùn)練過(guò)程中嘗試解決對(duì)人類(lèi)標(biāo)注樣本的依賴,而其依賴的正是強(qiáng)化學(xué)習(xí)獨(dú)特的算法機(jī)制。
那么,強(qiáng)化學(xué)習(xí)和一般的有監(jiān)督學(xué)習(xí)有什么區(qū)別呢?
強(qiáng)化學(xué)習(xí)通過(guò)對(duì)未知環(huán)境一邊探索一邊建立環(huán)境模型以及學(xué)得一個(gè)最優(yōu)策略。有監(jiān)督學(xué)習(xí)則是事先給你了一批樣本,并告訴你哪些樣本是優(yōu)的哪些是劣的(樣本的標(biāo)記信息),通過(guò)學(xué)習(xí)這些樣本而建立起對(duì)象的模型及其策略。
強(qiáng)化學(xué)習(xí)方法示意
在強(qiáng)化學(xué)習(xí)中沒(méi)有人事先告訴你在什么狀態(tài)下應(yīng)該做什么,只有在摸索中反思之前的動(dòng)作是否正確來(lái)學(xué)習(xí)。從這個(gè)角度看,可以認(rèn)為強(qiáng)化學(xué)習(xí)是有時(shí)間延遲標(biāo)記信息的有監(jiān)督學(xué)習(xí),下面再打個(gè)比方:
我們小時(shí)后看到馬戲團(tuán)的狗盡然可以算加減法,鴿子也會(huì)走鋼絲了,就差豬也會(huì)飛了(扯遠(yuǎn)了),這是如何做到的?其實(shí)啊,拿鴿子來(lái)說(shuō),每當(dāng)鴿子走到鋼絲盡頭或者中間某時(shí)刻(可以設(shè)計(jì))的時(shí)候,訓(xùn)練人員就會(huì)給它一些獎(jiǎng)勵(lì),這些獎(jiǎng)勵(lì)的作用是讓它“知道”,鴿子啊,你當(dāng)才的動(dòng)作是對(duì)的(或者是不錯(cuò)的,你要繼續(xù)保持啊)。如此一來(lái),鴿子無(wú)形之中就受到了暗示,我只要那樣做,就有獎(jiǎng)勵(lì)(食物)吃。何樂(lè)而不為呢。
AlphaGo團(tuán)隊(duì)負(fù)責(zé)人大衛(wèi)·席爾瓦甚至這么說(shuō):“阿爾法元的出現(xiàn)表明,算法比所謂計(jì)算或數(shù)據(jù)可用性更重要。”
而李開(kāi)復(fù)對(duì)此表示了不同意見(jiàn),其提到阿爾法元的技術(shù)革新并非適用于所有人工智能領(lǐng)域:“圍棋是一種對(duì)弈游戲,是適用于規(guī)則并可以窮舉的。在相對(duì)有結(jié)構(gòu)的領(lǐng)域,比如新材料開(kāi)發(fā),過(guò)去靠的可能是靈感,未來(lái)就可以靠自主學(xué)習(xí)。阿爾法元的新技術(shù)確實(shí)可能帶來(lái)革新。但是,像語(yǔ)音識(shí)別,圖像識(shí)別,自然語(yǔ)音理解等等領(lǐng)域,缺乏用簡(jiǎn)單規(guī)則就能判別的樣本,它們依然需要大量的人類(lèi)數(shù)據(jù)?!?/p>
這個(gè)評(píng)價(jià)是很中肯的,雖然強(qiáng)化學(xué)習(xí)不能從根本上解決小數(shù)據(jù)問(wèn)題,但針對(duì)特定的場(chǎng)景,它提供了一種解決方案。
3、生成對(duì)抗網(wǎng)絡(luò)
數(shù)據(jù)的生成有無(wú)規(guī)律可循,人類(lèi)一直有大量的研究,我們現(xiàn)在做生成模型時(shí),一般會(huì)預(yù)先設(shè)定一個(gè)分布(比如高斯分布),假設(shè)圖像符合這個(gè)分布,只是參數(shù)的分布未知,我們可以通過(guò)數(shù)據(jù)去擬合這個(gè)分布,有了分布函數(shù),啥數(shù)據(jù)都可以生成。
但這種靠人工經(jīng)驗(yàn)假定數(shù)據(jù)分布的方式顯然是非常主觀的,更好的方式是我們能否對(duì)數(shù)據(jù)不進(jìn)行假設(shè),而是讓一個(gè)模型生成數(shù)據(jù),然后再判斷這個(gè)數(shù)據(jù)究竟是對(duì)的還是錯(cuò)的,是像真實(shí)數(shù)據(jù)一樣,還是和真實(shí)數(shù)據(jù)相差太遠(yuǎn),我們根據(jù)這個(gè)判斷反復(fù)修正這個(gè)模型。
以往的生成模型研究主要從人類(lèi)理解數(shù)據(jù)的角度出發(fā),希望使用一個(gè)顯式的分布假設(shè)去設(shè)計(jì)模型,而GAN(生成對(duì)抗網(wǎng)絡(luò))可以說(shuō)是第一個(gè)廣為人知的,從機(jī)器或者數(shù)據(jù)的角度出發(fā)擬合數(shù)據(jù)的模型:我們不再給它任何的數(shù)據(jù)模型分布,而是直接去學(xué)習(xí)。
古德費(fèi)洛提出了GAN的思想,見(jiàn)下圖示意。
即設(shè)計(jì)這樣一個(gè)游戲,包括兩個(gè)玩家,其中一個(gè)就是生成器(Generator, G),生成器是一個(gè)神經(jīng)網(wǎng)絡(luò),它的輸入是噪聲向量,這些噪聲向量是從一個(gè)特定分布里面隨機(jī)抽樣出來(lái),比如標(biāo)準(zhǔn)正態(tài)分布,均勻分布啊啥的,都OK,生成器的輸出就是一張圖片。
另外一個(gè)玩家是判別器(Discriminator, D),判別器D的輸入是真實(shí)圖片和生成器生成的假圖片,對(duì)應(yīng)的標(biāo)簽分別是1(真實(shí)圖片)和0(假圖片)。
訓(xùn)練過(guò)程過(guò)程是交替進(jìn)行的,先訓(xùn)練判別器D,訓(xùn)練方法就是傳統(tǒng)的分類(lèi)模型;判別器訓(xùn)練好后,其權(quán)重固定,在此基礎(chǔ)上訓(xùn)練生成器,生成器的訓(xùn)練方法跟判別器類(lèi)似,只是其loss跟判別器剛好相反。判別器是讓真實(shí)圖片的預(yù)測(cè)概率盡量為1,假圖片的預(yù)測(cè)概率盡量為0;生成器的loss是讓假圖片在當(dāng)前判別器預(yù)測(cè)的時(shí)候概率盡量為1。
這個(gè)過(guò)程不斷進(jìn)行,直至相互收斂,比如對(duì)于真假圖片的識(shí)別概率都是0.5,達(dá)到的效果是生成器生成的圖片跟真實(shí)圖片非常類(lèi)似,判別器鑒別不出來(lái)了。
GAN最明顯的應(yīng)用是從原始數(shù)據(jù)生成新樣本以增強(qiáng)我們的數(shù)據(jù)集,那么如何檢查這種增強(qiáng)是否真的有幫助呢?
有兩個(gè)主要策略:我們可以在“假”數(shù)據(jù)上訓(xùn)練我們的模型,并檢查它在真實(shí)樣本上的表現(xiàn)。對(duì)應(yīng)的我們?cè)趯?shí)際數(shù)據(jù)上訓(xùn)練我們的模型來(lái)做一些分類(lèi)任務(wù),并且檢查它對(duì)生成的數(shù)據(jù)的執(zhí)行情況。如果它在兩種情況下都能正常工作,你可以隨意將生成模型中的樣本添加到你的實(shí)際數(shù)據(jù)中并再次重新訓(xùn)練,你應(yīng)該期望獲得性能。
NVIDIA展示了這種方法的驚人實(shí)例:他們使用GAN來(lái)增加具有不同疾病的醫(yī)學(xué)腦CT圖像的數(shù)據(jù)集,并且表明僅使用經(jīng)典數(shù)據(jù)的分類(lèi)性能是78.6%的靈敏度和88.4%的特異性。通過(guò)添加合成數(shù)據(jù)增強(qiáng),可以增加到85.7%的靈敏度和92.4%的特異性。
但GAN更多的用途還是生成以假亂真的圖片,比如下圖用三個(gè)不同人的圖像生成三個(gè)人的綜合體圖像,非常有趣,GAN是深度學(xué)習(xí)的延伸。
4、遷移學(xué)習(xí)
遷移學(xué)習(xí)又是一種解決小數(shù)據(jù)的方法,“觸類(lèi)旁通”可能是最適合描述遷移學(xué)習(xí)的成語(yǔ)。
比方說(shuō)新開(kāi)一個(gè)音樂(lè)網(wǎng)站,沒(méi)有任何的數(shù)據(jù),就無(wú)法建立模型對(duì)用戶進(jìn)行推薦。但如果知道用戶在視頻網(wǎng)站已經(jīng)有了很多很多的數(shù)據(jù),利用這些數(shù)據(jù)建一個(gè)模型,結(jié)合用戶看視頻的習(xí)慣和聽(tīng)音樂(lè)習(xí)慣的關(guān)聯(lián),就可以把音樂(lè)的推薦模型給成功地遷移到看視頻的領(lǐng)域,這樣,在數(shù)據(jù)不多的情況下可以成功推薦一些用戶可能喜歡的音樂(lè)。
這個(gè)例子就說(shuō)明,有兩個(gè)領(lǐng)域,一個(gè)領(lǐng)域已經(jīng)有很多的數(shù)據(jù),能成功地建一個(gè)模型,有一個(gè)領(lǐng)域數(shù)據(jù)不多,但是和前面那個(gè)領(lǐng)域是關(guān)聯(lián)的,就可以把那個(gè)模型給遷移過(guò)來(lái),這就是遷移學(xué)習(xí)。
遷移什么,怎么遷移,什么時(shí)候能遷移,這是遷移學(xué)習(xí)要解決的主要問(wèn)題。
遷移學(xué)習(xí)有四種實(shí)現(xiàn)方法:樣本遷移、特征遷移?、模型遷移及關(guān)系遷移,這里簡(jiǎn)單介紹下模型遷移,就是將整個(gè)模型應(yīng)用到目標(biāo)領(lǐng)域去,比如目前常用的對(duì)預(yù)訓(xùn)練好的深度網(wǎng)絡(luò)做微調(diào),也可以叫做參數(shù)遷移。
模型遷移利用上千萬(wàn)的圖象訓(xùn)練一個(gè)圖象識(shí)別的系統(tǒng),當(dāng)我們遇到一個(gè)新的圖象領(lǐng)域,就不用再去找?guī)浊f(wàn)個(gè)圖象來(lái)訓(xùn)練了,可以將原來(lái)的圖像識(shí)別系統(tǒng)遷移到新的領(lǐng)域,所以在新的領(lǐng)域只用幾萬(wàn)張圖片同樣能夠獲取相同的效果,下圖是狗識(shí)別模型的遷移示意。
5、合成訓(xùn)練數(shù)據(jù)
沒(méi)有訓(xùn)練數(shù)據(jù),沒(méi)有大規(guī)模的標(biāo)簽數(shù)據(jù)集,那么就盡可能逼真的仿造數(shù)據(jù),這就是合成訓(xùn)練數(shù)據(jù),但并非是毫無(wú)根據(jù)的模仿,合成的訓(xùn)練數(shù)據(jù)一定是可以精確地模擬現(xiàn)實(shí)場(chǎng)景和現(xiàn)實(shí)事物。
仿真系統(tǒng)可以部分的解決這個(gè)問(wèn)題,比如運(yùn)營(yíng)商的信號(hào)仿真系統(tǒng),就需要基于算法來(lái)模擬得到各個(gè)位置的信號(hào)強(qiáng)度,從而確定弱覆蓋區(qū)域(MR數(shù)據(jù)可以用來(lái)校驗(yàn)準(zhǔn)確性),并可以基于仿真地圖獲得位置指紋庫(kù),下圖顯示了射線追蹤、三維地圖、高程圖、植被圖的仿真。
又比如英偉達(dá)在2018年月推出DRIVE Constellation仿真系統(tǒng),用以生成在虛擬世界中車(chē)輛行駛的傳感器結(jié)果。
6、原始數(shù)據(jù)增強(qiáng)
如果手頭的數(shù)據(jù)有限,如何能基于這些數(shù)據(jù)生成更多的數(shù)據(jù)呢?業(yè)界有很多做法,本質(zhì)上就是引入各種變換或算法來(lái)生成更多的數(shù)據(jù),也就是為數(shù)據(jù)本身服務(wù)的算法。
在圖像領(lǐng)域,數(shù)據(jù)增強(qiáng)的方法包括翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、平移、增加高斯噪聲等等,下圖是縮放的示例。
由于在變換過(guò)程中會(huì)出現(xiàn)真空地帶,需要采用差值法等手段來(lái)填補(bǔ),如下圖所示是一張旋轉(zhuǎn)的圖,后面依次采用邊緣,反射,對(duì)稱和包裹模式來(lái)填充。
在NLP領(lǐng)域,數(shù)據(jù)增強(qiáng)的方法包括同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除等等,據(jù)統(tǒng)計(jì),對(duì)于四種技術(shù),數(shù)據(jù)集很小時(shí),每一種技術(shù)都能夠有2-3%的提升,當(dāng)數(shù)據(jù)集很大時(shí),每一種技術(shù)也能夠有1%的提升。
除了圖像和NLP,大量的數(shù)據(jù)增強(qiáng)則需要基于實(shí)際場(chǎng)景通過(guò)特定的算法實(shí)現(xiàn),比如在交通的路網(wǎng)擬合中,我們發(fā)現(xiàn)原始位置軌跡數(shù)據(jù)的連續(xù)性不好,打點(diǎn)的數(shù)據(jù)在時(shí)間,空間上并不是很均勻,如果直接基于這個(gè)殘缺數(shù)據(jù)去做應(yīng)用模型,會(huì)出現(xiàn)大量的問(wèn)題。比如統(tǒng)計(jì)某個(gè)時(shí)段某塊區(qū)域的車(chē)流會(huì)出現(xiàn)誤判,這就需要用專(zhuān)門(mén)的算法來(lái)進(jìn)行數(shù)據(jù)補(bǔ)償。
下圖是某同事上班軌跡的擬合過(guò)程,第一張圖信令位置數(shù)據(jù)飄的很厲害,第三種圖綠色線部分是對(duì)于數(shù)據(jù)用算法平滑后(諸如馬爾科夫啥的)的結(jié)果,跟實(shí)際導(dǎo)航就很吻合了。
很多互聯(lián)網(wǎng)公司特別重視算法,一個(gè)原因就是利用算法可以產(chǎn)生有價(jià)值的新數(shù)據(jù),從而彌補(bǔ)自身數(shù)據(jù)的不足,應(yīng)用的體驗(yàn)也更好,這個(gè)特別值得學(xué)習(xí)。
7、人工調(diào)研數(shù)據(jù)
雖然我們進(jìn)入了大數(shù)據(jù)時(shí)代,但其實(shí)大量的問(wèn)題可以基于調(diào)研的小數(shù)據(jù)分析獲得答案,特別是涉及主觀判斷或者情況特別復(fù)雜的場(chǎng)景,比如用戶的滿意度調(diào)研,因?yàn)楝F(xiàn)有的數(shù)據(jù)不足以支撐,很多基于大數(shù)據(jù)的滿意度預(yù)測(cè)模型效果也并不理想。
有人會(huì)質(zhì)疑調(diào)研的數(shù)據(jù)不準(zhǔn)確的問(wèn)題,比如接受調(diào)研的人信口開(kāi)河,但其實(shí)很多場(chǎng)景只要相對(duì)準(zhǔn)確就行了,人大多數(shù)時(shí)候還是活在自己的約束中,造假對(duì)他也是有成本的。
比如去銀行柜臺(tái)辦銀行卡,營(yíng)業(yè)員會(huì)問(wèn)收入多少,你可以把年收入100萬(wàn)報(bào)成30萬(wàn),你以為很離譜,但對(duì)于銀行有用,因?yàn)閷?duì)于另一個(gè)年入5萬(wàn)的人來(lái)說(shuō)沒(méi)有30萬(wàn)的想象空間,銀行的確得不到最準(zhǔn)確的數(shù)據(jù),但它能判斷誰(shuí)更有投資價(jià)值,這就夠了,模糊不代表沒(méi)用。
因此,很多時(shí)候,如果你真的沒(méi)有數(shù)據(jù)了,人工調(diào)研也是好方法,我們的目標(biāo)始終是解決問(wèn)題,而不是就大數(shù)據(jù)論大數(shù)據(jù)。
說(shuō)了七個(gè)方面,筆者的意思可不是說(shuō)大數(shù)據(jù)不重要,而是吳恩達(dá)的這個(gè)問(wèn)題引起了自己的思考,因此調(diào)研了一番。其實(shí)業(yè)界已經(jīng)有一些好的做法了,你需要知道這些方法,然后看看能否為你所用,上華山并不是只有一條路,這是最重要的。
希望我的分享于你有益。
如果你覺(jué)得這篇文章有用,歡迎推薦和轉(zhuǎn)發(fā)朋友圈,如果你有獨(dú)到的見(jiàn)解和意見(jiàn),歡迎到我的知識(shí)星球進(jìn)行探討。
完
作者:傅一平?(微信號(hào):fuyipingmnb)
機(jī)器學(xué)習(xí)初學(xué)者
黃海廣博士創(chuàng)建的公眾號(hào),黃海廣博士個(gè)人知乎粉絲21000+,github排名全球前120名(30000+)。本公眾號(hào)致力于人工智能方向的科普性文章,為初學(xué)者提供學(xué)習(xí)路線和基礎(chǔ)資料。原創(chuàng)作品有:吳恩達(dá)機(jī)器學(xué)習(xí)個(gè)人筆記、吳恩達(dá)深度學(xué)習(xí)筆記等。
往期精彩回顧
那些年做的學(xué)術(shù)公益-你不是一個(gè)人在戰(zhàn)斗
良心推薦:機(jī)器學(xué)習(xí)入門(mén)資料匯總及學(xué)習(xí)建議
吳恩達(dá)機(jī)器學(xué)習(xí)課程筆記及資源(github標(biāo)星12000+,提供百度云鏡像)
吳恩達(dá)深度學(xué)習(xí)筆記及視頻等資源(github標(biāo)星8500+,提供百度云鏡像)
《統(tǒng)計(jì)學(xué)習(xí)方法》的python代碼實(shí)現(xiàn)(github標(biāo)星7200+)
精心整理和翻譯的機(jī)器學(xué)習(xí)的相關(guān)數(shù)學(xué)資料
首發(fā):深度學(xué)習(xí)入門(mén)寶典-《python深度學(xué)習(xí)》原文代碼中文注釋版及電子書(shū)
圖解word2vec(原文翻譯)
備注:加入本站微信群或者qq群,請(qǐng)回復(fù)“加群”
加入知識(shí)星球(4100+用戶,ID:92416895),請(qǐng)回復(fù)“知識(shí)星球”
總結(jié)
以上是生活随笔為你收集整理的如何应对“吴恩达:人工智能落地最重要的挑战之一是小数据”的困境?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 万字长文|线性代数的本质课程笔记完整合集
- 下一篇: (github标星9200+)《南瓜书》