压缩人工智能的数据值
壓縮人工智能的數(shù)據(jù)值
Squeezing the value out of data for AI
數(shù)據(jù)是一切-在許多方面,是唯一的東西-自動駕駛汽車(AVs)供應(yīng)商依賴深度學(xué)習(xí)作為自動駕駛的關(guān)鍵。
數(shù)據(jù)是AV公司在公路上積累大量測試經(jīng)驗的原因,記錄并儲存了數(shù)PB(petabytes)的道路知識。例如,Waymo在7月份宣稱在現(xiàn)實世界中超過1000萬英里,在模擬中超過100億英里。
不過,還有一個問題業(yè)界不愿意問:
假設(shè)AV公司已經(jīng)在實際道路上收集了數(shù)PB(petabytes)甚至EB(exabytes)的數(shù)據(jù)。有多少數(shù)據(jù)集被標(biāo)記了?也許更重要的是,被注釋的數(shù)據(jù)有多精確?
在最近接受《電子時報》采訪時,Edge Case Research的聯(lián)合創(chuàng)始人兼首席技術(shù)官菲爾?庫普曼(Phil Koopman)斷言,“沒人能負擔(dān)得起給所有這些東西貼上標(biāo)簽。”
Data labeling: time-consuming and costly
數(shù)據(jù)標(biāo)記:耗時且成本高昂
注釋通常需要專業(yè)的人眼觀看一個簡短的視頻片段,然后在每輛車、行人、路標(biāo)、紅綠燈或任何其可能與自動駕駛算法相關(guān)的項目周圍繪制和標(biāo)記方框。這一過程不僅耗時而且代價高昂。
最近媒體上一篇題為“數(shù)據(jù)注釋:人工智能突破背后的十億美元業(yè)務(wù)”的報道,說明了“管理數(shù)據(jù)標(biāo)簽服務(wù)”的迅速出現(xiàn),旨在交付特定領(lǐng)域的標(biāo)簽數(shù)據(jù),并強調(diào)質(zhì)量控制。報道指出:
除了內(nèi)部數(shù)據(jù)標(biāo)簽團隊,科技公司和自動駕駛初創(chuàng)公司也嚴重依賴這些管理標(biāo)簽服務(wù)……一些自動駕駛公司每月向數(shù)據(jù)標(biāo)簽公司支付數(shù)百萬美元以上的費用。
幾年前,來自IEEE頻譜的另一篇報道中,Carol Reiley,聯(lián)合創(chuàng)始人兼總裁Drive.ai被引述說:
成千上萬的人在盒子周圍貼標(biāo)簽。每行駛一小時,大約需要800個工時來標(biāo)記。這些隊伍都會奮力拼搏。速度已經(jīng)快了很多,也在不斷優(yōu)化。
一些公司,如Drive,正在使用深度學(xué)習(xí)來增強數(shù)據(jù)注釋的自動化,以此來加速繁瑣的數(shù)據(jù)標(biāo)記過程。
Let’s use unlabeled data
讓使用未標(biāo)記的數(shù)據(jù)
然而,庫普曼認為,還有另一種方法可以“從積累的數(shù)據(jù)中榨取價值”,如何做到“不標(biāo)記大多數(shù)PB級的記錄數(shù)據(jù)”?”
解釋說,Edge案例研究在設(shè)計一種讓AV產(chǎn)業(yè)加速開發(fā)更安全感知軟件的方法時,偶然遇到了這個問題。Edge Case Research稱之為“全息圖”,本質(zhì)上是為AVs設(shè)計的“AI感知壓力測試和風(fēng)險分析系統(tǒng)”。
更具體地說,正如庫普曼解釋的那樣,“全息圖使用未標(biāo)記的數(shù)據(jù)”,系統(tǒng)運行相同的未標(biāo)記數(shù)據(jù)兩次。
首先,在現(xiàn)成的正常感知引擎上運行基線未標(biāo)記的數(shù)據(jù)。然后,在相同的未標(biāo)記數(shù)據(jù)下,應(yīng)用全息圖,添加一個非常微小的擾動噪聲。通過對系統(tǒng)施加壓力,全息圖可以暴露人工智能算法中感知能力的潛在弱點。
例如,如果在視頻剪輯中添加一點顆粒,人類可能會感覺到“那里有東西,但不知道是什么。”
但是一個人工智能驅(qū)動的感知系統(tǒng),在壓力下,要么完全錯過一個未知的物體,要么把踢過門檻,把放進不同的分類箱。
當(dāng)人工智能還在學(xué)習(xí)時,知道信心水平(因為決定了看到的是什么)是有用的。但當(dāng)人工智能應(yīng)用于世界時,信心水平并不能告訴太多。人工智能通常是“猜測”或簡單的“假設(shè)”
換句話說,人工智能是在假裝。
全息圖,通過設(shè)計,可以“戳”人工智能驅(qū)動的感知軟件。揭示了一個人工智能系統(tǒng)失敗的地方。例如,一個受力系統(tǒng)通過神秘地使一個物體從場景中消失來解決困惑。
或許,更有趣的是,全息圖還可以在噪聲下識別人工智能“幾乎失敗”但猜測正確的地方。Koopman說,全息圖顯示了一段視頻片段中AI驅(qū)動系統(tǒng)“可能不走運”的區(qū)域。
Koopman說,全息圖不需要標(biāo)記數(shù)PB的數(shù)據(jù),而是運行兩次,可以通過收集更多的數(shù)據(jù)或進行更多的培訓(xùn),為那些看起來“可疑”的地方以及“最好回去再看看”的區(qū)域提供一個提示。
當(dāng)然,這是全息圖的一個非常簡化的版本,因為事實上,這個工具本身“有很多秘密調(diào)料,背后有大量的工程技術(shù)支持,”庫普曼說。但是,如果全息圖能夠告訴用戶“只是好的部分”值得人類去審查,就可以產(chǎn)生一種非常有效的方法,從目前鎖定的數(shù)據(jù)中獲得真正的價值。
庫普曼指出:“機器非常擅長與系統(tǒng)博弈。”。或者說“做一些類似于‘p-hacking’的事情。”p-hacking是一種偏見,發(fā)生在研究人員收集或選擇數(shù)據(jù)或統(tǒng)計分析,直到無顯著結(jié)果變得顯著為止。例如,機器可以在不存在相關(guān)性的數(shù)據(jù)中找到相關(guān)性。
Open source data set
開源數(shù)據(jù)集
當(dāng)被問及這對邊緣案例研究是否是個好消息時,庫曼說:“不幸的是,這些數(shù)據(jù)集只提供給研究社區(qū)。不用于商業(yè)用途。”
此外,即使使用這樣一個數(shù)據(jù)集來運行全息圖,也應(yīng)該使用相同的感知引擎來收集數(shù)據(jù),以了解人工智能系統(tǒng)的弱點。
Hologram’s screen shot
全息圖的屏幕截圖
下面是一張屏幕截圖,展示了最新的商業(yè)版全息圖是如何工作的。
The Hologram Engine finds instances where a perception system has failed to identify this stop sign and provides analysts with powerful tools to discover triggering conditions such as the noisy background.
通過添加噪聲,全息圖尋找觸發(fā)條件,使人工智能系統(tǒng)幾乎錯過一個停車標(biāo)志(橙色條),或完全無法識別停車標(biāo)志(向下的紅色條)。
橙色條通過收集更多的數(shù)據(jù),警告人工智能設(shè)計者需要重新訓(xùn)練人工智能算法的特定區(qū)域。紅條允許人工智能設(shè)計者探索和推測觸發(fā)條件:是什么導(dǎo)致人工智能錯過了停止標(biāo)志?標(biāo)志是不是離柱子太近了?是背景嘈雜還是對比度不夠?Edge Case Research的產(chǎn)品經(jīng)理ebenmyers解釋說,當(dāng)觸發(fā)條件的例子足夠多時,就有可能識別出特定的觸發(fā)器。
Hologram helps AV designers find the edge cases where their perception software exhibits odd, potentially unsafe behavior.
全息圖有助于影音設(shè)計師發(fā)現(xiàn)感知軟件表現(xiàn)出奇怪的、潛在的不安全行為的邊緣情況。
Partnership with Ansys
與Ansys合作
本周早些時候,Ansys宣布了與Edge Case Research的合作協(xié)議。Ansys計劃將全息圖集成到其仿真軟件中。Ansys將集成視為設(shè)計“業(yè)界第一個開發(fā)AVs的整體仿真工具鏈”的關(guān)鍵基礎(chǔ)組件。Ansys正與BMW合作,后者承諾在2021年交付第一款A(yù)V。
總結(jié)
以上是生活随笔為你收集整理的压缩人工智能的数据值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工具箱支持汽车质量人工智能
- 下一篇: 新兴解决方案增强了电动汽车电源(功耗)管