當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

压缩人工智能的数据值

發(fā)布時間：2023/11/28 生活经验 33 豆豆

生活随笔收集整理的這篇文章主要介紹了压缩人工智能的数据值小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

壓縮人工智能的數(shù)據(jù)值

Squeezing the value out of data for AI

數(shù)據(jù)是一切-在許多方面，是唯一的東西-自動駕駛汽車（AVs）供應(yīng)商依賴深度學(xué)習(xí)作為自動駕駛的關(guān)鍵。

數(shù)據(jù)是AV公司在公路上積累大量測試經(jīng)驗的原因，記錄并儲存了數(shù)PB（petabytes）的道路知識。例如，Waymo在7月份宣稱在現(xiàn)實世界中超過1000萬英里，在模擬中超過100億英里。

不過，還有一個問題業(yè)界不愿意問：

假設(shè)AV公司已經(jīng)在實際道路上收集了數(shù)PB（petabytes）甚至EB（exabytes）的數(shù)據(jù)。有多少數(shù)據(jù)集被標(biāo)記了？也許更重要的是，被注釋的數(shù)據(jù)有多精確？

在最近接受《電子時報》采訪時，Edge Case Research的聯(lián)合創(chuàng)始人兼首席技術(shù)官菲爾?庫普曼（Phil Koopman）斷言，“沒人能負擔(dān)得起給所有這些東西貼上標(biāo)簽。”

Data labeling: time-consuming and costly

數(shù)據(jù)標(biāo)記：耗時且成本高昂

注釋通常需要專業(yè)的人眼觀看一個簡短的視頻片段，然后在每輛車、行人、路標(biāo)、紅綠燈或任何其可能與自動駕駛算法相關(guān)的項目周圍繪制和標(biāo)記方框。這一過程不僅耗時而且代價高昂。

最近媒體上一篇題為“數(shù)據(jù)注釋：人工智能突破背后的十億美元業(yè)務(wù)”的報道，說明了“管理數(shù)據(jù)標(biāo)簽服務(wù)”的迅速出現(xiàn)，旨在交付特定領(lǐng)域的標(biāo)簽數(shù)據(jù)，并強調(diào)質(zhì)量控制。報道指出：

除了內(nèi)部數(shù)據(jù)標(biāo)簽團隊，科技公司和自動駕駛初創(chuàng)公司也嚴重依賴這些管理標(biāo)簽服務(wù)……一些自動駕駛公司每月向數(shù)據(jù)標(biāo)簽公司支付數(shù)百萬美元以上的費用。

幾年前，來自IEEE頻譜的另一篇報道中，Carol Reiley，聯(lián)合創(chuàng)始人兼總裁Drive.ai被引述說：
成千上萬的人在盒子周圍貼標(biāo)簽。每行駛一小時，大約需要800個工時來標(biāo)記。這些隊伍都會奮力拼搏。速度已經(jīng)快了很多，也在不斷優(yōu)化。

一些公司，如Drive，正在使用深度學(xué)習(xí)來增強數(shù)據(jù)注釋的自動化，以此來加速繁瑣的數(shù)據(jù)標(biāo)記過程。

Let’s use unlabeled data

讓使用未標(biāo)記的數(shù)據(jù)

然而，庫普曼認為，還有另一種方法可以“從積累的數(shù)據(jù)中榨取價值”，如何做到“不標(biāo)記大多數(shù)PB級的記錄數(shù)據(jù)”？”

解釋說，Edge案例研究在設(shè)計一種讓AV產(chǎn)業(yè)加速開發(fā)更安全感知軟件的方法時，偶然遇到了這個問題。Edge Case Research稱之為“全息圖”，本質(zhì)上是為AVs設(shè)計的“AI感知壓力測試和風(fēng)險分析系統(tǒng)”。

更具體地說，正如庫普曼解釋的那樣，“全息圖使用未標(biāo)記的數(shù)據(jù)”，系統(tǒng)運行相同的未標(biāo)記數(shù)據(jù)兩次。

首先，在現(xiàn)成的正常感知引擎上運行基線未標(biāo)記的數(shù)據(jù)。然后，在相同的未標(biāo)記數(shù)據(jù)下，應(yīng)用全息圖，添加一個非常微小的擾動噪聲。通過對系統(tǒng)施加壓力，全息圖可以暴露人工智能算法中感知能力的潛在弱點。

例如，如果在視頻剪輯中添加一點顆粒，人類可能會感覺到“那里有東西，但不知道是什么。”

但是一個人工智能驅(qū)動的感知系統(tǒng)，在壓力下，要么完全錯過一個未知的物體，要么把踢過門檻，把放進不同的分類箱。

當(dāng)人工智能還在學(xué)習(xí)時，知道信心水平（因為決定了看到的是什么）是有用的。但當(dāng)人工智能應(yīng)用于世界時，信心水平并不能告訴太多。人工智能通常是“猜測”或簡單的“假設(shè)”

換句話說，人工智能是在假裝。

全息圖，通過設(shè)計，可以“戳”人工智能驅(qū)動的感知軟件。揭示了一個人工智能系統(tǒng)失敗的地方。例如，一個受力系統(tǒng)通過神秘地使一個物體從場景中消失來解決困惑。

或許，更有趣的是，全息圖還可以在噪聲下識別人工智能“幾乎失敗”但猜測正確的地方。Koopman說，全息圖顯示了一段視頻片段中AI驅(qū)動系統(tǒng)“可能不走運”的區(qū)域。
Koopman說，全息圖不需要標(biāo)記數(shù)PB的數(shù)據(jù)，而是運行兩次，可以通過收集更多的數(shù)據(jù)或進行更多的培訓(xùn)，為那些看起來“可疑”的地方以及“最好回去再看看”的區(qū)域提供一個提示。

當(dāng)然，這是全息圖的一個非常簡化的版本，因為事實上，這個工具本身“有很多秘密調(diào)料，背后有大量的工程技術(shù)支持，”庫普曼說。但是，如果全息圖能夠告訴用戶“只是好的部分”值得人類去審查，就可以產(chǎn)生一種非常有效的方法，從目前鎖定的數(shù)據(jù)中獲得真正的價值。

庫普曼指出：“機器非常擅長與系統(tǒng)博弈。”。或者說“做一些類似于‘p-hacking’的事情。”p-hacking是一種偏見，發(fā)生在研究人員收集或選擇數(shù)據(jù)或統(tǒng)計分析，直到無顯著結(jié)果變得顯著為止。例如，機器可以在不存在相關(guān)性的數(shù)據(jù)中找到相關(guān)性。

Open source data set

開源數(shù)據(jù)集

當(dāng)被問及這對邊緣案例研究是否是個好消息時，庫曼說：“不幸的是，這些數(shù)據(jù)集只提供給研究社區(qū)。不用于商業(yè)用途。”

此外，即使使用這樣一個數(shù)據(jù)集來運行全息圖，也應(yīng)該使用相同的感知引擎來收集數(shù)據(jù)，以了解人工智能系統(tǒng)的弱點。

Hologram’s screen shot

全息圖的屏幕截圖

下面是一張屏幕截圖，展示了最新的商業(yè)版全息圖是如何工作的。

The Hologram Engine finds instances where a perception system has failed to identify this stop sign and provides analysts with powerful tools to discover triggering conditions such as the noisy background.

通過添加噪聲，全息圖尋找觸發(fā)條件，使人工智能系統(tǒng)幾乎錯過一個停車標(biāo)志（橙色條），或完全無法識別停車標(biāo)志（向下的紅色條）。

橙色條通過收集更多的數(shù)據(jù)，警告人工智能設(shè)計者需要重新訓(xùn)練人工智能算法的特定區(qū)域。紅條允許人工智能設(shè)計者探索和推測觸發(fā)條件：是什么導(dǎo)致人工智能錯過了停止標(biāo)志？標(biāo)志是不是離柱子太近了？是背景嘈雜還是對比度不夠？Edge Case Research的產(chǎn)品經(jīng)理ebenmyers解釋說，當(dāng)觸發(fā)條件的例子足夠多時，就有可能識別出特定的觸發(fā)器。

Hologram helps AV designers find the edge cases where their perception software exhibits odd, potentially unsafe behavior.

全息圖有助于影音設(shè)計師發(fā)現(xiàn)感知軟件表現(xiàn)出奇怪的、潛在的不安全行為的邊緣情況。

Partnership with Ansys

與Ansys合作

本周早些時候，Ansys宣布了與Edge Case Research的合作協(xié)議。Ansys計劃將全息圖集成到其仿真軟件中。Ansys將集成視為設(shè)計“業(yè)界第一個開發(fā)AVs的整體仿真工具鏈”的關(guān)鍵基礎(chǔ)組件。Ansys正與BMW合作，后者承諾在2021年交付第一款A(yù)V。

總結(jié)

以上是生活随笔為你收集整理的压缩人工智能的数据值的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：工具箱支持汽车质量人工智能
下一篇：新兴解决方案增强了电动汽车电源（功耗）管