當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

数据标注的困境

發(fā)布時(shí)間：2023/11/28 生活经验 37 豆豆

生活随笔收集整理的這篇文章主要介紹了数据标注的困境小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)標(biāo)注的困境

眾所周知，機(jī)器學(xué)習(xí)主要分為兩類：監(jiān)督學(xué)習(xí)（supervised learning）與無(wú)監(jiān)督學(xué)習(xí)（unsupervised
learning）。而監(jiān)督學(xué)習(xí)離不開(kāi)數(shù)據(jù)標(biāo)注（data labeling），也就是依靠人工找到groundtruth。

標(biāo)注平臺(tái)

標(biāo)注平臺(tái)這今年開(kāi)年如雨后春筍般都紛紛出現(xiàn)在公眾視野，表現(xiàn)形式最直接的就是百度搜索的時(shí)候明顯增多了而且有很多用了百度的競(jìng)價(jià)排名，其中不乏一些大廠的內(nèi)部平臺(tái)對(duì)外運(yùn)營(yíng)了，也有一些標(biāo)注公司自己做的標(biāo)注平臺(tái)。

服務(wù)外包公司

這類公司目前是最多的了，同時(shí)也是支撐大部分平臺(tái)類公司運(yùn)營(yíng)的關(guān)鍵。一個(gè)相對(duì)穩(wěn)定收益的項(xiàng)目，這個(gè)年頭誰(shuí)不愿意做呢？

實(shí)際狀況

智能時(shí)代滾滾巨輪之下，一批批用于“人臉識(shí)別”、“自動(dòng)駕駛”、“自然語(yǔ)言處理”的標(biāo)注好的數(shù)據(jù)，正是出自這些學(xué)歷不高，每天對(duì)著電腦工作8到10小時(shí)的人手中——他們是“人工智能背后的人工”。經(jīng)過(guò)采訪了多個(gè)數(shù)據(jù)標(biāo)注服務(wù)商、數(shù)據(jù)標(biāo)注工作室和數(shù)據(jù)標(biāo)注者。據(jù)業(yè)內(nèi)人士估計(jì)，中國(guó)全職的“數(shù)據(jù)標(biāo)注者”已達(dá)到10萬(wàn)人，兼職人群的規(guī)模則接近100萬(wàn)。他們中有職高學(xué)生，有嘗試過(guò)40份工作的聾啞人，有從工地輾轉(zhuǎn)而來(lái)的新生代農(nóng)民工……他們?cè)丛床粩嗟貫槿斯ぶ悄艿陌l(fā)展供應(yīng)最重要的“數(shù)據(jù)燃料”——在現(xiàn)有的技術(shù)框架下，數(shù)據(jù)量越大，質(zhì)量越好，算法模型就表現(xiàn)越好。可以說(shuō)，數(shù)據(jù)決定著整個(gè)人工智能行業(yè)的發(fā)展態(tài)勢(shì)。但標(biāo)注工作本身是一個(gè)勞動(dòng)密集型工種，收入并不高。隨著技術(shù)的進(jìn)一步發(fā)展，未來(lái)還有被取代的可能。許多數(shù)據(jù)標(biāo)注者的父輩是參與了中國(guó)房地產(chǎn)奇跡的農(nóng)民工。如今，父輩手里的鐵鏟變成了年輕人的鼠標(biāo)、鍵盤，但和父輩一樣，他們?nèi)允沁吘壵摺?/p>

燒錢速度有多快？

近年來(lái)，我們注意到，數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司層出不窮。只要在圖片中標(biāo)注一輛汽車，只需一秒鐘，就能輕輕松松一美元進(jìn)賬。標(biāo)注一段幾十秒視頻中的汽車，就能幾百美元進(jìn)賬。數(shù)據(jù)標(biāo)注的成本與需求都在節(jié)節(jié)攀升。據(jù)市場(chǎng)研究預(yù)測(cè)，到2023年，數(shù)據(jù)標(biāo)注市場(chǎng)將達(dá)到10億美元的規(guī)模。

這些數(shù)據(jù)標(biāo)注公司一般會(huì)開(kāi)發(fā)出基本的物體識(shí)別算法，然后在人工成本較低的地區(qū)招人，培訓(xùn)他們，讓他們找到機(jī)器識(shí)別中的錯(cuò)誤，改正之后提交。比如，一些總部在硅谷的公司會(huì)在比較偏遠(yuǎn)的州建立分部，進(jìn)行數(shù)據(jù)標(biāo)注。也有很多公司將業(yè)務(wù)外包給數(shù)據(jù)標(biāo)注公司，這些公司的員工一般在非洲國(guó)家、印度或者其他人工成本較低的國(guó)家。對(duì)數(shù)據(jù)需求量大的公司，每個(gè)月支付給外包公司上百萬(wàn)美元，才能滿足開(kāi)發(fā)需求。

數(shù)據(jù)標(biāo)注不僅消耗資金，也是訓(xùn)練模型中最耗時(shí)的環(huán)節(jié)。從數(shù)據(jù)采集到最終標(biāo)識(shí)，很可能要等待一個(gè)月的時(shí)間。嚴(yán)重影響了開(kāi)發(fā)進(jìn)度。因此，很多無(wú)人駕駛公司開(kāi)始研究數(shù)據(jù)標(biāo)識(shí)，希望不再依賴人力與第三方公司。

印度數(shù)據(jù)標(biāo)注公司iMerit

數(shù)據(jù)標(biāo)注無(wú)處不在

訓(xùn)練無(wú)人駕駛的模型就需要理解各種障礙物的含義，就離不開(kāi)數(shù)據(jù)標(biāo)識(shí)。無(wú)人駕駛的數(shù)據(jù)標(biāo)識(shí)主要可以用兩個(gè)維度來(lái)看。第一個(gè)維度是2D和3D的分別。2D一般指通過(guò)攝像頭捕捉到的數(shù)據(jù)，3D指激光雷達(dá)捕捉到的數(shù)據(jù)。第二個(gè)維度是語(yǔ)義分割（semantic segmentation）與畫框（bounding box）的分別。

2D畫框的例子3D語(yǔ)義標(biāo)注的例子

魚(yú)和熊掌不可兼得

數(shù)據(jù)標(biāo)注的難點(diǎn)主要來(lái)源于兩個(gè)方面：速度與質(zhì)量。速度慢了就滿足不了模型訓(xùn)練的需求，而太快就會(huì)影響質(zhì)量，質(zhì)量低了就會(huì)影響模型的準(zhǔn)確性。在資源有限的情況下，速度與質(zhì)量往往魚(yú)和熊掌不可兼得。

我們可以通過(guò)兩種手段來(lái)解決這一矛盾：合理的流程和更自動(dòng)化的機(jī)器學(xué)習(xí)技術(shù)。

首先來(lái)看流程。數(shù)據(jù)標(biāo)識(shí)速度慢，或是質(zhì)量低，其實(shí)很多時(shí)候不是技術(shù)的問(wèn)題，而是流程的問(wèn)題。數(shù)據(jù)從采集到產(chǎn)出，首先要被“篩選”，分發(fā)到數(shù)據(jù)標(biāo)識(shí)人員的手上，然后被標(biāo)識(shí)，標(biāo)識(shí)的結(jié)果再被傳回來(lái)，最后需要抽檢，保證質(zhì)量。這些步驟中很多地方需要改進(jìn)。比如，哪類數(shù)據(jù)應(yīng)該被篩選？質(zhì)量不合格的標(biāo)識(shí)該怎么辦？是否要退回重做？重做又需要時(shí)間，不重做就意味著需要更多的數(shù)據(jù)。對(duì)于資金不夠充足的公司，改進(jìn)流程往往是最合適的手段。

從技術(shù)方面來(lái)看，近年來(lái)，AutoML（Automated Machine Learning）的概念越來(lái)越火，即端到端的全自動(dòng)機(jī)器學(xué)習(xí)技術(shù)，可以自主調(diào)參，自主評(píng)估模型，從而縮短模型訓(xùn)練的周期。但是，AutoML不是萬(wàn)能的。至少在未來(lái)幾年里，我們都無(wú)法擺脫對(duì)人工數(shù)據(jù)標(biāo)識(shí)的依賴。我們需要找到一種人機(jī)共生的方式，將人類對(duì)機(jī)器的幫助最大化。

歐洲數(shù)據(jù)標(biāo)識(shí)市場(chǎng)中，人工標(biāo)識(shí)的占比始終占大多數(shù)

人機(jī)共生（Human-in-the-Loop）

2020-2030這十年，將是人類探索與AI合作機(jī)會(huì)的十年。數(shù)據(jù)標(biāo)注就是人類與AI合作最完美的途徑之一。利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行視覺(jué)探測(cè)，雖然成本低、速度快，但是往往有一定的錯(cuò)誤率。這時(shí)，就需要人類介入，告訴機(jī)器錯(cuò)在了哪里。機(jī)器會(huì)記住這些人類提供的回饋信息，進(jìn)一步訓(xùn)練自己的模型，避免下次在類似場(chǎng)景中犯同樣的錯(cuò)誤，從而形成了一個(gè)循環(huán)。

比如，AI探測(cè)結(jié)果是，某個(gè)交通信號(hào)燈的顏色是紅色，而人類檢查后發(fā)現(xiàn)應(yīng)該是綠色，就通過(guò)某個(gè)前端工具點(diǎn)擊“錯(cuò)誤”。開(kāi)發(fā)團(tuán)隊(duì)要盡快找到模型最需要的反饋信息，為人類標(biāo)注員提供一個(gè)工具，將人類的反饋快速分享給機(jī)器。

總結(jié)

以上是生活随笔為你收集整理的数据标注的困境的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

数据标注的困境

總結(jié)