数据标注的困境
數(shù)據(jù)標(biāo)注的困境
眾所周知,機(jī)器學(xué)習(xí)主要分為兩類:監(jiān)督學(xué)習(xí)(supervised learning)與無(wú)監(jiān)督學(xué)習(xí)(unsupervised
learning)。而監(jiān)督學(xué)習(xí)離不開(kāi)數(shù)據(jù)標(biāo)注(data labeling),也就是依靠人工 找到groundtruth。
標(biāo)注平臺(tái)
標(biāo)注平臺(tái)這今年開(kāi)年如雨后春筍般都紛紛出現(xiàn)在公眾視野,表現(xiàn)形式最直接的就是百度搜索的時(shí)候明顯增多了而且有很多用了百度的競(jìng)價(jià)排名,其中不乏一些大廠的內(nèi)部平臺(tái)對(duì)外運(yùn)營(yíng)了,也有一些標(biāo)注公司自己做的標(biāo)注平臺(tái)。
服務(wù)外包公司
這類公司目前是最多的了,同時(shí)也是支撐大部分平臺(tái)類公司運(yùn)營(yíng)的關(guān)鍵。一個(gè)相對(duì)穩(wěn)定收益的項(xiàng)目,這個(gè)年頭誰(shuí)不愿意做呢?
實(shí)際狀況
智能時(shí)代滾滾巨輪之下,一批批用于“人臉識(shí)別”、“自動(dòng)駕駛”、“自然語(yǔ)言處理”的標(biāo)注好的數(shù)據(jù),正是出自這些學(xué)歷不高,每天對(duì)著電腦工作8到10小時(shí)的人手中——他們是“人工智能背后的人工”。經(jīng)過(guò)采訪了多個(gè)數(shù)據(jù)標(biāo)注服務(wù)商、數(shù)據(jù)標(biāo)注工作室和數(shù)據(jù)標(biāo)注者。據(jù)業(yè)內(nèi)人士估計(jì),中國(guó)全職的“數(shù)據(jù)標(biāo)注者”已達(dá)到10萬(wàn)人,兼職人群的規(guī)模則接近100萬(wàn)。他們中有職高學(xué)生,有嘗試過(guò)40份工作的聾啞人,有從工地輾轉(zhuǎn)而來(lái)的新生代農(nóng)民工……他們?cè)丛床粩嗟貫槿斯ぶ悄艿陌l(fā)展供應(yīng)最重要的“數(shù)據(jù)燃料”——在現(xiàn)有的技術(shù)框架下,數(shù)據(jù)量越大,質(zhì)量越好,算法模型就表現(xiàn)越好。可以說(shuō),數(shù)據(jù)決定著整個(gè)人工智能行業(yè)的發(fā)展態(tài)勢(shì)。但標(biāo)注工作本身是一個(gè)勞動(dòng)密集型工種,收入并不高。隨著技術(shù)的進(jìn)一步發(fā)展,未來(lái)還有被取代的可能。許多數(shù)據(jù)標(biāo)注者的父輩是參與了中國(guó)房地產(chǎn)奇跡的農(nóng)民工。如今,父輩手里的鐵鏟變成了年輕人的鼠標(biāo)、鍵盤,但和父輩一樣,他們?nèi)允沁吘壵摺?/p>
燒錢速度有多快?
近年來(lái),我們注意到,數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司層出不窮。只要在圖片中標(biāo)注一輛汽車,只需一秒鐘,就能輕輕松松一美元進(jìn)賬。標(biāo)注一段幾十秒視頻中的汽車,就能幾百美元進(jìn)賬。數(shù)據(jù)標(biāo)注的成本與需求都在節(jié)節(jié)攀升。據(jù)市場(chǎng)研究預(yù)測(cè),到2023年,數(shù)據(jù)標(biāo)注市場(chǎng)將達(dá)到10億美元的規(guī)模。
這些數(shù)據(jù)標(biāo)注公司一般會(huì)開(kāi)發(fā)出基本的物體識(shí)別算法,然后在人工成本較低的地區(qū)招人,培訓(xùn)他們,讓他們找到機(jī)器識(shí)別中的錯(cuò)誤,改正之后提交。比如,一些總部在硅谷的公司會(huì)在比較偏遠(yuǎn)的州建立分部,進(jìn)行數(shù)據(jù)標(biāo)注。也有很多公司將業(yè)務(wù)外包給數(shù)據(jù)標(biāo)注公司,這些公司的員工一般在非洲國(guó)家、印度或者其他人工成本較低的國(guó)家。對(duì)數(shù)據(jù)需求量大的公司,每個(gè)月支付給外包公司上百萬(wàn)美元,才能滿足開(kāi)發(fā)需求。
數(shù)據(jù)標(biāo)注不僅消耗資金,也是訓(xùn)練模型中最耗時(shí)的環(huán)節(jié)。從數(shù)據(jù)采集到最終標(biāo)識(shí),很可能要等待一個(gè)月的時(shí)間。嚴(yán)重影響了開(kāi)發(fā)進(jìn)度。因此,很多無(wú)人駕駛公司開(kāi)始研究數(shù)據(jù)標(biāo)識(shí),希望不再依賴人力與第三方公司。
印度數(shù)據(jù)標(biāo)注公司iMerit
數(shù)據(jù)標(biāo)注無(wú)處不在
訓(xùn)練無(wú)人駕駛的模型就需要理解各種障礙物的含義,就離不開(kāi)數(shù)據(jù)標(biāo)識(shí)。無(wú)人駕駛的數(shù)據(jù)標(biāo)識(shí)主要可以用兩個(gè)維度來(lái)看。第一個(gè)維度是2D和3D的分別。2D一般指通過(guò)攝像頭捕捉到的數(shù)據(jù),3D指激光雷達(dá)捕捉到的數(shù)據(jù)。第二個(gè)維度是語(yǔ)義分割(semantic segmentation)與畫框(bounding box)的分別。
2D畫框的例子3D語(yǔ)義標(biāo)注的例子
魚(yú)和熊掌不可兼得
數(shù)據(jù)標(biāo)注的難點(diǎn)主要來(lái)源于兩個(gè)方面:速度與質(zhì)量。速度慢了就滿足不了模型訓(xùn)練的需求,而太快就會(huì)影響質(zhì)量,質(zhì)量低了就會(huì)影響模型的準(zhǔn)確性。在資源有限的情況下,速度與質(zhì)量往往魚(yú)和熊掌不可兼得。
我們可以通過(guò)兩種手段來(lái)解決這一矛盾:合理的流程和更自動(dòng)化的機(jī)器學(xué)習(xí)技術(shù)。
首先來(lái)看流程。數(shù)據(jù)標(biāo)識(shí)速度慢,或是質(zhì)量低,其實(shí)很多時(shí)候不是技術(shù)的問(wèn)題,而是流程的問(wèn)題。數(shù)據(jù)從采集到產(chǎn)出,首先要被“篩選”,分發(fā)到數(shù)據(jù)標(biāo)識(shí)人員的手上,然后被標(biāo)識(shí),標(biāo)識(shí)的結(jié)果再被傳回來(lái),最后需要抽檢,保證質(zhì)量。這些步驟中很多地方需要改進(jìn)。比如,哪類數(shù)據(jù)應(yīng)該被篩選?質(zhì)量不合格的標(biāo)識(shí)該怎么辦?是否要退回重做?重做又需要時(shí)間,不重做就意味著需要更多的數(shù)據(jù)。對(duì)于資金不夠充足的公司,改進(jìn)流程往往是最合適的手段。
從技術(shù)方面來(lái)看,近年來(lái),AutoML(Automated Machine Learning)的概念越來(lái)越火,即端到端的全自動(dòng)機(jī)器學(xué)習(xí)技術(shù),可以自主調(diào)參,自主評(píng)估模型,從而縮短模型訓(xùn)練的周期。但是,AutoML不是萬(wàn)能的。至少在未來(lái)幾年里,我們都無(wú)法擺脫對(duì)人工數(shù)據(jù)標(biāo)識(shí)的依賴。我們需要找到一種人機(jī)共生的方式,將人類對(duì)機(jī)器的幫助最大化。
歐洲數(shù)據(jù)標(biāo)識(shí)市場(chǎng)中,人工標(biāo)識(shí)的占比始終占大多數(shù)
人機(jī)共生(Human-in-the-Loop)
2020-2030這十年,將是人類探索與AI合作機(jī)會(huì)的十年。數(shù)據(jù)標(biāo)注就是人類與AI合作最完美的途徑之一。利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行視覺(jué)探測(cè),雖然成本低、速度快,但是往往有一定的錯(cuò)誤率。這時(shí),就需要人類介入,告訴機(jī)器錯(cuò)在了哪里。機(jī)器會(huì)記住這些人類提供的回饋信息,進(jìn)一步訓(xùn)練自己的模型,避免下次在類似場(chǎng)景中犯同樣的錯(cuò)誤,從而形成了一個(gè)循環(huán)。
比如,AI探測(cè)結(jié)果是,某個(gè)交通信號(hào)燈的顏色是紅色,而人類檢查后發(fā)現(xiàn)應(yīng)該是綠色,就通過(guò)某個(gè)前端工具點(diǎn)擊“錯(cuò)誤”。開(kāi)發(fā)團(tuán)隊(duì)要盡快找到模型最需要的反饋信息,為人類標(biāo)注員提供一個(gè)工具,將人類的反饋快速分享給機(jī)器。
總結(jié)
- 上一篇: 如何部署自动驾驶系统
- 下一篇: 多目标姿态估计