AI发电厂——数据标注公司(国内数据标注公司服务调研)
眾所周知,深度學習需要大量的標記數據和高效的運算來做支撐。
計算資源只要從黃老板的公司訂購就可以了,但大規模的高質量有標記數據卻不是那么容易獲得,讓科研人員頭疼不已。
應用時代而生的就是一大批數據眾包公司和平臺。正好借著一個數據眾包任務,對于國內的數據標注公司服務有了更深一步的了解。
原文發布于個人博客(好望角),那里有更好的閱讀體驗。
伴隨著AI興起的最關鍵的技術莫過于深度學習,作為深度學習的基礎,神經網絡是一種以輸入為導向的算法,其結果的準確性取決于接近“無窮”量級的數據。
所以摒除那些復雜的中間環節,深度學習最關鍵的就是需要大量的數據訓練,這也是為什么在互聯網大數據的時代,AI可以崛起。而在數據訓練之前,又必須先對大量的數據進行標注,作為機器學習的先導經驗。
因此,催生了大量數據標注公司的誕生。
什么是數據標注
要理解數據標注,得先理解AI其實是部分替代人的認知功能。
回想一下我們是如何學習的,例如我們學習認識蘋果,那么就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標注著“蘋果”兩個字,然后機器通過學習了大量的圖片中的特征,這時候再給機器任意一張蘋果的圖片,它就能認出來了。
根據應用場景的不同,數據標注有許多類型。大體上分為圖像、語音、自然語言三大類。
其中由于圖像研究領域的水文熱潮,圖像標注的任務也尤為眾多。。。無人駕駛、人臉識別、物體檢測……
語音和語言相對來說,數據標注難度更大一點。價格也相對高昂一些。
在進行數據標注之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和算法人員確認。
眾包標注的困難
眾包標注由于是非專業標注,自然會遇到很多問題。這困難主要由以下三個方面組成:
由于標注者是眾包標注,因此其標注者的水平也參差不齊,其背景知識和行為習慣可能有較大的差異。這就相當于是給若干個已訓練好的模型來做預測一樣,其不同的模型有不同的輸出結果。那么這種情況下,基本上使用多數投票的方法來解決。
標注的內容可以分為兩類,一類是有明確標簽的,就好比是試卷里的客觀題一樣,盡管各個標注都不同,但是還是在有限集合內的。另一類是開放式回答,這種標注如同試卷里的主觀題一樣,可能會有無限種可能的結果。甚至是截然相反的結果,比如什么是美,什么是丑,每個人的評價標準是不同的。我們本次想要的數據眾包也是這個類型的。
如果一個需要標注的訓練集中的數據本身就比較稀疏,而我們又需要把它們分割成一個個小塊,這就有可能造成數據稀疏。比如,我們要進行鳥類圖片標注,如果本身鳥類種類很多,而分給每個人的鳥的種類也很多的話,由于每個人認識的鳥的種類是不多的,因此可能存在每個人的標注都會有很高的錯誤率。這時候我們可能就需要讓標注者之間有重疊的部分,然后使用多數表決來解決。
數據眾包公司調研
由于我們需要眾包的數據是中文數據,所以只關心國內的一些數據眾包公司。國外的Amazon Mechanical Turk、CrowdFlower、Mighty AI等公司不在考察范圍之內。
據悉,在國內的數據標注行業實行這樣一套分工流程:上游的科技巨頭把任務交給中游的數據標注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散兵游勇”,比如學生或家庭主婦。
這條產業鏈上,分包現象越嚴重,最終落到最底層的數據服務公司的價格就越低,一層層的“數據黃牛”壓縮了利潤空間,所以一些任務經過數手轉包,酬勞已低得驚人。
目前的數據標注工作主要是集中在河北、河南、山東、山西等勞動力密集的地區,這樣的選址也因為能夠以更加低廉的勞動力成本去完成大量的數據標注工作。
下面是我對國內的數據眾包公司做的一些調研(按照我搜索得知該公司的順序排序)。
不知道是否是我們的標注任務太難的緣故,絕大多數公司沒有任何反饋。
1.百度數據眾包、百度云眾包
百度不愧是靠PC端的網頁搜索起家的,其前端技術還是不錯,網站做的還是比較精致的。但是我提出了數據標注任務之后,貴司的這個相應效率可就有點搞笑了。完全沒有反應……
2.泛函科技
第二天下午有反饋, 0.35元/條, 后來漲價到1.5元/條……而且拿走我的數據,試標結果都沒有反饋。
但是客戶經理態度還比較好,最后給出這樣一個方案“您確定一個期望的價格,我們也可以把他發到我們的平臺上,我們抽取一定傭金后,按您意愿的價格發布任務。看是否有用戶愿意標注,這樣的工期我們不敢保證。”,我是不敢采取的,23333。
3.京東眾智
數據標注的需求申請是真難用!京東公司就沒有一個會前端的人嘛?
但是,京東的效率很高,反應很快(第二天就有回復),對接服務還比較周到細致,測評試標注有標注結果反饋,且效果尚可。最后談妥的價格是0.55元/條,含6個點的稅,增值稅普通發票。關鍵是,京東平臺只接受5W元以上的訂單。這一點為什么不在官網說明?浪費我那么多的聯系時間。
4.數據堂
聯系之后沒有反饋
5.龍貓數據
聯系之后沒有反饋
6.阿里眾包
聯系之后沒有反饋
7.星辰數據
網頁做的很好看,但是聯系之后沒有反饋
8.愛數智慧
第二天下午有反應,但進展比較慢。問我要走了樣例數據試標注卻沒有結果反饋。難道不需要顧客審查標注質量么?
最后報出的定價是0.45元/條,但是誰知道他們標注的質量呢?
9.倍賽公司
聯系之后沒有反饋
10.tagger
聯系之后沒有反饋
總的來說,我眼中國內最靠譜的數據標注公司是京東眾智。不論是客戶經理的對接工作,還是數據的試標注反饋,完成的都比較高效和到位。但也有一個致命的缺陷,它們只接受5W元以上的標注任務訂單,,,這就基本把高校的科研組統統拒之門外了。另外,泛函科技和愛數智慧的服務以及價格尚可,只是沒有京東眾志應答迅速,沒有試標注的結果反饋。至于其他一些公司,統統沒有反饋,令人失望。
PS:上文中,BA已經出鏡,不給T家一個機會貌似不太公平。那就給他們一個亮相機會吧。
參考文獻
眾包數據標注中的隱類別分析
談談人工智能數據標注那些事兒
數據標注員,最后一批被AI取代的人
總結
以上是生活随笔為你收集整理的AI发电厂——数据标注公司(国内数据标注公司服务调研)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 详细解读什么是自适应巡航?
- 下一篇: “AI鉴黄师”数据采集标注方案上线