日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

数据产品经理修炼手册_AI产品经理之数据标注

發布時間:2023/12/14 ChatGpt 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据产品经理修炼手册_AI产品经理之数据标注 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前兩篇筆者分別為大家介紹了AI產品經理需要了解的概率論通識、線性代數通識、微積分通識,本篇文章中,筆者將繼續為你介紹AI產品經理需要了解的數據標注,供大家一參考學習。

前幾天參加京東的AI技術沙龍,在提問環節,有個小伙說:

“我是做銷售的,剛才您講的我都沒聽懂,我就知道,現在AI是風口,只要做AI相關的就能掙錢,您能說幾個現在我們這類人能做到嗎?能掙錢就行!”

臺上技術出身的老師自然一時語塞。小伙說的沒錯,百團大戰的時候確實一批刷單公司賺得盆滿缽滿。但是這些投機取巧注定不能長遠。

讓更多人卷進這次AI浪潮的可能就是數據標注了,All in AI的百度擁有大量的標注業務,大部分河南標注工廠用的是百度的標注工具,干的是百度的活。開始的時候標注的利潤空間可以達到60%—70%。有些企業盲目擴張,一下子招了幾百人;但是陸奇離開后,百度需求減少。準確率又普遍提高至95%-96%,活難干了。這些工廠只會百度的標注工具,很難接別家的業務,因此死了一批。

現在來看標注行業是一個苦行業,“如果你和誰有仇,就勸他干標注吧。”這是標注圈有名的段子。干標注就像將水倒進一個水桶里,每拉一個框就是添一碗水。目前,誰也不知道還能添多久,只有水溢出來時,才知道。

數據是AI公司的必需品。數據對于AI模型的重要性尤為重要,AI建模沒有門檻,數據才是門檻。現階段的人工智能是簡單的認知智能。分類器的構造是個數學問題,就是由數據堆起來的。或者說深度學習本質上是個數學問題,是由大量的樣本空間數據反向構造分類器的系數空間的過程。

數據標注模型

數據標注業務的配置是一個復雜的數學模型。比如,有些任務需要串并聯的工作流,并聯的工作流是多人協同的工作。串聯的工作流是后一個結果是基于前一個結果進行處理的,串并聯的工作流需要平臺來實現業務工作流的配置。比如一些NLP型的文本標注作業,需要多個人來標,最后N選一或者投票。串并聯配置涉及到底層數據流的分發等。或者說更像是一個流水線作業流程。

不斷地用標注后的數據去訓練模型,不斷調整模型參數,得到指標數值更高的模型。

數據的質量直接會影響到模型的質量,因此數據標注流程設計和監督糾錯就顯得異常重要。

一般來說,數據標注部分可以有三個角色:

  • 數據標注員:標注員負責標記數據。(文本、圖像、視頻)
  • 數據審核員:審核員負責審核被標記數據的質量。(抽檢)
  • 標注管理員:管理人員、發放任務、跟進流程。
  • 只有在數據被審核員審核通過后,這批數據才能入庫使用。

    一般眾包數據標記流程

  • 任務分配:一般數據分配由后臺自動分發,根據用戶選擇標注類型每次分發幾條內容,標注完成后再次分發。
  • 復核入庫:一般一條任務會分配給大于三個人的基數人員完成,根據少數服從多數原則確定該條數據的最終標簽。
  • 質量驗收:一般會根據用戶標注總數量和入庫數量計算該用戶的標注質量,和計算有效標注數量,質量高的和質量低的薪酬計算方法會有差別,以此來淘汰不能完成高質量標注的人員。
  • 數據標注類型

    圖像標注-線標注

    根據需求標注檢測對象相對應的線型位置,例如:車道線。

    圖像標注-邊框標注

    標注檢測對象相對應的區域,例如:汽車/行人等各種物體。

    圖像標注-3D邊框標注

    將圖像中待檢測物體以立體形式標注,例如汽車檢測。

    圖像標注-語義分隔

    根據檢測區域不同,將圖像標注為不同的像素,例如來自汽車拍攝的圖像。

    圖像標注-多邊形標注

    根據需求標注檢測對象的形狀,例如:標注圖像中的汽車輪廓(示例圖)或標記污損邊界。

    圖像標注-點標注

    根據需求標注檢測對象參考點的像素坐標,或者圖像中的關鍵點標記,如人臉。

    圖像標注-3D點云標注

    在3D空間中,標注點云數據中指定的檢測對象,如汽車、行車道等。

    視頻標注-跟蹤標注

    在視頻或者連續的圖像中跟蹤標注檢測對象,形成有ID關聯的運動軌跡。

    文本標注-中英文語音轉寫與校對

    英文語音轉中文文本,或中文文本轉英文語音。

    文本標注

    實體命名,標注文本中的實體。

    語音標注-客服語音標注

    外呼機器人進行外呼記錄語音標注呼叫成功或者失敗,從而訓練話術。

    標注流程

  • 需求確認:對標注任務需求確認,標注數據集準備完成,規范標注需求,指定標注模型。
  • 人員篩選:確定標注人員及人員角色
  • 人員培訓:針對不同角色培訓標注規范和標注標準
  • 開始試標:先標注少量數據,試用標注數據,調整標注流程,使得效率最優。
  • 正式標注:完成整體標注任務。導出數據。
  • 總結

    快速、高效的進行數據標注,是機器學習和深度學習的基礎,現在一些標注工具通過深度學習模型和主動學習技術,通過NLP模型來提高標注效率,集數據標注、數據管理、模型訓練和模型服務于一體,使數據標注更加輕松、更高效。離AI最近的重復復雜的工作,是首先會被機器取代的。

    #相關閱讀#

    《AI產品經理需要了解的概率論通識:4個概念3個問題》

    《AI產品經理需要了解的線性代數通識》

    《AI產品經理需要了解的微積分通識》

    作者:老張,宜信集團保險事業部智能保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。

    本文由 @老張 原創發布于人人都是產品經理。未經許可,禁止轉載。

    題圖來自Unsplash,基于 CC0 協議。

    總結

    以上是生活随笔為你收集整理的数据产品经理修炼手册_AI产品经理之数据标注的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。