lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...
第一章:數據標注概述
一、數據標注的起源與發展
1、人工智能行業的發展
- AI的概念:意指讓機器具有像人一般的智能行為(1956年,達特茅斯會議,由約翰·麥卡錫提出)
- AI的發展:60多年來,浮浮沉沉、三起三落
2、數據標注的起源與發展
- 前兩次AI浪潮中,由于數據量級很小,數據標注主要由研究的工程師完成
- 第三次浪潮后,數據標注需求逐漸增大
- 2011年,數據標注的外包市場開啟
- 2017年,數據標注行業真正爆發
3、什么是數據標注
- 概念:通過分類、畫框、標注、注釋等,對圖片、語音、文本等數據進行處理,標記對象的特征,以作為機器學習的基礎素材的過程。
4、數據標注分類概述
a. 圖像標注:
- 對汽車和行人進行篩選、分類、標框等
- 對骨骼進行描點
- 對病理切片標注
b. 語音標注:
- 發音人角色標注
- 環境情景標注
- 多語種標注
- ToBI(Tones and Break Indices)韻律標注體系標注
- 噪聲標注等
c. 文本標注:
- 語句分詞標注
- 語義判定標注
- 文本翻譯標注
- 情感色彩標注
- 拼音標注
- 多音字標注
- 數字符號標注等
5、數據標注流程概述
數據標注流程a. 數據采集:
采集來源:
- 公開數據集
- 專業數據集
獲取方式:
- 用SQL從內部數據庫提取
- 下載公開數據集
- 編寫網頁爬蟲自主收集
采集要求 :
- 要考慮采集規模和預算
- 要注重采集數據的多樣性
- 考慮是否適用于應用場景
- 采集方法要合法合理
b. 數據清洗:
概念:
- 清洗臟數據,將數據統一成適合于標注且與注意密切相關的標準格式,以幫助訓練更為精確的數據模型和算法
方法:
- 對所有采集的數據進行篩檢,最大限度的糾正數據的不一致性和不完整性
舉例:
- 去除重復值
- 去除無關值
- 去除異常值
- 補充缺失值
- 平滑噪聲數據
c. 數據標注:
先試標:
- 需求方算法工程師給出標注樣板
- 詳細闡述標注需求和標注規則
后標注:
- 有數據標注員對不同素材的數據進行標注
d. 數據質檢:
目的:
- 提高輸出數據的準確率
方法:
- 排查
- 抽查
二、數據標注的應用場景
1、出行行業
場景 :
- 汽車自動駕駛研發
- 規劃出行路線
- 優化駕駛環境
應用:
- 矩形框或描點標注車輛
- 矩形框或描點標注人體輪廓
- 在地圖上標記POI
2、金融行業
場景:
- 身份驗證
- 智能投資顧問
- 風險管理
- 欺詐檢測
應用:
- 通過語義分析制作合同研發軟件,大大縮短合同審查工作的時間,并顯著降低錯誤率
3、醫療行業
場景:
- 醫學編碼和注釋
- 遠程醫療
- 醫療機器人
- 醫療影像
- 藥物挖掘
- 疾病預測
應用:
- 人體標框
- 3D畫框
- 骨骼點標記
- 病歷轉錄
4、家居行業
場景:
- 智能家居
應用:
- 矩形標框標記人臉
- 人臉精細分割
- 對物品進行畫框標記
- 通過描點來區域劃分
- 采集語音進行標注處理
5、安防行業
場景:
- 日常監控
應用:
- 人臉標注
- 視頻分割
- 語音采集
- 行人標注
6、公共服務
場景:
- 內容審核
應用:
- 將同意語句歸類的語義分析
- 音頻轉化文字的語音轉錄
7、電子商務
場景:
- 建立客戶全生命周期數據
- 預測需求趨勢
- 優化價格與庫存
- 精準營銷
應用:
- 搜索完善
- 情緒分析
- 人臉標注
- 語音采集
三、有多少智能,就有多少人工
1、有監督的機器學習
AI體系的三大底層:
- 數據
- 算法
- 應用
機器學習 :
- 有監督學習
- 核心在于“分類”
- 主要用于實際產品應用
- 無監督學習
- 核心在于“聚類”
- 主要用于探索研究
2、最后一批人工智能的“老師”
AI瘋狂生長,標注崗位逐漸消亡:
- 由弱人工智能,到強人工智能,直至超人工智能
- 最終“學生“將超越”老師“,人工標注也將不復存在
目前階段的AI輔助工具:
- 例如“流體標注”
四、數據越多,智能越好
深度學習的成功歸功于:
- 高容量的模型
- 越來越強的計算能力
- 可用的大規模標簽數據
大規模數據有助于表征學習:
- 模型性能與數據的數量級呈線性增長關系
- 隨著感知智能向認知智能發展,對數據標注的維度和細化程度的要求也會增加
五、本章框架
六、作業與練習
1、如何理解數據標注與人工智能的關系?
答:人工智能意指讓機器具有像人一般的智能行為,目前階段的人工智能技術主要通過機器學習算法來達到相應的目的,而數據標注工作通過對數據進行處理,標記對象的特征,為機器學習提供了基礎素材,因此數據標注可以看做是部分人工智能算法的前期基礎工作。
2、什么是數據標注?
答:通過分類、畫框、標注、注釋等方法,對圖片、語音、文本等數據進行處理,標記對象的特征,以作為機器學習的基礎素材的過程就是數據標注。
3、數據標注對象可以劃分為哪幾類?
答:按標注對象為分類基礎,可分為:圖像標注、語音標注和文本標注等。
4、數據標注流程包括哪些環節?
答:包括四個環節,即數據采集、數據清洗、數據標注和數據質檢。
5、數據標注有哪些應用場景?
答:數據標注的應用場景隨著人工智能行業的發展日趨多樣化,深入各行各業。例如:出行行業中的自動駕駛研發、物聯網數據、交通網絡大數據、車載應用技術等;金融行業中的身份驗證、智能投資顧問、風險管理、欺詐檢測等;醫療行業中的遠程醫療、醫療機器人、醫療影像、藥物挖掘、高效診斷與治療等;家居行業豐富的智能家居場景;安防行業的日常監控、出入境管理、刑偵案件偵查等;公共服務行業的內容審核、語義分析、語音轉錄、視頻審核等;電子商務行業的精準營銷、搜索完善、情緒分析等。
6、如何理解“有多少智能,就有多少人工”?
答:機器的智能程度與數據處理的量級和質量直接相關,而目前,數據的采集、清洗、標注、質檢大多由人工完成,換言之,現在的弱人工智能階段,有監督學習的機器智能是通過人工的“老師”“教”出來的。在向強人工智能甚至超人工智能的發展過程中,有監督學習會逐漸向無監督學習或遷移學習進行轉變,到時,人工的部分可能將會大幅度削減。
7、數據量級與智能程度之間存在怎樣的聯系?
答:數據量級越高,智能水平越高,大規模數據有助于表征學習,隨著訓練數據的數量級增長,模型性能呈線性增長。
總結
以上是生活随笔為你收集整理的lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【算法】一个简单的决策树(DT)原理
- 下一篇: 【算法】一个简单的随机森林(RF)原理