當前位置：首頁 >

lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业：数据标注概述...

發布時間：2025/3/15 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业：数据标注概述... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一章：數據標注概述

一、數據標注的起源與發展

1、人工智能行業的發展

AI的概念：意指讓機器具有像人一般的智能行為（1956年，達特茅斯會議，由約翰·麥卡錫提出）
AI的發展：60多年來，浮浮沉沉、三起三落

人工智能發展史

2、數據標注的起源與發展

前兩次AI浪潮中，由于數據量級很小，數據標注主要由研究的工程師完成
第三次浪潮后，數據標注需求逐漸增大
2011年，數據標注的外包市場開啟
2017年，數據標注行業真正爆發

3、什么是數據標注

概念：通過分類、畫框、標注、注釋等，對圖片、語音、文本等數據進行處理，標記對象的特征，以作為機器學習的基礎素材的過程。

4、數據標注分類概述

a. 圖像標注：

對汽車和行人進行篩選、分類、標框等
對骨骼進行描點
對病理切片標注

圖像標注

b. 語音標注：

發音人角色標注
環境情景標注
多語種標注
ToBI（Tones and Break Indices）韻律標注體系標注
噪聲標注等

語音標注

c. 文本標注：

語句分詞標注
語義判定標注
文本翻譯標注
情感色彩標注
拼音標注
多音字標注
數字符號標注等

文本標注

5、數據標注流程概述

數據標注流程

a. 數據采集：

采集來源：

- 公開數據集
- 專業數據集

獲取方式：

- 用SQL從內部數據庫提取
- 下載公開數據集
- 編寫網頁爬蟲自主收集

采集要求：

- 要考慮采集規模和預算
- 要注重采集數據的多樣性
- 考慮是否適用于應用場景
- 采集方法要合法合理

b. 數據清洗：

概念：

- 清洗臟數據，將數據統一成適合于標注且與注意密切相關的標準格式，以幫助訓練更為精確的數據模型和算法

方法：

- 對所有采集的數據進行篩檢，最大限度的糾正數據的不一致性和不完整性

舉例：

- 去除重復值
- 去除無關值
- 去除異常值
- 補充缺失值
- 平滑噪聲數據

c. 數據標注：

先試標：

- 需求方算法工程師給出標注樣板
- 詳細闡述標注需求和標注規則

后標注：

- 有數據標注員對不同素材的數據進行標注

d. 數據質檢：

目的：

- 提高輸出數據的準確率

方法：

- 排查
- 抽查

二、數據標注的應用場景

1、出行行業

場景：

汽車自動駕駛研發
規劃出行路線
優化駕駛環境

應用：

矩形框或描點標注車輛
矩形框或描點標注人體輪廓
在地圖上標記POI

2、金融行業

場景：

身份驗證
智能投資顧問
風險管理
欺詐檢測

應用：

通過語義分析制作合同研發軟件，大大縮短合同審查工作的時間，并顯著降低錯誤率

3、醫療行業

場景：

醫學編碼和注釋
遠程醫療
醫療機器人
醫療影像
藥物挖掘
疾病預測

應用：

人體標框
3D畫框
骨骼點標記
病歷轉錄

4、家居行業

場景：

智能家居

應用：

矩形標框標記人臉
人臉精細分割
對物品進行畫框標記
通過描點來區域劃分
采集語音進行標注處理

5、安防行業

場景：

日常監控

應用：

人臉標注
視頻分割
語音采集
行人標注

6、公共服務

場景：

內容審核

應用：

將同意語句歸類的語義分析
音頻轉化文字的語音轉錄

7、電子商務

場景：

建立客戶全生命周期數據
預測需求趨勢
優化價格與庫存
精準營銷

應用：

搜索完善
情緒分析
人臉標注
語音采集

三、有多少智能，就有多少人工

1、有監督的機器學習

AI體系的三大底層：

數據
算法
應用

機器學習：

有監督學習
- 核心在于“分類”
- 主要用于實際產品應用
無監督學習
- 核心在于“聚類”
- 主要用于探索研究

數據標注工作都是有監督學習

2、最后一批人工智能的“老師”

AI瘋狂生長，標注崗位逐漸消亡：

由弱人工智能，到強人工智能，直至超人工智能
最終“學生“將超越”老師“，人工標注也將不復存在

目前階段的AI輔助工具：

例如“流體標注”

手動標注和流體標注的對比

四、數據越多，智能越好

深度學習的成功歸功于：

高容量的模型
越來越強的計算能力
可用的大規模標簽數據

大規模數據有助于表征學習：

模型性能與數據的數量級呈線性增長關系

測試性能隨數據量呈線性增長

隨著感知智能向認知智能發展，對數據標注的維度和細化程度的要求也會增加

五、本章框架

六、作業與練習

1、如何理解數據標注與人工智能的關系？

答：人工智能意指讓機器具有像人一般的智能行為，目前階段的人工智能技術主要通過機器學習算法來達到相應的目的，而數據標注工作通過對數據進行處理，標記對象的特征，為機器學習提供了基礎素材，因此數據標注可以看做是部分人工智能算法的前期基礎工作。

2、什么是數據標注？

答：通過分類、畫框、標注、注釋等方法，對圖片、語音、文本等數據進行處理，標記對象的特征，以作為機器學習的基礎素材的過程就是數據標注。

3、數據標注對象可以劃分為哪幾類？

答：按標注對象為分類基礎，可分為：圖像標注、語音標注和文本標注等。

4、數據標注流程包括哪些環節？

答：包括四個環節，即數據采集、數據清洗、數據標注和數據質檢。

5、數據標注有哪些應用場景？

答：數據標注的應用場景隨著人工智能行業的發展日趨多樣化，深入各行各業。例如：出行行業中的自動駕駛研發、物聯網數據、交通網絡大數據、車載應用技術等；金融行業中的身份驗證、智能投資顧問、風險管理、欺詐檢測等；醫療行業中的遠程醫療、醫療機器人、醫療影像、藥物挖掘、高效診斷與治療等；家居行業豐富的智能家居場景；安防行業的日常監控、出入境管理、刑偵案件偵查等；公共服務行業的內容審核、語義分析、語音轉錄、視頻審核等；電子商務行業的精準營銷、搜索完善、情緒分析等。

6、如何理解“有多少智能，就有多少人工”？

答：機器的智能程度與數據處理的量級和質量直接相關，而目前，數據的采集、清洗、標注、質檢大多由人工完成，換言之，現在的弱人工智能階段，有監督學習的機器智能是通過人工的“老師”“教”出來的。在向強人工智能甚至超人工智能的發展過程中，有監督學習會逐漸向無監督學習或遷移學習進行轉變，到時，人工的部分可能將會大幅度削減。

7、數據量級與智能程度之間存在怎樣的聯系？

答：數據量級越高，智能水平越高，大規模數據有助于表征學習，隨著訓練數據的數量級增長，模型性能呈線性增長。

總結

以上是生活随笔為你收集整理的lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业：数据标注概述...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【算法】一个简单的决策树（DT）原理
下一篇：【算法】一个简单的随机森林（RF）原理

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业：数据标注概述...

第一章：數據標注概述

一、數據標注的起源與發展

1、人工智能行業的發展

2、數據標注的起源與發展

3、什么是數據標注

4、數據標注分類概述

5、數據標注流程概述

二、數據標注的應用場景

1、出行行業

2、金融行業

3、醫療行業