人工智能项目开发规划与准备
?
目錄
1、發現與明確問題
2、人工智能項目的開發周期
3、數據準備
4、特征工程
4.1特征工程是什么
?4.2 特征工程的基本方法
1、發現與明確問題
? ? ? ? 技術角度:需要思考AI系統性能能達到預期嗎?需要多少數據?能獲取到足夠數據嗎?需要多長時間?
? ? ? ? 業務角度:要解決什么問題?商業目的是什么?
? ? ? ? 對數據進行分析,一般通過使用適當的統計、機器學習、深度學習等方法、對收集的大量數據進行計算,匯總與整理,以求最大化的開發數據價值,發揮數據作用。
2、人工智能項目的開發周期
3、數據準備
????????數據準備的流程:數據采集-->數據清洗--->數據標注--->數據驗收---->數據交付
數據采集方法:
? ? ? ? ?觀測數據、人工收集、調查問卷、線上數據庫
數據清洗:
? ? ? ? 有缺失的數據、有重復的數據、有內容錯誤的數據(邏輯/格式...)、不需要的數據
數據標注:
????????數據標注即通過分類、畫框、標注、注釋等,對圖片、語音、文本等數據進行處理,標記對象的特征,以作為機器學習標簽的過程。
數據劃分:
? ? ? ? 數據標注后需要劃分為訓練集與測試集。拆分比例根據具體任務決定,通常訓練集的比重較大,一個可能的劃分比例是:訓練集數據數量:測試集數據數量=8:2
? ? ? ? 訓練集:用于完成模型訓練任務
? ? ? ? 測試集:用于對模型的泛化效果進行檢驗。
數據驗收:
? ? ? ? 合法性:數據符合定義的業務規則或約束的程度
? ? ? ? 準確性:數據接近真實值的程度
? ? ? ? 完整性:所有必須數據的已知程度
? ? ? ? 一致性:數據在同一數據集內或跨多個數據集的一致程度??
數據管理:
????????數據管理是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效的發揮數據的作用,實現數據有效管理的關鍵是數據組織。
與數據相關的問題:
? ? ? ? 數據不足、數據隱私泄露、分類質量低、數據質量低
4、特征工程
4.1特征工程是什么
? ? ? ? 特征工程是指從原始數據轉換為特征向量的過程。特征工程是機器學習中最重要的起始步驟,會直接影響機器學習的效果,通常需要大量的時間來完成。數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限。
????????
?4.2 特征工程的基本方法
?特征選擇:
? ? ? ? 從給定的特征集合中選出相關特征子集的過程稱為特征選擇。去除無關特征可以降低學習任務的難度,也同樣讓模型變得簡單,降低計算復雜度。拋棄這部分信息一定程度上會降低模型的性能,但這也是計算復雜度和模型性能之間的取舍。
特征提取:
????????特征提取( feature extraction )一般是在特征選擇之前,它提取的對象是原始數據,目的就是自動地構建新的特征,將原始數據轉換為一組具有明顯物理意義(比如Gabor、幾何特征、紋理特征)或者統計意義的特征。
?特征構建:
????????特征構建( feature construction)指從原始數據中人工的構建新的特征。需要花時間去觀察原始數據,思考問題的潛在形式和數據結構,對數據敏感性和機器學習實戰經驗能幫助特征構建。
?
????????
????????
????????
????????
?
總結
以上是生活随笔為你收集整理的人工智能项目开发规划与准备的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win11+AMD的cpu+3060GP
- 下一篇: 人工智能的发展趋势和行业岗位