當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工作流程、完整机器学习项目的流程、机器学习算法分类、独立同分布、模型评估、深度学习简介

發(fā)布時(shí)間：2024/3/26 pytorch 64 豆豆

生活随笔收集整理的這篇文章主要介紹了人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工作流程、完整机器学习项目的流程、机器学习算法分类、独立同分布、模型评估、深度学习简介小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度學(xué)習(xí)實(shí)戰(zhàn)（不定時(shí)更新）

1.1 人工智能概述

1 人工智能應(yīng)用場景

2 人工智能小案例

案例一：

參考鏈接：https://quickdraw.withgoogle.com

案例二：

參考鏈接：https://pjreddie.com/darknet/yolo/

案例三：

查看更多：https://deepdreamgenerator.com/

3 人工智能發(fā)展必備三要素：

數(shù)據(jù)
算法
計(jì)算力
- CPU,GPU,TPU

計(jì)算力之CPU、GPU對比：
- CPU主要適合I\O密集型的任務(wù)
- GPU主要適合計(jì)算密集型任務(wù)

提問：什么類型的程序適合在GPU上運(yùn)行？

（1）計(jì)算密集型的程序。

所謂計(jì)算密集型(Compute-intensive)的程序，就是其大部分運(yùn)行時(shí)間花在了寄存器運(yùn)算上，寄存器的速度和處理器的速度相當(dāng)，從寄存器讀寫數(shù)據(jù)幾乎沒有延時(shí)。可以做一下對比，讀內(nèi)存的延遲大概是幾百個(gè)時(shí)鐘周期；讀硬盤的速度就不說了，即便是SSD, 也實(shí)在是太慢了。　　

（2）易于并行的程序。

GPU其實(shí)是一種SIMD(Single Instruction Multiple Data)架構(gòu)，他有成百上千個(gè)核，每一個(gè)核在同一時(shí)間最好能做同樣的事情。

CPU和GPU的區(qū)別：

http://www.sohu.com/a/201309334_468740

Google TPU 介紹：

https://buzzorange.com/techorange/2017/09/27/what-intel-google-nvidia-microsoft-do-for-ai-chips/

4 人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)

人工智能和機(jī)器學(xué)習(xí)，深度學(xué)習(xí)的關(guān)系
- 機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑
- 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來

4 小結(jié)

人工智能應(yīng)用場景【了解】
- 網(wǎng)絡(luò)安全、電子商務(wù)、計(jì)算模擬、社交網(wǎng)絡(luò) … ...
人工智能必備三要素【知道】
- 數(shù)據(jù)、算法、計(jì)算力
人工智能和機(jī)器學(xué)習(xí)，深度學(xué)習(xí)的關(guān)系【知道】
- 機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑
- 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來

1.2 人工智能發(fā)展歷程

1 人工智能的起源

1.1 圖靈測試

測試者與被測試者（一個(gè)人和一臺機(jī)器）隔開的情況下，通過一些裝置（如鍵盤）向被測試者隨意提問。

多次測試（一般為5min之內(nèi)），如果有超過30%的測試者不能確定被測試者是人還是機(jī)器，那么這臺機(jī)器就通過了測試，并被認(rèn)為具有人類智能。

1.2 達(dá)特茅斯會議

1956年8月，在美國漢諾斯小鎮(zhèn)寧靜的達(dá)特茅斯學(xué)院中，

? 約翰·麥卡錫（John McCarthy）

? 馬文·閔斯基（Marvin Minsky，人工智能與認(rèn)知學(xué)專家）

? 克勞德·香農(nóng)（Claude Shannon，信息論的創(chuàng)始人）

? 艾倫·紐厄爾（Allen Newell，計(jì)算機(jī)科學(xué)家）

? 赫伯特·西蒙（Herbert Simon，諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主）等科學(xué)家正聚在一起，討論著一個(gè)完全不食人間煙火的主題：

用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能。

會議足足開了兩個(gè)月的時(shí)間，雖然大家沒有達(dá)成普遍的共識，但是卻為會議討論的內(nèi)容起了一個(gè)名字：

??人工智能

因此，1956年也就成為了人工智能元年。

2 發(fā)展歷程

人工智能充滿未知的探索道路曲折起伏。如何描述人工智能自1956年以來60余年的發(fā)展歷程，學(xué)術(shù)界可謂仁者見仁、智者見智。我們將人工智能的發(fā)展歷程劃分為以下6個(gè)階段：

第一是起步發(fā)展期：1956年—20世紀(jì)60年代初。

人工智能概念提出后，相繼取得了一批令人矚目的研究成果，如機(jī)器定理證明、跳棋程序等，掀起人工智能發(fā)展的第一個(gè)高潮。
第二是反思發(fā)展期：20世紀(jì)60年代—70年代初。

人工智能發(fā)展初期的突破性進(jìn)展大大提升了人們對人工智能的期望，人們開始嘗試更具挑戰(zhàn)性的任務(wù)，并提出了一些不切實(shí)際的研發(fā)目標(biāo)。然而，接二連三的失敗和預(yù)期目標(biāo)的落空（例如，無法用機(jī)器證明兩個(gè)連續(xù)函數(shù)之和還是連續(xù)函數(shù)、機(jī)器翻譯鬧出笑話等），使人工智能的發(fā)展走入低谷。
第三是應(yīng)用發(fā)展期：20世紀(jì)70年代初—80年代中。

20世紀(jì)70年代出現(xiàn)的專家系統(tǒng)模擬人類專家的知識和經(jīng)驗(yàn)解決特定領(lǐng)域的問題，實(shí)現(xiàn)了人工智能從理論研究走向?qū)嶋H應(yīng)用、從一般推理策略探討轉(zhuǎn)向運(yùn)用專門知識的重大突破。專家系統(tǒng)在醫(yī)療、化學(xué)、地質(zhì)等領(lǐng)域取得成功，推動人工智能走入應(yīng)用發(fā)展的新高潮。
第四是低迷發(fā)展期：20世紀(jì)80年代中—90年代中。

隨著人工智能的應(yīng)用規(guī)模不斷擴(kuò)大，專家系統(tǒng)存在的應(yīng)用領(lǐng)域狹窄、缺乏常識性知識、知識獲取困難、推理方法單一、缺乏分布式功能、難以與現(xiàn)有數(shù)據(jù)庫兼容等問題逐漸暴露出來。
第五是穩(wěn)步發(fā)展期：20世紀(jì)90年代中—2010年。

由于網(wǎng)絡(luò)技術(shù)特別是互聯(lián)網(wǎng)技術(shù)的發(fā)展，加速了人工智能的創(chuàng)新研究，促使人工智能技術(shù)進(jìn)一步走向?qū)嵱没?997年國際商業(yè)機(jī)器公司（簡稱IBM）深藍(lán)超級計(jì)算機(jī)戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫，2008年IBM提出“智慧地球”的概念。以上都是這一時(shí)期的標(biāo)志性事件。
第六是蓬勃發(fā)展期：2011年至今。

隨著大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展，泛在感知數(shù)據(jù)和圖形處理器等計(jì)算平臺推動以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)飛速發(fā)展，大幅跨越了科學(xué)與應(yīng)用之間的“技術(shù)鴻溝”，諸如圖像分類、語音識別、知識問答、人機(jī)對弈、無人駕駛等人工智能技術(shù)實(shí)現(xiàn)了從“不能用、不好用”到“可以用”的技術(shù)突破，迎來爆發(fā)式增長的新高潮。

3 小結(jié)

人工智能的起源【了解】
- 圖靈測試
- 達(dá)特茅斯會議
人工智能的發(fā)展經(jīng)歷了六個(gè)階段【了解】
- 起步發(fā)展期
- 反思發(fā)展期
- 應(yīng)用發(fā)展期
- 低迷發(fā)展期
- 穩(wěn)步發(fā)展期
- 蓬勃發(fā)展期

1.3 人工智能主要分支

1 主要分支介紹

通訊、感知與行動是現(xiàn)代人工智能的三個(gè)關(guān)鍵能力，在這里我們將根據(jù)這些能力/應(yīng)用對這三個(gè)技術(shù)領(lǐng)域進(jìn)行介紹：

計(jì)算機(jī)視覺(CV)、
自然語言處理(NLP)
- 在 NLP 領(lǐng)域中，將覆蓋文本挖掘/分類、機(jī)器翻譯和語音識別。
機(jī)器人

1.1 分支一：計(jì)算機(jī)視覺

計(jì)算機(jī)視覺(CV)是指機(jī)器感知環(huán)境的能力。這一技術(shù)類別中的經(jīng)典任務(wù)有圖像形成、圖像處理、圖像提取和圖像的三維推理。物體檢測和人臉識別是其比較成功的研究領(lǐng)域。

當(dāng)前階段：

計(jì)算機(jī)視覺現(xiàn)已有很多應(yīng)用，這表明了這類技術(shù)的成就，也讓我們將其歸入到應(yīng)用階段。隨著深度學(xué)習(xí)的發(fā)展，機(jī)器甚至能在特定的案例中實(shí)現(xiàn)超越人類的表現(xiàn)。但是，這項(xiàng)技術(shù)離社會影響階段還有一定距離，那要等到機(jī)器能在所有場景中都達(dá)到人類的同等水平才行(感知其環(huán)境的所有相關(guān)方面)。

發(fā)展歷史：

1.2 分支二：語音識別

語音識別是指識別語音(說出的語言)并將其轉(zhuǎn)換成對應(yīng)文本的技術(shù)。相反的任務(wù)(文本轉(zhuǎn)語音/TTS)也是這一領(lǐng)域內(nèi)一個(gè)類似的研究主題。

當(dāng)前階段：

語音識別已經(jīng)處于應(yīng)用階段很長時(shí)間了。最近幾年，隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的發(fā)展，語音識別進(jìn)展頗豐，現(xiàn)在已經(jīng)非常接近社會影響階段了。

語音識別領(lǐng)域仍然面臨著聲紋識別和「雞尾酒會效應(yīng)」等一些特殊情況的難題。

現(xiàn)代語音識別系統(tǒng)嚴(yán)重依賴于云，在離線時(shí)可能就無法取得理想的工作效果。

發(fā)展歷史：

百度語音識別：

距離小于1米，中文字準(zhǔn)率97%+
支持耳語、長語音、中英文混合及方言

1.3 分支三：文本挖掘/分類

這里的文本挖掘主要是指文本分類，該技術(shù)可用于理解、組織和分類結(jié)構(gòu)化或非結(jié)構(gòu)化文本文檔。其涵蓋的主要任務(wù)有句法分析、情緒分析和垃圾信息檢測。

當(dāng)前階段：

我們將這項(xiàng)技術(shù)歸類到應(yīng)用階段，因?yàn)楝F(xiàn)在有很多應(yīng)用都已經(jīng)集成了基于文本挖掘的情緒分析或垃圾信息檢測技術(shù)。文本挖掘技術(shù)也在智能投顧的開發(fā)中有所應(yīng)用，并且提升了用戶體驗(yàn)。

文本挖掘和分類領(lǐng)域的一個(gè)瓶頸出現(xiàn)在歧義和有偏差的數(shù)據(jù)上。

發(fā)展歷史：

1.4 分支四：機(jī)器翻譯

機(jī)器翻譯(MT)是利用機(jī)器的力量自動將一種自然語言(源語言)的文本翻譯成另一種語言(目標(biāo)語言)。

當(dāng)前階段：

機(jī)器翻譯是一個(gè)見證了大量發(fā)展歷程的應(yīng)用領(lǐng)域。該領(lǐng)域最近由于神經(jīng)機(jī)器翻譯而取得了非常顯著的進(jìn)展，但仍然沒有全面達(dá)到專業(yè)譯者的水平；但是，我們相信在大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)技術(shù)的幫助下，機(jī)器翻譯很快就將進(jìn)入社會影響階段。

在某些情況下，俚語和行話等內(nèi)容的翻譯會比較困難(受限詞表問題)。

專業(yè)領(lǐng)域的機(jī)器翻譯(比如醫(yī)療領(lǐng)域)表現(xiàn)通常不好。

發(fā)展歷史：

1.5 分支五：機(jī)器人

機(jī)器人學(xué)(Robotics)研究的是機(jī)器人的設(shè)計(jì)、制造、運(yùn)作和應(yīng)用，以及控制它們的計(jì)算機(jī)系統(tǒng)、傳感反饋和信息處理。

機(jī)器人可以分成兩大類:固定機(jī)器人和移動機(jī)器人。固定機(jī)器人通常被用于工業(yè)生產(chǎn)(比如用于裝配線)。常見的移動機(jī)器人應(yīng)用有貨運(yùn)機(jī)器人、空中機(jī)器人和自動載具。機(jī)器人需要不同部件和系統(tǒng)的協(xié)作才能實(shí)現(xiàn)最優(yōu)的作業(yè)。其中在硬件上包含傳感器、反應(yīng)器和控制器；另外還有能夠?qū)崿F(xiàn)感知能力的軟件，比如定位、地圖測繪和目標(biāo)識別。

當(dāng)前階段：

自上世紀(jì)「Robot」一詞誕生以來，人們已經(jīng)為工業(yè)制造業(yè)設(shè)計(jì)了很多機(jī)器人。工業(yè)機(jī)器人是增長最快的應(yīng)用領(lǐng)域，它們在 20 世紀(jì) 80 年代將這一領(lǐng)域帶入了應(yīng)用階段。在安川電機(jī)、Fanuc、ABB、庫卡等公司的努力下，我們認(rèn)為進(jìn)入 21 世紀(jì)之后，機(jī)器人領(lǐng)域就已經(jīng)進(jìn)入了社會影響階段，此時(shí)各種工業(yè)機(jī)器人已經(jīng)主宰了裝配生產(chǎn)線。此外，軟體機(jī)器人在很多領(lǐng)域也有廣泛的應(yīng)用，比如在醫(yī)療行業(yè)協(xié)助手術(shù)或在金融行業(yè)自動執(zhí)行承銷過程。

但是，法律法規(guī)和「機(jī)器人威脅論」可能會妨礙機(jī)器人領(lǐng)域的發(fā)展。還有設(shè)計(jì)和制造機(jī)器人需要相對較高的投資。

發(fā)展歷史：

總的來說，人工智能領(lǐng)域的研究前沿正逐漸從搜索、知識和推理領(lǐng)域轉(zhuǎn)向機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域。

大多數(shù)早期技術(shù)至少已經(jīng)處于應(yīng)用階段了，而且其中一些已經(jīng)顯現(xiàn)出了社會影響力。一些新開發(fā)的技術(shù)可能仍處于工程甚至研究階段，但是我們可以看到不同階段之間轉(zhuǎn)移的速度變得越來越快。

2 小結(jié)

人工智能主要分支【了解】
- 計(jì)算機(jī)視覺
- 語音識別
- 文本挖掘/分類
- 機(jī)器翻譯
- 機(jī)器人

1.4 機(jī)器學(xué)習(xí)工作流程

1 什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得模型，并利用模型對未知數(shù)據(jù)進(jìn)行預(yù)測。

2 機(jī)器學(xué)習(xí)工作流程

機(jī)器學(xué)習(xí)工作流程總結(jié)
- 1.獲取數(shù)據(jù)
- 2.數(shù)據(jù)基本處理
- 3.特征工程
- 4.機(jī)器學(xué)習(xí)(模型訓(xùn)練)
- 5.模型評估
  - 結(jié)果達(dá)到要求，上線服務(wù)
  - 沒有達(dá)到要求，重新上面步驟

2.1 獲取到的數(shù)據(jù)集介紹

數(shù)據(jù)簡介

在數(shù)據(jù)集中一般：
- 一行數(shù)據(jù)我們稱為一個(gè)樣本
- 一列數(shù)據(jù)我們成為一個(gè)特征
- 有些數(shù)據(jù)有目標(biāo)值（標(biāo)簽值），有些數(shù)據(jù)沒有目標(biāo)值（如上表中，電影類型就是這個(gè)數(shù)據(jù)集的目標(biāo)值）
數(shù)據(jù)類型構(gòu)成：
- 數(shù)據(jù)類型一：特征值+目標(biāo)值（目標(biāo)值是連續(xù)的和離散的）
- 數(shù)據(jù)類型二：只有特征值，沒有目標(biāo)值
數(shù)據(jù)分割：
- 機(jī)器學(xué)習(xí)一般的數(shù)據(jù)集會劃分為兩個(gè)部分：
  - 訓(xùn)練數(shù)據(jù)：用于訓(xùn)練，構(gòu)建模型
  - 測試數(shù)據(jù)：在模型檢驗(yàn)時(shí)使用，用于評估模型是否有效
- 劃分比例：
  - 訓(xùn)練集：70% 80% 75%
  - 測試集：30% 20% 25%

2.2 數(shù)據(jù)基本處理

? 即對數(shù)據(jù)進(jìn)行缺失值、去除異常值等處理

2.3 特征工程

2.3.1什么是特征工程

特征工程是使用專業(yè)背景知識和技巧處理數(shù)據(jù)，使得特征能在機(jī)器學(xué)習(xí)算法上發(fā)揮更好的作用的過程。

意義：會直接影響機(jī)器學(xué)習(xí)的效果

2.3.2 為什么需要特征工程(Feature Engineering)

機(jī)器學(xué)習(xí)領(lǐng)域的大神Andrew Ng(吳恩達(dá))老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

注：業(yè)界廣泛流傳：數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。

2.3.3 特征工程包含內(nèi)容

特征提取
特征預(yù)處理
特征降維

2.3.4 各概念具體解釋

特征提取
- 將任意數(shù)據(jù)（如文本或圖像）轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字特征

2.4 機(jī)器學(xué)習(xí)

選擇合適的算法對模型進(jìn)行訓(xùn)練（具體內(nèi)容見1.5）

2.5 模型評估

對訓(xùn)練好的模型進(jìn)行評估（具體內(nèi)容見1.6）

3 小結(jié)

機(jī)器學(xué)習(xí)定義【掌握】
- 機(jī)器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得模型，并利用模型對未知數(shù)據(jù)進(jìn)行預(yù)測
機(jī)器學(xué)習(xí)工作流程總結(jié)【掌握】
- 1.獲取數(shù)據(jù)
- 2.數(shù)據(jù)基本處理
- 3.特征工程
- 4.機(jī)器學(xué)習(xí)(模型訓(xùn)練)
- 5.模型評估
  - 結(jié)果達(dá)到要求，上線服務(wù)
  - 沒有達(dá)到要求，重新上面步驟
獲取到的數(shù)據(jù)集介紹【掌握】
- 數(shù)據(jù)集中一行數(shù)據(jù)一般稱為一個(gè)樣本，一列數(shù)據(jù)一般稱為一個(gè)特征。
- 數(shù)據(jù)集的構(gòu)成：
  - 由特征值+目標(biāo)值（部分?jǐn)?shù)據(jù)集沒有）構(gòu)成
- 為了模型的訓(xùn)練和測試，把數(shù)據(jù)集分為：
  - 訓(xùn)練數(shù)據(jù)（70%-80%）和測試數(shù)據(jù)（20%-30%）
特征工程包含內(nèi)容【了解】
- 特征提取
- 特征預(yù)處理
- 特征降維

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程（拓展閱讀）

1?抽象成數(shù)學(xué)問題

明確問題是進(jìn)行機(jī)器學(xué)習(xí)的第一步。機(jī)器學(xué)習(xí)的訓(xùn)練過程通常都是一件非常耗時(shí)的事情，胡亂嘗試時(shí)間成本是非常高的。

這里的抽象成數(shù)學(xué)問題，指的明確我們可以獲得什么樣的數(shù)據(jù)，抽象出的問題，是一個(gè)分類還是回歸或者是聚類的問題。

2?獲取數(shù)據(jù)

數(shù)據(jù)決定了機(jī)器學(xué)習(xí)結(jié)果的上限，而算法只是盡可能逼近這個(gè)上限。

數(shù)據(jù)要有代表性，否則必然會過擬合。

而且對于分類問題，數(shù)據(jù)偏斜不能過于嚴(yán)重，不同類別的數(shù)據(jù)數(shù)量不要有數(shù)量級的差距。

而且還要對數(shù)據(jù)的量級有一個(gè)評估，多少個(gè)樣本，多少個(gè)特征，可以估算出其對內(nèi)存的消耗程度，判斷訓(xùn)練過程中內(nèi)存是否能夠放得下。如果放不下就得考慮改進(jìn)算法或者使用一些降維的技巧了。如果數(shù)據(jù)量實(shí)在太大，那就要考慮分布式了。

3?特征預(yù)處理與特征選擇

良好的數(shù)據(jù)要能夠提取出良好的特征才能真正發(fā)揮作用。

特征預(yù)處理、數(shù)據(jù)清洗是很關(guān)鍵的步驟，往往能夠使得算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等，數(shù)據(jù)挖掘過程中很多時(shí)間就花在它們上面。這些工作簡單可復(fù)制，收益穩(wěn)定可預(yù)期，是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。

篩選出顯著特征、摒棄非顯著特征，需要機(jī)器學(xué)習(xí)工程師反復(fù)理解業(yè)務(wù)。這對很多結(jié)果有決定性的影響。特征選擇好了，非常簡單的算法也能得出良好、穩(wěn)定的結(jié)果。這需要運(yùn)用特征有效性分析的相關(guān)技術(shù)，如相關(guān)系數(shù)、卡方檢驗(yàn)、平均互信息、條件熵、后驗(yàn)概率、邏輯回歸權(quán)重等方法。

4?訓(xùn)練模型與調(diào)優(yōu)

直到這一步才用到我們上面說的算法進(jìn)行訓(xùn)練。現(xiàn)在很多算法都能夠封裝成黑盒供人使用。但是真正考驗(yàn)水平的是調(diào)整這些算法的（超）參數(shù)，使得結(jié)果變得更加優(yōu)良。這需要我們對算法的原理有深入的理解。理解越深入，就越能發(fā)現(xiàn)問題的癥結(jié)，提出良好的調(diào)優(yōu)方案。

5?模型診斷

如何確定模型調(diào)優(yōu)的方向與思路呢？這就需要對模型進(jìn)行診斷的技術(shù)。

過擬合、欠擬合判斷是模型診斷中至關(guān)重要的一步。常見的方法如交叉驗(yàn)證，繪制學(xué)習(xí)曲線等。過擬合的基本調(diào)優(yōu)思路是增加數(shù)據(jù)量，降低模型復(fù)雜度。欠擬合的基本調(diào)優(yōu)思路是提高特征數(shù)量和質(zhì)量，增加模型復(fù)雜度。

誤差分析也是機(jī)器學(xué)習(xí)至關(guān)重要的步驟。通過觀察誤差樣本全面分析產(chǎn)生誤差的原因:是參數(shù)的問題還是算法選擇的問題，是特征的問題還是數(shù)據(jù)本身的問題……

診斷后的模型需要進(jìn)行調(diào)優(yōu)，調(diào)優(yōu)后的新模型需要重新進(jìn)行診斷，這是一個(gè)反復(fù)迭代不斷逼近的過程，需要不斷地嘗試，進(jìn)而達(dá)到最優(yōu)狀態(tài)。

6?模型融合

一般來說，模型融合后都能使得效果有一定提升。而且效果很好。

工程上，主要提升算法準(zhǔn)確度的方法是分別在模型的前端（特征清洗和預(yù)處理，不同的采樣模式）與后端（模型融合）上下功夫。因?yàn)樗麄儽容^標(biāo)準(zhǔn)可復(fù)制，效果比較穩(wěn)定。而直接調(diào)參的工作不會很多，畢竟大量數(shù)據(jù)訓(xùn)練起來太慢了，而且效果難以保證。

7?上線運(yùn)行

這一部分內(nèi)容主要跟工程實(shí)現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向，模型在線上運(yùn)行的效果直接決定模型的成敗。不單純包括其準(zhǔn)確程度、誤差等情況，還包括其運(yùn)行的速度(時(shí)間復(fù)雜度)、資源消耗程度（空間復(fù)雜度）、穩(wěn)定性是否可接受。

這些工作流程主要是工程實(shí)踐上總結(jié)出的一些經(jīng)驗(yàn)。并不是每個(gè)項(xiàng)目都包含完整的一個(gè)流程。這里的部分只是一個(gè)指導(dǎo)性的說明，只有大家自己多實(shí)踐，多積累項(xiàng)目經(jīng)驗(yàn)，才會有自己更深刻的認(rèn)識。

1.5 機(jī)器學(xué)習(xí)算法分類

根據(jù)數(shù)據(jù)集組成不同，可以把機(jī)器學(xué)習(xí)算法分為：

監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)

1 監(jiān)督學(xué)習(xí)

定義：
- 輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。
  - 函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸），
  - 或是輸出是有限個(gè)離散值（稱作分類）。

1.1 回歸問題

例如：預(yù)測房價(jià)，根據(jù)樣本集擬合出一條連續(xù)曲線。

1.2 分類問題

例如：根據(jù)腫瘤特征判斷良性還是惡性，得到的是結(jié)果是“良性”或者“惡性”，是離散的。

2 無監(jiān)督學(xué)習(xí)

定義：
- 輸入數(shù)據(jù)是由輸入特征值組成，沒有目標(biāo)值
  - 輸入數(shù)據(jù)沒有被標(biāo)記，也沒有確定的結(jié)果。樣本數(shù)據(jù)類別未知；
  - 需要根據(jù)樣本間的相似性對樣本集進(jìn)行類別劃分。
舉例：

3 半監(jiān)督學(xué)習(xí)

定義：
- 訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)。

舉例：

監(jiān)督學(xué)習(xí)訓(xùn)練方式：

4 強(qiáng)化學(xué)習(xí)

定義：
- 實(shí)質(zhì)是make decisions 問題，即自動進(jìn)行決策，并且可以做連續(xù)決策。

舉例：

小孩想要走路，但在這之前，他需要先站起來，站起來之后還要保持平衡，接下來還要先邁出一條腿，是左腿還是右腿，邁出一步后還要邁出下一步。

小孩就是?agent，他試圖通過采取行動（即行走）來操縱環(huán)境（行走的表面），并且從一個(gè)狀態(tài)轉(zhuǎn)變到另一個(gè)狀態(tài)（即他走的每一步），當(dāng)他完成任務(wù)的子任務(wù)（即走了幾步）時(shí)，孩子得到獎(jiǎng)勵(lì)（給巧克力吃），并且當(dāng)他不能走路時(shí)，就不會給巧克力。

主要包含五個(gè)元素：agent, action, reward, environment, observation；

強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)。

監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的對比

拓展閱讀：Alphago進(jìn)化史漫畫告訴你Zero為什么這么牛：

http://sports.sina.com.cn/chess/weiqi/2017-10-21/doc-ifymyyxw4023875.shtml

獨(dú)立同分布IID(independent and identically distributed)

1.獨(dú)立同分布(i.i.d.)

在概率統(tǒng)計(jì)理論中，如果變量序列或者其他隨機(jī)變量有相同的概率分布，并且互相獨(dú)立，那么這些隨機(jī)變量是獨(dú)立同分布。

在西瓜書中解釋是：輸入空間中的所有樣本服從一個(gè)隱含未知的分布，訓(xùn)練數(shù)據(jù)所有樣本都是獨(dú)立地從這個(gè)分布上采樣而得。

2.簡單解釋 — 獨(dú)立、同分布、獨(dú)立同分布

（1）獨(dú)立：每次抽樣之間沒有關(guān)系，不會相互影響

舉例：給一個(gè)骰子，每次拋骰子拋到幾就是幾，這是獨(dú)立；如果我要拋骰子兩次之和大于8，那么第一次和第二次拋就不獨(dú)立，因?yàn)榈诙螔伒慕Y(jié)果和第一次相關(guān)。

（2）同分布：每次抽樣，樣本服從同一個(gè)分布

舉例：給一個(gè)骰子，每次拋骰子得到任意點(diǎn)數(shù)的概率都是六分之一，這個(gè)就是同分布

（3）獨(dú)立同分布：i.i.d.，每次抽樣之間獨(dú)立而且同分布

3.機(jī)器學(xué)習(xí)領(lǐng)域的重要假設(shè)

IID獨(dú)立同分布即假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是滿足相同分布的，它是通過訓(xùn)練數(shù)據(jù)獲得的模型能夠在測試集獲得好的效果的一個(gè)基本保障。

4.目前發(fā)展

機(jī)器學(xué)習(xí)并不總要求獨(dú)立同分布，在不少問題中要求樣本數(shù)據(jù)采樣自同一個(gè)分布是因?yàn)橄Ｍ糜?xùn)練數(shù)據(jù)集得到的模型可以合理的用于測試數(shù)據(jù)集，使用獨(dú)立同分布假設(shè)能夠解釋得通。

目前一些機(jī)器學(xué)習(xí)內(nèi)容已經(jīng)不再囿于獨(dú)立同分布假設(shè)下，一些問題會假設(shè)樣本沒有同分布。

1.6 模型評估

模型評估是模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來工作的性能如何。

按照數(shù)據(jù)集的目標(biāo)值不同，可以把模型評估分為分類模型評估和回歸模型評估。

1 分類模型評估

準(zhǔn)確率
- 預(yù)測正確的數(shù)占樣本總數(shù)的比例。
其他評價(jià)指標(biāo)：精確率、召回率、F1-score、AUC指標(biāo)等

2 回歸模型評估

均方根誤差（Root Mean Squared Error，RMSE）

RMSE是一個(gè)衡量回歸模型誤差率的常用公式。不過，它僅能比較誤差是相同單位的模型。

舉例：

假設(shè)上面的房價(jià)預(yù)測，只有五個(gè)樣本，對應(yīng)的真實(shí)值為：100,120,125,230,400 預(yù)測值為：105,119,120,230,410

那么使用均方根誤差求解得：

其他評價(jià)指標(biāo)：相對平方誤差（Relative Squared Error，RSE）、平均絕對誤差（Mean Absolute Error，MAE)、相對絕對誤差（Relative Absolute Error，RAE)

3 擬合

模型評估用于評價(jià)訓(xùn)練好的的模型的表現(xiàn)效果，其表現(xiàn)效果大致可以分為兩類：過擬合、欠擬合。

在訓(xùn)練過程中，你可能會遇到如下問題：

訓(xùn)練數(shù)據(jù)訓(xùn)練的很好啊，誤差也不大，為什么在測試集上面有問題呢？

當(dāng)算法在某個(gè)數(shù)據(jù)集當(dāng)中出現(xiàn)這種情況，可能就出現(xiàn)了擬合問題。

3.1 欠擬合

因?yàn)闄C(jī)器學(xué)習(xí)到的天鵝特征太少了，導(dǎo)致區(qū)分標(biāo)準(zhǔn)太粗糙，不能準(zhǔn)確識別出天鵝。

欠擬合（under-fitting）：模型學(xué)習(xí)的太過粗糙，連訓(xùn)練集中的樣本數(shù)據(jù)特征關(guān)系都沒有學(xué)出來。

3.2 過擬合

機(jī)器已經(jīng)基本能區(qū)別天鵝和其他動物了。然后，很不巧已有的天鵝圖片全是白天鵝的，于是機(jī)器經(jīng)過學(xué)習(xí)后，會認(rèn)為天鵝的羽毛都是白的，以后看到羽毛是黑的天鵝就會認(rèn)為那不是天鵝。

過擬合（over-fitting）：所建的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過于優(yōu)越，導(dǎo)致在測試數(shù)據(jù)集中表現(xiàn)不佳。

上問題解答：
- 訓(xùn)練數(shù)據(jù)訓(xùn)練的很好啊，誤差也不大，為什么在測試集上面有問題呢？

4 小結(jié)

分類模型評估【了解】
- 準(zhǔn)確率
回歸模型評估【了解】
- RMSE -- 均方根誤差
擬合【知道】
- 舉例 -- 判斷是否是人
- 欠擬合
  - 學(xué)習(xí)到的東西太少
  - 模型學(xué)習(xí)的太過粗糙
- 過擬合
  - 學(xué)習(xí)到的東西太多
  - 學(xué)習(xí)到的特征多，不好泛化

1.8 深度學(xué)習(xí)簡介

1 深度學(xué)習(xí) —— 神經(jīng)網(wǎng)絡(luò)簡介

深度學(xué)習(xí)（Deep Learning）（也稱為深度結(jié)構(gòu)學(xué)習(xí)【Deep Structured Learning】、層次學(xué)習(xí)【Hierarchical Learning】或者是深度機(jī)器學(xué)習(xí)【Deep Machine Learning】）是一類算法集合，是機(jī)器學(xué)習(xí)的一個(gè)分支。

深度學(xué)習(xí)方法近年來，在會話識別、圖像識別和對象偵測等領(lǐng)域表現(xiàn)出了驚人的準(zhǔn)確性。

但是，“深度學(xué)習(xí)”這個(gè)詞語很古老，它在1986年由Dechter在機(jī)器學(xué)習(xí)領(lǐng)域提出，然后在2000年有Aizenberg等人引入到人工神經(jīng)網(wǎng)絡(luò)中。而現(xiàn)在，由于Alex Krizhevsky在2012年使用卷積網(wǎng)絡(luò)結(jié)構(gòu)贏得了ImageNet比賽之后受到大家的矚目。

卷積網(wǎng)絡(luò)之父：Yann LeCun

深度學(xué)習(xí)演示

鏈接:http://playground.tensorflow.org

2 深度學(xué)習(xí)各層負(fù)責(zé)內(nèi)容

神經(jīng)網(wǎng)絡(luò)各層負(fù)責(zé)內(nèi)容：

1層：負(fù)責(zé)識別顏色及簡單紋理

2層：一些神經(jīng)元可以識別更加細(xì)化的紋理，布紋，刻紋，葉紋等

3層：一些神經(jīng)元負(fù)責(zé)感受黑夜里的黃色燭光，高光，螢火，雞蛋黃色等。

4層：一些神經(jīng)元識別萌狗的臉，寵物形貌，圓柱體事物，七星瓢蟲等的存在。

5層：一些神經(jīng)元負(fù)責(zé)識別花，黑眼圈動物，鳥，鍵盤，原型屋頂?shù)取?/strong>

4 小結(jié)

深度學(xué)習(xí)的發(fā)展源頭--神經(jīng)網(wǎng)絡(luò)【了解】
多層神經(jīng)網(wǎng)絡(luò)，在最初幾層是識別簡單內(nèi)容，后面幾層是識別一些復(fù)雜內(nèi)容。【了解】

總結(jié)

以上是生活随笔為你收集整理的人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工作流程、完整机器学习项目的流程、机器学习算法分类、独立同分布、模型评估、深度学习简介的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

人工智能

分支

算法

机器

歡迎分享！

轉(zhuǎn)載請說明來源于"生活随笔"，并保留原作者的名字。

本文地址：人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工

上一篇：注册商标流程，商标注册需要材料

下一篇： deblurGAN-v2 去模糊深度学习

最新發(fā)布

梳理百年深度学习发展史-七月在线机器学习集训营助你把握深度学习浪潮

人脸识别基础关键技术

人脸关键点

专访DeepID发明者孙祎：关于深度学习与人脸算法的深层思考

基于改进的RPCA人脸识别算法

熱門推薦

主流深度学习框架对比（TensorFlow、Keras、MXNet、PyTorch）

2022-01-14：深度学习中关于显卡的设置

浅析人脸识别中的活体检测算法的几种类型

深度学习模型Intel与ARM部署性能分析，Intel和ARM CPU上CNN计算速度差距分析。

深度学习占用gpu内存使用率为0_你了解GPU吗？为什么说深度学习需要GPU？

標(biāo)簽云

单元格

连接数据库

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

Usages

_SMR

Butler

線評論

Restricted

草花

oceanbase

中微信小

request_log

王利芬

蒲丰投针求

筆記

Lampson

zipexception_android

Milner

bootstart_PHP

Screenshots

befor