日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工作流程、完整机器学习项目的流程、机器学习算法分类、独立同分布、模型评估、深度学习简介

發(fā)布時(shí)間:2024/3/26 pytorch 64 豆豆

日萌社

人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度學(xué)習(xí)實(shí)戰(zhàn)(不定時(shí)更新)


1.1 人工智能概述

1 人工智能應(yīng)用場景

2 人工智能小案例

案例一:

參考鏈接:https://quickdraw.withgoogle.com

案例二:

參考鏈接:https://pjreddie.com/darknet/yolo/

案例三:

查看更多:https://deepdreamgenerator.com/

3 人工智能發(fā)展必備三要素:

  • 數(shù)據(jù)
  • 算法
  • 計(jì)算力
    • CPU,GPU,TPU

  • 計(jì)算力之CPU、GPU對比:

    • CPU主要適合I\O密集型的任務(wù)

    • GPU主要適合計(jì)算密集型任務(wù)

  • 提問:什么類型的程序適合在GPU上運(yùn)行?

(1)計(jì)算密集型的程序。

所謂計(jì)算密集型(Compute-intensive)的程序,就是其大部分運(yùn)行時(shí)間花在了寄存器運(yùn)算上,寄存器的速度和處理器的速度相當(dāng),從寄存器讀寫數(shù)據(jù)幾乎沒有延時(shí)。可以做一下對比,讀內(nèi)存的延遲大概是幾百個(gè)時(shí)鐘周期;讀硬盤的速度就不說了,即便是SSD, 也實(shí)在是太慢了。  

(2)易于并行的程序。

GPU其實(shí)是一種SIMD(Single Instruction Multiple Data)架構(gòu), 他有成百上千個(gè)核,每一個(gè)核在同一時(shí)間最好能做同樣的事情。

CPU和GPU的區(qū)別:

http://www.sohu.com/a/201309334_468740

Google TPU 介紹:

https://buzzorange.com/techorange/2017/09/27/what-intel-google-nvidia-microsoft-do-for-ai-chips/

4 人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)

  • 人工智能和機(jī)器學(xué)習(xí),深度學(xué)習(xí)的關(guān)系
    • 機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑
    • 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來

4 小結(jié)

  • 人工智能應(yīng)用場景【了解】
    • 網(wǎng)絡(luò)安全、電子商務(wù)、計(jì)算模擬、社交網(wǎng)絡(luò) … ...
  • 人工智能必備三要素【知道】
    • 數(shù)據(jù)、算法、計(jì)算力
  • 人工智能和機(jī)器學(xué)習(xí),深度學(xué)習(xí)的關(guān)系【知道】
    • 機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑
    • 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來

1.2 人工智能發(fā)展歷程

1 人工智能的起源

1.1 圖靈測試

測試者與被測試者(一個(gè)人和一臺機(jī)器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。

多次測試(一般為5min之內(nèi)),如果有超過30%的測試者不能確定被測試者是人還是機(jī)器,那么這臺機(jī)器就通過了測試,并被認(rèn)為具有人類智能

1.2 達(dá)特茅斯會議

1956年8月,在美國漢諾斯小鎮(zhèn)寧靜的達(dá)特茅斯學(xué)院中,

? 約翰·麥卡錫(John McCarthy)

? 馬文·閔斯基(Marvin Minsky,人工智能與認(rèn)知學(xué)專家)

? 克勞德·香農(nóng)(Claude Shannon,信息論的創(chuàng)始人)

? 艾倫·紐厄爾(Allen Newell,計(jì)算機(jī)科學(xué)家)

? 赫伯特·西蒙(Herbert Simon,諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主)等科學(xué)家正聚在一起,討論著一個(gè)完全不食人間煙火的主題:

用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能。

會議足足開了兩個(gè)月的時(shí)間,雖然大家沒有達(dá)成普遍的共識,但是卻為會議討論的內(nèi)容起了一個(gè)名字:

??人工智能

因此,1956年也就成為了人工智能元年。

2 發(fā)展歷程

人工智能充滿未知的探索道路曲折起伏。如何描述人工智能自1956年以來60余年的發(fā)展歷程,學(xué)術(shù)界可謂仁者見仁、智者見智。我們將人工智能的發(fā)展歷程劃分為以下6個(gè)階段:

  • 第一是起步發(fā)展期:1956年—20世紀(jì)60年代初。

    人工智能概念提出后,相繼取得了一批令人矚目的研究成果,如機(jī)器定理證明、跳棋程序等,掀起人工智能發(fā)展的第一個(gè)高潮。

  • 第二是反思發(fā)展期:20世紀(jì)60年代—70年代初。

    人工智能發(fā)展初期的突破性進(jìn)展大大提升了人們對人工智能的期望,人們開始嘗試更具挑戰(zhàn)性的任務(wù),并提出了一些不切實(shí)際的研發(fā)目標(biāo)。然而,接二連三的失敗和預(yù)期目標(biāo)的落空(例如,無法用機(jī)器證明兩個(gè)連續(xù)函數(shù)之和還是連續(xù)函數(shù)、機(jī)器翻譯鬧出笑話等),使人工智能的發(fā)展走入低谷。

  • 第三是應(yīng)用發(fā)展期:20世紀(jì)70年代初—80年代中。

    20世紀(jì)70年代出現(xiàn)的專家系統(tǒng)模擬人類專家的知識和經(jīng)驗(yàn)解決特定領(lǐng)域的問題,實(shí)現(xiàn)了人工智能從理論研究走向?qū)嶋H應(yīng)用、從一般推理策略探討轉(zhuǎn)向運(yùn)用專門知識的重大突破。專家系統(tǒng)在醫(yī)療、化學(xué)、地質(zhì)等領(lǐng)域取得成功,推動人工智能走入應(yīng)用發(fā)展的新高潮。

  • 第四是低迷發(fā)展期:20世紀(jì)80年代中—90年代中。

    隨著人工智能的應(yīng)用規(guī)模不斷擴(kuò)大,專家系統(tǒng)存在的應(yīng)用領(lǐng)域狹窄、缺乏常識性知識、知識獲取困難、推理方法單一、缺乏分布式功能、難以與現(xiàn)有數(shù)據(jù)庫兼容等問題逐漸暴露出來。

  • 第五是穩(wěn)步發(fā)展期:20世紀(jì)90年代中—2010年。

    由于網(wǎng)絡(luò)技術(shù)特別是互聯(lián)網(wǎng)技術(shù)的發(fā)展,加速了人工智能的創(chuàng)新研究,促使人工智能技術(shù)進(jìn)一步走向?qū)嵱没?997年國際商業(yè)機(jī)器公司(簡稱IBM)深藍(lán)超級計(jì)算機(jī)戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫,2008年IBM提出“智慧地球”的概念。以上都是這一時(shí)期的標(biāo)志性事件。

  • 第六是蓬勃發(fā)展期:2011年至今。

    隨著大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,泛在感知數(shù)據(jù)和圖形處理器等計(jì)算平臺推動以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)飛速發(fā)展,大幅跨越了科學(xué)與應(yīng)用之間的“技術(shù)鴻溝”,諸如圖像分類、語音識別、知識問答、人機(jī)對弈、無人駕駛等人工智能技術(shù)實(shí)現(xiàn)了從“不能用、不好用”到“可以用”的技術(shù)突破,迎來爆發(fā)式增長的新高潮。

3 小結(jié)

  • 人工智能的起源【了解】
    • 圖靈測試
    • 達(dá)特茅斯會議
  • 人工智能的發(fā)展經(jīng)歷了六個(gè)階段【了解】
    • 起步發(fā)展期
    • 反思發(fā)展期
    • 應(yīng)用發(fā)展期
    • 低迷發(fā)展期
    • 穩(wěn)步發(fā)展期
    • 蓬勃發(fā)展期

1.3 人工智能主要分支

1 主要分支介紹

通訊、感知與行動是現(xiàn)代人工智能的三個(gè)關(guān)鍵能力,在這里我們將根據(jù)這些能力/應(yīng)用對這三個(gè)技術(shù)領(lǐng)域進(jìn)行介紹:

  • 計(jì)算機(jī)視覺(CV)、
  • 自然語言處理(NLP)
    • 在 NLP 領(lǐng)域中,將覆蓋文本挖掘/分類、機(jī)器翻譯和語音識別。
  • 機(jī)器人

1.1 分支一:計(jì)算機(jī)視覺

計(jì)算機(jī)視覺(CV)是指機(jī)器感知環(huán)境的能力。這一技術(shù)類別中的經(jīng)典任務(wù)有圖像形成、圖像處理、圖像提取和圖像的三維推理。物體檢測和人臉識別是其比較成功的研究領(lǐng)域。

當(dāng)前階段:

計(jì)算機(jī)視覺現(xiàn)已有很多應(yīng)用,這表明了這類技術(shù)的成就,也讓我們將其歸入到應(yīng)用階段。隨著深度學(xué)習(xí)的發(fā)展,機(jī)器甚至能在特定的案例中實(shí)現(xiàn)超越人類的表現(xiàn)。但是,這項(xiàng)技術(shù)離社會影響階段還有一定距離,那要等到機(jī)器能在所有場景中都達(dá)到人類的同等水平才行(感知其環(huán)境的所有相關(guān)方面)。

發(fā)展歷史:

1.2 分支二:語音識別

語音識別是指識別語音(說出的語言)并將其轉(zhuǎn)換成對應(yīng)文本的技術(shù)。相反的任務(wù)(文本轉(zhuǎn)語音/TTS)也是這一領(lǐng)域內(nèi)一個(gè)類似的研究主題。

當(dāng)前階段:

語音識別已經(jīng)處于應(yīng)用階段很長時(shí)間了。最近幾年,隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的發(fā)展,語音識別進(jìn)展頗豐,現(xiàn)在已經(jīng)非常接近社會影響階段了。

語音識別領(lǐng)域仍然面臨著聲紋識別「雞尾酒會效應(yīng)」等一些特殊情況的難題。

現(xiàn)代語音識別系統(tǒng)嚴(yán)重依賴于云,在離線時(shí)可能就無法取得理想的工作效果。

發(fā)展歷史:

百度語音識別:

  • 距離小于1米,中文字準(zhǔn)率97%+
  • 支持耳語、長語音、中英文混合及方言

1.3 分支三:文本挖掘/分類

這里的文本挖掘主要是指文本分類,該技術(shù)可用于理解、組織和分類結(jié)構(gòu)化或非結(jié)構(gòu)化文本文檔。其涵蓋的主要任務(wù)有句法分析、情緒分析和垃圾信息檢測。

當(dāng)前階段:

我們將這項(xiàng)技術(shù)歸類到應(yīng)用階段,因?yàn)楝F(xiàn)在有很多應(yīng)用都已經(jīng)集成了基于文本挖掘的情緒分析或垃圾信息檢測技術(shù)。文本挖掘技術(shù)也在智能投顧的開發(fā)中有所應(yīng)用,并且提升了用戶體驗(yàn)。

文本挖掘和分類領(lǐng)域的一個(gè)瓶頸出現(xiàn)在歧義和有偏差的數(shù)據(jù)上。

發(fā)展歷史:

1.4 分支四:機(jī)器翻譯

機(jī)器翻譯(MT)是利用機(jī)器的力量自動將一種自然語言(源語言)的文本翻譯成另一種語言(目標(biāo)語言)。

當(dāng)前階段:

機(jī)器翻譯是一個(gè)見證了大量發(fā)展歷程的應(yīng)用領(lǐng)域。該領(lǐng)域最近由于神經(jīng)機(jī)器翻譯而取得了非常顯著的進(jìn)展,但仍然沒有全面達(dá)到專業(yè)譯者的水平;但是,我們相信在大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)技術(shù)的幫助下,機(jī)器翻譯很快就將進(jìn)入社會影響階段。

在某些情況下,俚語和行話等內(nèi)容的翻譯會比較困難(受限詞表問題)。

專業(yè)領(lǐng)域的機(jī)器翻譯(比如醫(yī)療領(lǐng)域)表現(xiàn)通常不好

發(fā)展歷史:

1.5 分支五:機(jī)器人

機(jī)器人學(xué)(Robotics)研究的是機(jī)器人的設(shè)計(jì)、制造、運(yùn)作和應(yīng)用,以及控制它們的計(jì)算機(jī)系統(tǒng)、傳感反饋和信息處理。

機(jī)器人可以分成兩大類:固定機(jī)器人和移動機(jī)器人。固定機(jī)器人通常被用于工業(yè)生產(chǎn)(比如用于裝配線)。常見的移動機(jī)器人應(yīng)用有貨運(yùn)機(jī)器人、空中機(jī)器人和自動載具。機(jī)器人需要不同部件和系統(tǒng)的協(xié)作才能實(shí)現(xiàn)最優(yōu)的作業(yè)。其中在硬件上包含傳感器、反應(yīng)器和控制器;另外還有能夠?qū)崿F(xiàn)感知能力的軟件,比如定位、地圖測繪和目標(biāo)識別。

當(dāng)前階段:

自上世紀(jì)「Robot」一詞誕生以來,人們已經(jīng)為工業(yè)制造業(yè)設(shè)計(jì)了很多機(jī)器人。工業(yè)機(jī)器人是增長最快的應(yīng)用領(lǐng)域,它們在 20 世紀(jì) 80 年代將這一領(lǐng)域帶入了應(yīng)用階段。在安川電機(jī)、Fanuc、ABB、庫卡等公司的努力下,我們認(rèn)為進(jìn)入 21 世紀(jì)之后,機(jī)器人領(lǐng)域就已經(jīng)進(jìn)入了社會影響階段,此時(shí)各種工業(yè)機(jī)器人已經(jīng)主宰了裝配生產(chǎn)線。此外,軟體機(jī)器人在很多領(lǐng)域也有廣泛的應(yīng)用,比如在醫(yī)療行業(yè)協(xié)助手術(shù)或在金融行業(yè)自動執(zhí)行承銷過程。

但是,法律法規(guī)和「機(jī)器人威脅論」可能會妨礙機(jī)器人領(lǐng)域的發(fā)展。還有設(shè)計(jì)和制造機(jī)器人需要相對較高的投資

發(fā)展歷史

總的來說,人工智能領(lǐng)域的研究前沿正逐漸從搜索、知識和推理領(lǐng)域轉(zhuǎn)向機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域。

大多數(shù)早期技術(shù)至少已經(jīng)處于應(yīng)用階段了,而且其中一些已經(jīng)顯現(xiàn)出了社會影響力。一些新開發(fā)的技術(shù)可能仍處于工程甚至研究階段,但是我們可以看到不同階段之間轉(zhuǎn)移的速度變得越來越快。

2 小結(jié)

  • 人工智能主要分支【了解】
    • 計(jì)算機(jī)視覺
    • 語音識別
    • 文本挖掘/分類
    • 機(jī)器翻譯
    • 機(jī)器人

1.4 機(jī)器學(xué)習(xí)工作流程

1 什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是從數(shù)據(jù)自動分析獲得模型,并利用模型對未知數(shù)據(jù)進(jìn)行預(yù)測。

2 機(jī)器學(xué)習(xí)工作流程

  • 機(jī)器學(xué)習(xí)工作流程總結(jié)
    • 1.獲取數(shù)據(jù)
    • 2.數(shù)據(jù)基本處理
    • 3.特征工程
    • 4.機(jī)器學(xué)習(xí)(模型訓(xùn)練)
    • 5.模型評估
      • 結(jié)果達(dá)到要求,上線服務(wù)
      • 沒有達(dá)到要求,重新上面步驟

2.1 獲取到的數(shù)據(jù)集介紹

  • 數(shù)據(jù)簡介

    在數(shù)據(jù)集中一般:

    • 一行數(shù)據(jù)我們稱為一個(gè)樣本
    • 一列數(shù)據(jù)我們成為一個(gè)特征
    • 有些數(shù)據(jù)有目標(biāo)值(標(biāo)簽值),有些數(shù)據(jù)沒有目標(biāo)值(如上表中,電影類型就是這個(gè)數(shù)據(jù)集的目標(biāo)值)
  • 數(shù)據(jù)類型構(gòu)成:

    • 數(shù)據(jù)類型一:特征值+目標(biāo)值(目標(biāo)值是連續(xù)的和離散的)
    • 數(shù)據(jù)類型二:只有特征值,沒有目標(biāo)值
  • 數(shù)據(jù)分割:

    • 機(jī)器學(xué)習(xí)一般的數(shù)據(jù)集會劃分為兩個(gè)部分:
      • 訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型
      • 測試數(shù)據(jù):在模型檢驗(yàn)時(shí)使用,用于評估模型是否有效
    • 劃分比例:
      • 訓(xùn)練集:70% 80% 75%
      • 測試集:30% 20% 25%

2.2 數(shù)據(jù)基本處理

? 即對數(shù)據(jù)進(jìn)行缺失值、去除異常值等處理

2.3 特征工程

2.3.1什么是特征工程

特征工程是使用專業(yè)背景知識和技巧處理數(shù)據(jù)使得特征能在機(jī)器學(xué)習(xí)算法上發(fā)揮更好的作用的過程

  • 意義:會直接影響機(jī)器學(xué)習(xí)的效果

2.3.2 為什么需要特征工程(Feature Engineering)

機(jī)器學(xué)習(xí)領(lǐng)域的大神Andrew Ng(吳恩達(dá))老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

注:業(yè)界廣泛流傳:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。

2.3.3 特征工程包含內(nèi)容

  • 特征提取
  • 特征預(yù)處理
  • 特征降維

2.3.4 各概念具體解釋

  • 特征提取

    • 將任意數(shù)據(jù)(如文本或圖像)轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字特征

2.4 機(jī)器學(xué)習(xí)

選擇合適的算法對模型進(jìn)行訓(xùn)練(具體內(nèi)容見1.5)

2.5 模型評估

對訓(xùn)練好的模型進(jìn)行評估(具體內(nèi)容見1.6)

3 小結(jié)

  • 機(jī)器學(xué)習(xí)定義【掌握】
    • 機(jī)器學(xué)習(xí)是從數(shù)據(jù)自動分析獲得模型,并利用模型對未知數(shù)據(jù)進(jìn)行預(yù)測
  • 機(jī)器學(xué)習(xí)工作流程總結(jié)【掌握】
    • 1.獲取數(shù)據(jù)
    • 2.數(shù)據(jù)基本處理
    • 3.特征工程
    • 4.機(jī)器學(xué)習(xí)(模型訓(xùn)練)
    • 5.模型評估
      • 結(jié)果達(dá)到要求,上線服務(wù)
      • 沒有達(dá)到要求,重新上面步驟
  • 獲取到的數(shù)據(jù)集介紹【掌握】
    • 數(shù)據(jù)集中一行數(shù)據(jù)一般稱為一個(gè)樣本,一列數(shù)據(jù)一般稱為一個(gè)特征。
    • 數(shù)據(jù)集的構(gòu)成:
      • 由特征值+目標(biāo)值(部分?jǐn)?shù)據(jù)集沒有)構(gòu)成
    • 為了模型的訓(xùn)練和測試,把數(shù)據(jù)集分為:
      • 訓(xùn)練數(shù)據(jù)(70%-80%)和測試數(shù)據(jù)(20%-30%)
  • 特征工程包含內(nèi)容【了解】
    • 特征提取
    • 特征預(yù)處理
    • 特征降維

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程(拓展閱讀)

1?抽象成數(shù)學(xué)問題

明確問題是進(jìn)行機(jī)器學(xué)習(xí)的第一步。機(jī)器學(xué)習(xí)的訓(xùn)練過程通常都是一件非常耗時(shí)的事情,胡亂嘗試時(shí)間成本是非常高的。

這里的抽象成數(shù)學(xué)問題,指的明確我們可以獲得什么樣的數(shù)據(jù),抽象出的問題,是一個(gè)分類還是回歸或者是聚類的問題。

2?獲取數(shù)據(jù)

數(shù)據(jù)決定了機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能逼近這個(gè)上限。

數(shù)據(jù)要有代表性,否則必然會過擬合。

而且對于分類問題,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)量級的差距。

而且還要對數(shù)據(jù)的量級有一個(gè)評估,多少個(gè)樣本,多少個(gè)特征,可以估算出其對內(nèi)存的消耗程度,判斷訓(xùn)練過程中內(nèi)存是否能夠放得下。如果放不下就得考慮改進(jìn)算法或者使用一些降維的技巧了。如果數(shù)據(jù)量實(shí)在太大,那就要考慮分布式了。

3?特征預(yù)處理與特征選擇

良好的數(shù)據(jù)要能夠提取出良好的特征才能真正發(fā)揮作用。

特征預(yù)處理、數(shù)據(jù)清洗是很關(guān)鍵的步驟,往往能夠使得算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等,數(shù)據(jù)挖掘過程中很多時(shí)間就花在它們上面。這些工作簡單可復(fù)制,收益穩(wěn)定可預(yù)期,是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。

篩選出顯著特征、摒棄非顯著特征,需要機(jī)器學(xué)習(xí)工程師反復(fù)理解業(yè)務(wù)。這對很多結(jié)果有決定性的影響。特征選擇好了,非常簡單的算法也能得出良好、穩(wěn)定的結(jié)果。這需要運(yùn)用特征有效性分析的相關(guān)技術(shù),如相關(guān)系數(shù)、卡方檢驗(yàn)、平均互信息、條件熵、后驗(yàn)概率、邏輯回歸權(quán)重等方法。

4?訓(xùn)練模型與調(diào)優(yōu)

直到這一步才用到我們上面說的算法進(jìn)行訓(xùn)練。現(xiàn)在很多算法都能夠封裝成黑盒供人使用。但是真正考驗(yàn)水平的是調(diào)整這些算法的(超)參數(shù),使得結(jié)果變得更加優(yōu)良。這需要我們對算法的原理有深入的理解。理解越深入,就越能發(fā)現(xiàn)問題的癥結(jié),提出良好的調(diào)優(yōu)方案。

5?模型診斷

如何確定模型調(diào)優(yōu)的方向與思路呢?這就需要對模型進(jìn)行診斷的技術(shù)。

過擬合、欠擬合 判斷是模型診斷中至關(guān)重要的一步。常見的方法如交叉驗(yàn)證,繪制學(xué)習(xí)曲線等。過擬合的基本調(diào)優(yōu)思路是增加數(shù)據(jù)量,降低模型復(fù)雜度。欠擬合的基本調(diào)優(yōu)思路是提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度。

誤差分析 也是機(jī)器學(xué)習(xí)至關(guān)重要的步驟。通過觀察誤差樣本全面分析產(chǎn)生誤差的原因:是參數(shù)的問題還是算法選擇的問題,是特征的問題還是數(shù)據(jù)本身的問題……

診斷后的模型需要進(jìn)行調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新進(jìn)行診斷,這是一個(gè)反復(fù)迭代不斷逼近的過程,需要不斷地嘗試, 進(jìn)而達(dá)到最優(yōu)狀態(tài)。

6?模型融合

一般來說,模型融合后都能使得效果有一定提升。而且效果很好。

工程上,主要提升算法準(zhǔn)確度的方法是分別在模型的前端(特征清洗和預(yù)處理,不同的采樣模式)與后端(模型融合)上下功夫。因?yàn)樗麄儽容^標(biāo)準(zhǔn)可復(fù)制,效果比較穩(wěn)定。而直接調(diào)參的工作不會很多,畢竟大量數(shù)據(jù)訓(xùn)練起來太慢了,而且效果難以保證。

7?上線運(yùn)行

這一部分內(nèi)容主要跟工程實(shí)現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向,模型在線上運(yùn)行的效果直接決定模型的成敗。 不單純包括其準(zhǔn)確程度、誤差等情況,還包括其運(yùn)行的速度(時(shí)間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性是否可接受。

這些工作流程主要是工程實(shí)踐上總結(jié)出的一些經(jīng)驗(yàn)。并不是每個(gè)項(xiàng)目都包含完整的一個(gè)流程。這里的部分只是一個(gè)指導(dǎo)性的說明,只有大家自己多實(shí)踐,多積累項(xiàng)目經(jīng)驗(yàn),才會有自己更深刻的認(rèn)識。


1.5 機(jī)器學(xué)習(xí)算法分類

根據(jù)數(shù)據(jù)集組成不同,可以把機(jī)器學(xué)習(xí)算法分為:

  • 監(jiān)督學(xué)習(xí)

  • 無監(jiān)督學(xué)習(xí)

  • 半監(jiān)督學(xué)習(xí)
  • 強(qiáng)化學(xué)習(xí)

1 監(jiān)督學(xué)習(xí)

  • 定義:

    • 輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。
      • 函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸),
      • 或是輸出是有限個(gè)離散值(稱作分類)。

1.1 回歸問題

例如:預(yù)測房價(jià),根據(jù)樣本集擬合出一條連續(xù)曲線。

1.2 分類問題

例如:根據(jù)腫瘤特征判斷良性還是惡性,得到的是結(jié)果是“良性”或者“惡性”,是離散的。

2 無監(jiān)督學(xué)習(xí)

  • 定義:

    • 輸入數(shù)據(jù)是由輸入特征值組成,沒有目標(biāo)值

      • 輸入數(shù)據(jù)沒有被標(biāo)記,也沒有確定的結(jié)果。樣本數(shù)據(jù)類別未知;
      • 需要根據(jù)樣本間的相似性對樣本集進(jìn)行類別劃分。

    舉例:

3 半監(jiān)督學(xué)習(xí)

  • 定義:
    • 訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)。

舉例:

  • 監(jiān)督學(xué)習(xí)訓(xùn)練方式:

4 強(qiáng)化學(xué)習(xí)

  • 定義:
    • 實(shí)質(zhì)是make decisions 問題,即自動進(jìn)行決策,并且可以做連續(xù)決策。

舉例:

小孩想要走路,但在這之前,他需要先站起來,站起來之后還要保持平衡,接下來還要先邁出一條腿,是左腿還是右腿,邁出一步后還要邁出下一步。

小孩就是?agent,他試圖通過采取行動(即行走)來操縱環(huán)境(行走的表面),并且從一個(gè)狀態(tài)轉(zhuǎn)變到另一個(gè)狀態(tài)(即他走的每一步),當(dāng)他完成任務(wù)的子任務(wù)(即走了幾步)時(shí),孩子得到獎(jiǎng)勵(lì)(給巧克力吃),并且當(dāng)他不能走路時(shí),就不會給巧克力。

主要包含五個(gè)元素:agent, action, reward, environment, observation;

強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)

監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的對比

拓展閱讀:Alphago進(jìn)化史 漫畫告訴你Zero為什么這么牛:

http://sports.sina.com.cn/chess/weiqi/2017-10-21/doc-ifymyyxw4023875.shtml


獨(dú)立同分布IID(independent and identically distributed)

1.獨(dú)立同分布(i.i.d.)

在概率統(tǒng)計(jì)理論中,如果變量序列或者其他隨機(jī)變量有相同的概率分布,并且互相獨(dú)立,那么這些隨機(jī)變量是獨(dú)立同分布。

在西瓜書中解釋是:輸入空間中的所有樣本服從一個(gè)隱含未知的分布,訓(xùn)練數(shù)據(jù)所有樣本都是獨(dú)立地從這個(gè)分布上采樣而得。

2.簡單解釋 — 獨(dú)立、同分布、獨(dú)立同分布

(1)獨(dú)立:每次抽樣之間沒有關(guān)系,不會相互影響

舉例:給一個(gè)骰子,每次拋骰子拋到幾就是幾,這是獨(dú)立;如果我要拋骰子兩次之和大于8,那么第一次和第二次拋就不獨(dú)立,因?yàn)榈诙螔伒慕Y(jié)果和第一次相關(guān)。

(2)同分布:每次抽樣,樣本服從同一個(gè)分布

舉例:給一個(gè)骰子,每次拋骰子得到任意點(diǎn)數(shù)的概率都是六分之一,這個(gè)就是同分布

(3)獨(dú)立同分布:i.i.d.,每次抽樣之間獨(dú)立而且同分布

3.機(jī)器學(xué)習(xí)領(lǐng)域的重要假設(shè)

IID獨(dú)立同分布即假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是滿足相同分布的,它是通過訓(xùn)練數(shù)據(jù)獲得的模型能夠在測試集獲得好的效果的一個(gè)基本保障。

4.目前發(fā)展

機(jī)器學(xué)習(xí)并不總要求獨(dú)立同分布,在不少問題中要求樣本數(shù)據(jù)采樣自同一個(gè)分布是因?yàn)橄M糜?xùn)練數(shù)據(jù)集得到的模型可以合理的用于測試數(shù)據(jù)集,使用獨(dú)立同分布假設(shè)能夠解釋得通。

目前一些機(jī)器學(xué)習(xí)內(nèi)容已經(jīng)不再囿于獨(dú)立同分布假設(shè)下,一些問題會假設(shè)樣本沒有同分布


1.6 模型評估

模型評估是模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來工作的性能如何。

按照數(shù)據(jù)集的目標(biāo)值不同,可以把模型評估分為分類模型評估和回歸模型評估。

1 分類模型評估

  • 準(zhǔn)確率

    • 預(yù)測正確的數(shù)占樣本總數(shù)的比例。
  • 其他評價(jià)指標(biāo):精確率、召回率、F1-score、AUC指標(biāo)等

2 回歸模型評估

均方根誤差(Root Mean Squared Error,RMSE)

  • RMSE是一個(gè)衡量回歸模型誤差率的常用公式。 不過,它僅能比較誤差是相同單位的模型。

舉例:

假設(shè)上面的房價(jià)預(yù)測,只有五個(gè)樣本,對應(yīng)的 真實(shí)值為:100,120,125,230,400 預(yù)測值為:105,119,120,230,410

那么使用均方根誤差求解得:

其他評價(jià)指標(biāo):相對平方誤差(Relative Squared Error,RSE)、平均絕對誤差(Mean Absolute Error,MAE)、相對絕對誤差(Relative Absolute Error,RAE)

3 擬合

模型評估用于評價(jià)訓(xùn)練好的的模型的表現(xiàn)效果,其表現(xiàn)效果大致可以分為兩類:過擬合、欠擬合。

在訓(xùn)練過程中,你可能會遇到如下問題:

訓(xùn)練數(shù)據(jù)訓(xùn)練的很好啊,誤差也不大,為什么在測試集上面有問題呢?

當(dāng)算法在某個(gè)數(shù)據(jù)集當(dāng)中出現(xiàn)這種情況,可能就出現(xiàn)了擬合問題。

3.1 欠擬合

因?yàn)闄C(jī)器學(xué)習(xí)到的天鵝特征太少了,導(dǎo)致區(qū)分標(biāo)準(zhǔn)太粗糙,不能準(zhǔn)確識別出天鵝。

欠擬合(under-fitting)模型學(xué)習(xí)的太過粗糙,連訓(xùn)練集中的樣本數(shù)據(jù)特征關(guān)系都沒有學(xué)出來

3.2 過擬合

機(jī)器已經(jīng)基本能區(qū)別天鵝和其他動物了。然后,很不巧已有的天鵝圖片全是白天鵝的,于是機(jī)器經(jīng)過學(xué)習(xí)后,會認(rèn)為天鵝的羽毛都是白的,以后看到羽毛是黑的天鵝就會認(rèn)為那不是天鵝。

過擬合(over-fitting):所建的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過于優(yōu)越,導(dǎo)致在測試數(shù)據(jù)集中表現(xiàn)不佳

  • 上問題解答:
    • 訓(xùn)練數(shù)據(jù)訓(xùn)練的很好啊,誤差也不大,為什么在測試集上面有問題呢?

4 小結(jié)

  • 分類模型評估【了解】
    • 準(zhǔn)確率
  • 回歸模型評估【了解】
    • RMSE -- 均方根誤差
  • 擬合【知道】
    • 舉例 -- 判斷是否是人
    • 欠擬合
      • 學(xué)習(xí)到的東西太少
      • 模型學(xué)習(xí)的太過粗糙
    • 過擬合
      • 學(xué)習(xí)到的東西太多
      • 學(xué)習(xí)到的特征多,不好泛化

1.8 深度學(xué)習(xí)簡介

1 深度學(xué)習(xí) —— 神經(jīng)網(wǎng)絡(luò)簡介

深度學(xué)習(xí)(Deep Learning)(也稱為深度結(jié)構(gòu)學(xué)習(xí)【Deep Structured Learning】、層次學(xué)習(xí)【Hierarchical Learning】或者是深度機(jī)器學(xué)習(xí)【Deep Machine Learning】)是一類算法集合,是機(jī)器學(xué)習(xí)的一個(gè)分支。

深度學(xué)習(xí)方法近年來,在會話識別、圖像識別和對象偵測等領(lǐng)域表現(xiàn)出了驚人的準(zhǔn)確性。

但是,“深度學(xué)習(xí)”這個(gè)詞語很古老,它在1986年由Dechter在機(jī)器學(xué)習(xí)領(lǐng)域提出,然后在2000年有Aizenberg等人引入到人工神經(jīng)網(wǎng)絡(luò)中。而現(xiàn)在,由于Alex Krizhevsky在2012年使用卷積網(wǎng)絡(luò)結(jié)構(gòu)贏得了ImageNet比賽之后受到大家的矚目。

卷積網(wǎng)絡(luò)之父:Yann LeCun

深度學(xué)習(xí)演示

  • 鏈接:http://playground.tensorflow.org

2 深度學(xué)習(xí)各層負(fù)責(zé)內(nèi)容

神經(jīng)網(wǎng)絡(luò)各層負(fù)責(zé)內(nèi)容:

1層:負(fù)責(zé)識別顏色及簡單紋理

2層:一些神經(jīng)元可以識別更加細(xì)化的紋理,布紋,刻紋,葉紋等

3層:一些神經(jīng)元負(fù)責(zé)感受黑夜里的黃色燭光,高光,螢火,雞蛋黃色等。

4層:一些神經(jīng)元識別萌狗的臉,寵物形貌,圓柱體事物,七星瓢蟲等的存在。

5層:一些神經(jīng)元負(fù)責(zé)識別花,黑眼圈動物,鳥,鍵盤,原型屋頂?shù)取?/strong>

4 小結(jié)

  • 深度學(xué)習(xí)的發(fā)展源頭--神經(jīng)網(wǎng)絡(luò)【了解】
  • 多層神經(jīng)網(wǎng)絡(luò),在最初幾層是識別簡單內(nèi)容,后面幾層是識別一些復(fù)雜內(nèi)容。【了解】

總結(jié)

以上是生活随笔為你收集整理的人工智能概述、人工智能发展历程、人工智能主要分支、机器学习工作流程、完整机器学习项目的流程、机器学习算法分类、独立同分布、模型评估、深度学习简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。