日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【随笔】深度学习之美——杨家有女初长成,养在深闺人未识

發(fā)布時(shí)間:2025/3/15 pytorch 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【随笔】深度学习之美——杨家有女初长成,养在深闺人未识 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)

一般來說,知識(shí)在兩個(gè)維度上可以分為四類,如下圖。

在橫向上,對(duì)于可推理的,可以用機(jī)器學(xué)習(xí)的方法完成推理,通過人類的先驗(yàn)知識(shí),把原始數(shù)據(jù)預(yù)處理成各種特征,然后對(duì)特征進(jìn)行分類。然而,分類的效果通常取決于特征的好壞,傳統(tǒng)的機(jī)器學(xué)習(xí)也可以成為“特征工程”

在縱向上,對(duì)于可統(tǒng)計(jì)但不可推理的,人們發(fā)現(xiàn)可以讓神經(jīng)網(wǎng)絡(luò)自己學(xué)習(xí)如何抓取數(shù)據(jù)的特征,并且效果好像更佳。再后來,網(wǎng)絡(luò)進(jìn)一步加深,將特征進(jìn)一步抽象化,也就是現(xiàn)在說的“深度學(xué)習(xí)”。

但是,機(jī)器自己學(xué)出來的特征無法被人類所理解,為了讓神經(jīng)網(wǎng)絡(luò)的效果更好,只能按照經(jīng)驗(yàn)去調(diào)整網(wǎng)絡(luò)的超參數(shù),也就是“有多少人工,就有多少智能”。

有人批判深度學(xué)習(xí)是一個(gè)“黑箱”,缺乏解釋性。但是這種“端到端”的方法亂,似乎與復(fù)雜性科學(xué)相吻合。人類世界本身就是一個(gè)復(fù)雜的系統(tǒng),各個(gè)問題互相影像,阡陌縱橫,難以用確定的公式來描述,并且現(xiàn)在對(duì)于世界的認(rèn)知可能具有局限性,難以提取普適的公式定理。

2.神經(jīng)網(wǎng)絡(luò)的細(xì)胞——M-P模型

在生物神經(jīng)網(wǎng)絡(luò)中,如果某些神經(jīng)元的電位超過一個(gè)閾值,就會(huì)被激活,接著像與他相連的神經(jīng)元發(fā)送化學(xué)物質(zhì),改變他們的電位,一層層傳播下去。1943年,神經(jīng)生理學(xué)家Warren McCulloch和Walter Pitts,首次實(shí)現(xiàn)用一個(gè)簡(jiǎn)單電路模擬大腦神經(jīng)元的行為(用邏輯值0和1模擬神經(jīng)細(xì)胞的興奮和抑制狀態(tài))。

神經(jīng)元的工作模型存在“激活(1)”和“抑制(0)”兩種狀態(tài)的跳變,那么理想的激活函就應(yīng)該是如圖 6-7(a)所示的階躍函數(shù)。


但事實(shí)上,在實(shí)際使用中,這類函數(shù)具有不光滑、不連續(xù)等眾多不“友好”的特性,使用得并不廣泛。為什么說它“不友好”呢,這是因?yàn)樵谟?xùn)練網(wǎng)絡(luò)權(quán)重時(shí),通常依賴對(duì)某個(gè)權(quán)重求偏導(dǎo)、尋極值,而不光滑、不連續(xù)等通常意味著該函數(shù)無法“連續(xù)可導(dǎo)”。

因此,我們通常用 sigmoid()函數(shù)來代替階躍函數(shù),如圖 6-7(b)所示。無論輸入值(x)的范圍有多大,這個(gè)函數(shù)都可以將輸出擠壓在[0,1]范圍之內(nèi),故此這個(gè)函數(shù)又被稱為“擠壓函數(shù)(Squashing Function )”。

3.深度學(xué)習(xí)的起點(diǎn)——感知機(jī)

1958年,也就是在M-P神經(jīng)元模型發(fā)表15年后,Frank Rosenblatt設(shè)計(jì)了一個(gè)實(shí)驗(yàn),輸入50組圖片,每組兩張一張標(biāo)記向左,一張標(biāo)記向右。每一次練習(xí)都是以左面的輸人神經(jīng)元為開端,先給每個(gè)輸入神經(jīng)元都賦上隨機(jī)的權(quán)重,然后計(jì)算它們的加權(quán)輸人之和。如果加權(quán)和為負(fù)數(shù),則預(yù)測(cè)結(jié)果為 0,否則,預(yù)測(cè)結(jié)果為 1(這里的0或 1,對(duì)應(yīng)于圖片的“左”或“右”,在本質(zhì)上,感知機(jī)實(shí)現(xiàn)的就是一個(gè)二分類)。如果預(yù)測(cè)是正確的,則無須修正權(quán)重;如果預(yù)測(cè)有誤,則用學(xué)習(xí)率(Learning Rate)乘以差錯(cuò)(期望值與實(shí)際值之間的差值),來對(duì)應(yīng)地調(diào)整權(quán)重,如下圖所示。


學(xué)著,學(xué)著,這部感知機(jī)就能“感知”出最佳的連接權(quán)值。然后,對(duì)于一個(gè)全新的圖片,授能何人工干預(yù)的情況下,它能“獨(dú)立”判定出圖片標(biāo)識(shí)為左還是為右。

所謂感知機(jī),其實(shí)就是一個(gè)由兩層神經(jīng)元構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),它在輸入層接收外界的輸人,通過激活函數(shù)(含閾值)實(shí)施變換,最后把信號(hào)傳送至輸出層,因此它也被稱為“閾值邏輯單元”。感知機(jī)后來成為許多神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),但客觀來講,它的理論基礎(chǔ)依然建立于皮茨等人提出的“M-P”神經(jīng)元模型。

感知機(jī)雖然可以自己學(xué)習(xí),但是存在兩個(gè)主要問題:

(1)單層神經(jīng)網(wǎng)絡(luò)無法解決不可線性分割的問題,典型的證據(jù)就是不能實(shí)現(xiàn)“異或門電路”功能。
(2)更為嚴(yán)重的問題是,即使使用當(dāng)時(shí)最先進(jìn)的計(jì)算機(jī),也沒有足夠的計(jì)算能力去完成神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練所需的超大的計(jì)算量(比如調(diào)整網(wǎng)絡(luò)中的權(quán)重參數(shù))

在明斯基(1969年獲得圖靈獎(jiǎng))提出這一問題后,深度學(xué)習(xí)沉睡了20年

4.深度學(xué)習(xí)的復(fù)活——多層網(wǎng)絡(luò)

1975年感知機(jī)“異或”問題被理論界徹底解決,也就是增加神經(jīng)網(wǎng)絡(luò)的層數(shù)。這就好比,人是由細(xì)胞構(gòu)成的,在理論上,我們單純從細(xì)胞這個(gè)層面不斷擴(kuò)大需考察細(xì)胞的數(shù)量、特性等,最終也可以區(qū)分不同的人。但實(shí)際上,我們并不是這么做的,而是通過不斷地抽象,從多個(gè)層面來認(rèn)知不同的人。比如,先從細(xì)胞層面構(gòu)成器官,再從器官層面,構(gòu)成不同的個(gè)人。


為了優(yōu)化模型效果,我們定義損失函數(shù) f(x) 來表述預(yù)測(cè)值和真實(shí)值的誤差,優(yōu)化指的是改變 x 以最小化或最大化某個(gè)函數(shù) f(x) 的任務(wù)。 我們通常以最小化 f(x) 指代大多數(shù)最優(yōu)化問題。最大化可經(jīng)由最小化算法最小化 -f(x) 來實(shí)現(xiàn)。


對(duì)于函數(shù)的某個(gè)特定點(diǎn),它的梯度表示從該點(diǎn)出發(fā),函數(shù)值增長(zhǎng)最為迅猛的方向,梯度的反方向就是函數(shù)值下降最快的方向。如果函數(shù)每次都沿著梯度遞減的方向走,自然會(huì)走到函數(shù)值最小值附近。

下面以 f(x)=x^2 為例,f’(x)=2x。以 x=10 作為初始值,學(xué)習(xí)率 n=0.2。經(jīng)過第一次迭代后,x=10-0.2×2=6,迭代曲線如下圖:


如果學(xué)習(xí)率太小,可能迭代很久都不達(dá)到最小值點(diǎn),相反,如果太大,可能產(chǎn)生震蕩,如下圖:


f(x)=x^2 的輸入只有一個(gè)變量,如果神經(jīng)網(wǎng)絡(luò)的輸入層有多個(gè)變量,其構(gòu)成一組輸入向量,此時(shí)損失函數(shù)如下:

其中
和上面一樣,我們要在多維空間上實(shí)現(xiàn)最快遞減,如下圖:

我們知道曲面上方向?qū)?shù)的最大值的方向就代表了梯度的方向,因此我們?cè)谧鎏荻认陆档臅r(shí)候,應(yīng)該是沿著梯度的反方向進(jìn)行權(quán)重的更新,可以有效的找到全局的最優(yōu)解。權(quán)重更新過程如下:


上述即批量梯度下降,其在更新權(quán)重時(shí),使用所有的樣本,也就是說每個(gè)樣本都參與調(diào)整權(quán)重,這樣可以達(dá)到全局最優(yōu),但是時(shí)間也會(huì)很長(zhǎng),同時(shí)容易陷入局部最優(yōu)解。更新公式如下:


隨機(jī)梯度下降:在每次更新時(shí)用1個(gè)樣本,隨機(jī)也就是用樣本中的一個(gè)例子近似所有的樣本,以此調(diào)整權(quán)重。相比于批量梯度,這樣的方法更快收斂,雖然不是全局最優(yōu),但是大的整體的方向是向全局最優(yōu)解的,而且有助于逃逸出局部最小值點(diǎn)。更新公式如下:


小批量隨機(jī)梯度下降:在每次更新時(shí)用b個(gè)樣本來近似全部的,在深度學(xué)習(xí)中,這種方法用的是最多的。因?yàn)樾∨坎粌H可以反映樣本的一個(gè)分布情況,而且收斂也不會(huì)很慢,中庸之道。

5.深度學(xué)習(xí)的突破——BP算法

在19世紀(jì)70年代,人工神經(jīng)網(wǎng)絡(luò)面臨一個(gè)重大的挑戰(zhàn)性問題:增加神經(jīng)網(wǎng)絡(luò)的層數(shù)雖然可為其提供更大的靈活性,讓網(wǎng)絡(luò)具有更強(qiáng)的表征能力,也就是說,能解決的問題更多,但隨之而來的數(shù)量龐大的網(wǎng)絡(luò)參數(shù)的訓(xùn)練,一直是制約多層神經(jīng)網(wǎng)絡(luò)發(fā)展的一個(gè)重要瓶頸。

1986年由杰弗里·辛頓(Geoffirey Hinton)和大衛(wèi)·魯姆哈特(David Rumelhart)等人提出BP算法,其論文“借助反向傳播算法的學(xué)習(xí)表征(Leaming Representations by Back-propagating errors)發(fā)表在著名學(xué)術(shù)期刊Nature(自然)上。

該論文首次系統(tǒng)而簡(jiǎn)潔地闡述了反向傳播算法在神經(jīng)網(wǎng)絡(luò)模型上的應(yīng)用。BP算法把網(wǎng)絡(luò)權(quán)值糾錯(cuò)的運(yùn)算量,從原來的與神經(jīng)元數(shù)目的平方成正比,下降到只和神經(jīng)元數(shù)目本身成正比。

6.深度學(xué)習(xí)的崛起——卷積神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用對(duì)象是全連接神經(jīng)網(wǎng)絡(luò),隨著梯度的逐層減小,導(dǎo)致它對(duì)網(wǎng)線權(quán)值的調(diào)整作用越來越小,故此,BP算法多用于淺層網(wǎng)絡(luò)結(jié)構(gòu)(通常小7層),這就限制了BP 算法的數(shù)據(jù)表征能力,從而也就限制了BP的性能限。

1968 年,神經(jīng)生物學(xué)家大衛(wèi)·休伯爾(David Hunter Hubel)與托斯坦·威澤爾(Torsten N. Wiesel)在研究動(dòng)物視覺信息處理時(shí),有兩個(gè)重要而有趣的發(fā)現(xiàn):

(1)對(duì)于視覺的編碼,動(dòng)物大腦皮層的神經(jīng)元實(shí)際上是存在局部感受域的,具體來說,它們是局部敏感的且具有方向選擇性。

(2)動(dòng)物大腦皮層是分級(jí)、分層處理信息的。在大腦的初級(jí)視覺皮層中存在幾種細(xì)胞:簡(jiǎn)單細(xì)胞、復(fù)雜細(xì)胞和超復(fù)雜細(xì)胞,這些不同類型的細(xì)胞承擔(dān)著不同抽象層次的視覺感知功能。

神而洞察的專注可能要?jiǎng)龠^廣而膚淺的觀察。

受該理念的啟發(fā),1980年日本學(xué)者福島邦彥( Fukushima )提出了神經(jīng)認(rèn)知機(jī)( Neocognitron,亦譯為“新識(shí)別機(jī)”)模型,這是一個(gè)使用無監(jiān)督學(xué)習(xí)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,其實(shí)也就是卷積神經(jīng)網(wǎng)絡(luò)的雛形。

自此之后,很多計(jì)算機(jī)科學(xué)家先后對(duì)神經(jīng)認(rèn)知機(jī)做了深人研究和改進(jìn),但效果卻不盡如人意。直到 1990 年,在 AT&T貝爾實(shí)驗(yàn)室工作的 Yamn LeCun等人,把有監(jiān)督的反向傳播(BP)算法應(yīng)用于福島邦彥等人提出的架構(gòu),從而奠定了現(xiàn)代CNN的結(jié)構(gòu)。





參考文獻(xiàn):
[1]《深度學(xué)習(xí)之美:AI時(shí)代的數(shù)據(jù)處理與最佳實(shí)踐》
[2]《動(dòng)手學(xué)深度學(xué)習(xí)》
[3]《tensorflow實(shí)戰(zhàn)google深度框架》
[4] 如何理解隨機(jī)梯度下降(stochastic gradient descent,SGD)? - Evan的回答 - 知乎
https://www.zhihu.com/question/264189719/answer/291167114

猜你喜歡:👇🏻
?【隨筆】卷積神經(jīng)網(wǎng)絡(luò)中的卷積怎么卷?
?【隨筆】激活函數(shù)是怎樣一種存在?
?【隨筆】通用近似定理

總結(jié)

以上是生活随笔為你收集整理的【随笔】深度学习之美——杨家有女初长成,养在深闺人未识的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。