當前位置：首頁 > 编程语言 > java >内容正文

java

Java软件研发工程师转行之深度学习(Deep Learning)进阶：手写数字识别+人脸识别+图像中物体分类+视频分类+图像与文字特征+猫狗分类

發布時間：2024/10/8 java 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 Java软件研发工程师转行之深度学习(Deep Learning)进阶：手写数字识别+人脸识别+图像中物体分类+视频分类+图像与文字特征+猫狗分类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文適合于對機器學習和數據挖掘有所了解，想深入研究深度學習的讀者
1.對概率基本概率有所了解
2.具有微積分和線性代數的基本知識
3.有一定的編程基礎(Python)

Java軟件研發工程師轉行之深度學習進階：算法與應用

1 緒論
2 監督學習(Supervised Learning)-分類(Classification)
- 2.1 基本概念(Basic Concepts)
- - 2.1.1 什么是深度學習？
  - 2.1.2 深度學習是什么時間段發展起來的？
  - 2.1.3 深度學習能用來干什么？
  - 2.1.4 深度學習目前有哪些代表性的研究機構？
  - 2.1.5 深度學習范疇
- 2.2 神經網絡算法(Neural Network)
- - 2.2.1 人腦識別圖像
  - 2.2.2 手寫數字識別
  - 2.2.3 隨機梯度下降算法
  - 2.2.4 神經網絡識別手寫數字
  - 2.2.5 基于機器學習手寫數字識別
  - - 第一種基于灰度值手寫數字識別
    - 第二種基于SVM手寫數字識別
  - 2.2.6 Backpropagation算法
- 2.3 梯度下降(Gradient Descent)
- 2.4 卷積神經網絡(Convolutional Neural Network)
- - 人臉識別
- 2.5 深度卷積神經網絡(Deep Convolutional Neural Network)
- - 視頻分類
3 非監督學習(Unsupervised Learning)
- 3.1 限制波爾茲曼機(Restricted Boltzman Machine)
- - 圖像與文字特征合并應用對圖像分類
- 3.2 自動編碼(Autoencoder)
- - 圖像中的物體識別
- 3.3 深度信念網絡(Deep Belief Network)
- - 貓狗分類
4 小結

1 緒論

理解深度學習常用模型的算法

學會應用深度學習庫（Theano、Pyleanrn2）

學會使用深度學習的方法根據數據集訓練模型并開發應用

基于深度學習的方法對手寫數字圖片進行自動識別

基于深度學習的方法自動生成自然的符合邏輯的語句

2 監督學習(Supervised Learning)-分類(Classification)

2.1 基本概念(Basic Concepts)

2.1.1 什么是深度學習？

深度學習是基于機器學習延申出來的一個新的領域，以人腦結構為啟發的神經網絡算法為起源，加之模型結構深度的增加發展，并伴隨著大數據和計算能力的提高而產生的一系列算法。

2.1.2 深度學習是什么時間段發展起來的？

由著名科學家Hinton等人在2006年和2007年于《Sciences》發表的文章被提出。

2.1.3 深度學習能用來干什么？

深度學習作為機器學習延申出來的一個領域，被應用在圖像處理與計算機視覺，自然語言處理及語音識別等領域
自2006年至今，學術界與工業界在深度學習方面的研究與應用，在以上領域取得了突破性進展。
以ImageNet為數據庫的經典圖像中的物體識別競賽為例，擊敗了所有傳統算法，取得了前所未有的精確度。

2.1.4 深度學習目前有哪些代表性的研究機構？

學術機構以多倫多大學、紐約大學、斯坦福大學為代表，工業界以Google、FaceBook、百度為代表走在深度學習研究與應用的前沿。

from sklearn.datasets import fetch_mldatamnist = fetch_mldata('MNIST original') print mnist.data.shape

2.1.5 深度學習范疇

深度學習的基本模型
深度學習與機器學習

2.2 神經網絡算法(Neural Network)

2.2.1 人腦識別圖像

深度學習識別圖像
計算機識別圖像
神經元
實際模型更加復雜
與非門可以模擬任何方程
Sigmoid神經元
為了模擬更細微的變化，輸入和輸出值從0和1，到0，1之間任何數

2.2.2 手寫數字識別

假設識別一個手寫數字圖片
如果圖片是64*64，輸入層總共有64*64=4096個神經元
如果圖片是28*28，輸入層總共有28*28=784個神經元
如果輸出層只有一個神經元，大于0.9說明是9，小于0.5說明不是9
FeedForward Network：神經網絡中沒有環，信息單向前傳遞
輸入層：28*28=784個神經元
每個神經元代表一個像素：0.0表示全白，1.0表示全黑
一個隱藏層：n個神經元，圖中有15個
輸出層：10個神經元。分別代表手寫數字識別可能的0-9數字。例如，第一個神經元（代表0）的輸出值為1，其他的小于1，數字被識別為0
訓練集：6000張圖片，用來訓練
測試集：1000張圖片，用來測試準確率
x：訓練輸入，28*28=784d向量，每個值代表灰度圖像的像素值
y=y(x)：10d圖像
如果輸入的某個圖片是數字6，理想的輸出：y(x)=(0,0,0,0,0,0,1,0,0,0)
目標函數
最小化問題可以用梯度下降解決（gradient descent）
C(v)中v有兩個變量v1,v2
通?？梢杂梦⒎e分解決，如果為v包含的變量過多，則無法用微積分解決
一個變量的情況

2.2.3 隨機梯度下降算法

目標函數
變化量
以上三個公式推出
設定
所以C不斷減小
回顧目標函數
權重和偏向更新方程
一層神經網絡結構
兩層神經網絡結構：MLP，MultiLayer Perceptions

2.2.4 神經網絡識別手寫數字

neural network and deep learning

源代碼地址：https://github.com/mnielsen/neural-networks-and-deep-learning
兩層神經網絡核心代碼

# coding=utf-8 import numpy as np import randomclass Network(object):def __init__(self, sizes):"""構造函數:param sizes: 每層神經元的個數,net = Network([2,3,1])"""self.num_layers = len(sizes)self.sizes = sizes# np.random.randn(y, 1) 隨機從正太分布(均值0，方差1)中生成self.biases = [np.random.randn(y, 1) for y in sizes[1:]]# weights[1]存儲連接第二層和第三層的權重self.weights = [np.random.randn(x, y) for x, y in zip(sizes[:-1], sizes[1:])]def feedforward(self, a):"""return the output of the network if 'a' is input:param a::return:"""for b, w in zip(self.biases, self.weights):a = sigmoid(np.dot(w, a) + b)return adef SGD(self, training_data, epochs, mini_batch_size, eta, test_data=None):"""Train the neural network using mini-batch stochastic gradient descent.隨機梯度下降算法:param training_data: 訓練集training_data is a list of tuples "(x,y)" representing the training inputs and the desired outputs:param epochs: 迭代次數:param mini_batch_size: 每一小塊包含多少個實例:param eta: 學習率:param test_data: 測試集:return:"""if test_data: n_test = len(test_data)n = len(training_data)for j in xrange(epochs):random.shuffle(training_data) # 隨機打亂mini_batches = [training_data[k:k + mini_batch_size]for k in xrange(0, n, mini_batch_size)] # 從0到n，間隔為mini_batch_sizefor mini_batch in mini_batches:self.update_mini_batch(mini_batch, eta)if test_data:print "Epoch {0}: {1} / {2}".format(j, self.evaluate(test_data), n_test)else:print "Epoch {0} complete".format(j)def update_mini_batch(self, mini_batch, eta):"""Update the network's weights and biases by applying gradient descentusing back propagation to a single mini batch.:param mini_batch: list of tuples "(x,y)":param eta: learning rate:return:"""nabla_b = [np.zeros(b.shape) for b in self.biases]nabla_w = [np.zeros(w.shape) for w in self.weights]for x, y in mini_batch:delta_nabla_b, delta_nabla_w = self.backprop(x, y)nabla_b = [nb + dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]nabla_w = [nw + dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]self.weights = [w - (eta / len(mini_batch)) * nw for w, nw in zip(self.weights, nabla_w)]self.biases = [b - (eta / len(mini_batch)) * nb for b, nb in zip(self.biases, nabla_b)]# sizes = [2, 3, 1] # print sizes[1:] # bias = [np.random.randn(y, 1) for y in sizes[1:]] # print bias # for x, y in zip(sizes[:-1], sizes[1:]): # print (x, y)net = Network([2, 3, 1]) print net.num_layers print net.sizes print net.biases print net.weights

Demo Application

# coding=utf-8 import mnist_loader # 下載數據 import network # 神經網絡def main():"""training_data 訓練集 50kvalidation_data 驗證集 10ktest_data 測試集 10k"""training_data, validation_data, test_data = mnist_loader.load_data_wrapper()print 'training data'print 'type:', type(training_data)print 'len:', len(training_data)print training_data[0][0].shape # 輸入print training_data[0][1].shape # 輸出print 'validation_data'print 'len:', len(validation_data)print 'test_data'print 'len:', len(test_data)'''輸入層：784個神經元隱藏層：30個神經元輸出層：10個神經元training_data：訓練集epochs：30 迭代次數mini_batch_size：10 每次訓練實例個數eta：3.0 學習率test_data：測試集'''net = network.Network([784, 30, 10])net.SGD(training_data, 30, 10, 3.0, test_data=test_data)# net = network.Network([784, 100, 10])# net.SGD(training_data, 30, 10, 3.0, test_data=test_data)# net = network.Network([784, 10])# net.SGD(training_data, 30, 10, 3.0, test_data=test_data)if __name__ == '__main__':main()

結果
隨著每一輪的迭代，手寫數字識別的準確率大概在94.76%

2.2.5 基于機器學習手寫數字識別

第一種基于灰度值手寫數字識別

核心代碼

from collections import defaultdict# My libraries import mnist_loaderdef main():training_data, validation_data, test_data = mnist_loader.load_data()# training phase: compute the average darknesses for each digit,# based on the training dataavgs = avg_darknesses(training_data)# testing phase: see how many of the test images are classified# correctlynum_correct = sum(int(guess_digit(image, avgs) == digit)for image, digit in zip(test_data[0], test_data[1]))print "Baseline classifier using average darkness of image."print "%s of %s values correct." % (num_correct, len(test_data[1]))def avg_darknesses(training_data):""" Return a defaultdict whose keys are the digits 0 through 9.For each digit we compute a value which is the average darkness oftraining images containing that digit. The darkness for anyparticular image is just the sum of the darknesses for each pixel."""digit_counts = defaultdict(int)darknesses = defaultdict(float)for image, digit in zip(training_data[0], training_data[1]):digit_counts[digit] += 1darknesses[digit] += sum(image)avgs = defaultdict(float)for digit, n in digit_counts.iteritems():avgs[digit] = darknesses[digit] / nreturn avgsdef guess_digit(image, avgs):"""Return the digit whose average darkness in the training data isclosest to the darkness of ``image``. Note that ``avgs`` isassumed to be a defaultdict whose keys are 0...9, and whose valuesare the corresponding average darknesses across the training data."""darkness = sum(image)distances = {k: abs(v - darkness) for k, v in avgs.iteritems()}return min(distances, key=distances.get)if __name__ == "__main__":main()

識別的準確率只有22.5%

第二種基于SVM手寫數字識別

核心代碼

def svm_baseline():training_data, validation_data, test_data = mnist_loader.load_data()# trainclf = svm.SVC()clf.fit(training_data[0], training_data[1])# testpredictions = [int(a) for a in clf.predict(test_data[0])]num_correct = sum(int(a == y) for a, y in zip(predictions, test_data[1]))print "Baseline classifier using an SVM."print "%s of %s values correct." % (num_correct, len(test_data[1]))if __name__ == "__main__":svm_baseline()

識別的準確率只有32.5%

2.2.6 Backpropagation算法

通過迭代來處理訓練集中的實例

對比經過神經網絡后輸入層預值（predict value）與真實值（target value）之間

反方向（從輸出層 --> 隱藏層 --> 輸入層）

算法詳細介紹

輸入：數據集，學習率（Learning Rate），一個多層前向神經網絡
輸出：一個訓練好的神經網絡（a trained neural network）
初始化權重（weights）和偏向（bias）：隨機初始化到-1或者1之間，或者-0.5到0.5之間，每個單元都有一個偏向
對于每一個訓練實例X，執行以下步驟：
根據誤差反向傳送
終止條件：權重的更新低于某個閾值或預測的錯誤率低于某個閾值或達到一定的循環次數
Overfitting：在訓練集上表現好，但是不能泛化到測試集，測試集表現差

2.3 梯度下降(Gradient Descent)

2.4 卷積神經網絡(Convolutional Neural Network)

人臉識別

2.5 深度卷積神經網絡(Deep Convolutional Neural Network)

視頻分類

3 非監督學習(Unsupervised Learning)

3.1 限制波爾茲曼機(Restricted Boltzman Machine)

圖像與文字特征合并應用對圖像分類

3.2 自動編碼(Autoencoder)

圖像中的物體識別

3.3 深度信念網絡(Deep Belief Network)

貓狗分類

4 小結

持續更新中. . .

總結

以上是生活随笔為你收集整理的Java软件研发工程师转行之深度学习(Deep Learning)进阶：手写数字识别+人脸识别+图像中物体分类+视频分类+图像与文字特征+猫狗分类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：人工智能：物体检测之Faster RCN
下一篇： Java软件开发：自定义MyBatis持