當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TensorFlow 2.0 快速上手教程与手写数字识别例子讲解

發(fā)布時間：2023/12/19 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 TensorFlow 2.0 快速上手教程与手写数字识别例子讲解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

TensorFlow 基礎(chǔ)
- 自動求導機制
- 參數(shù)優(yōu)化
TensorFlow 模型建立、訓練與評估
- 通用模型的類結(jié)構(gòu)
- 多層感知機手寫數(shù)字識別
Keras Pipeline *

TensorFlow 2.0 出來后不久就有人整理了一份簡潔高效的中文指導手冊：簡單粗暴 TensorFlow 2，本文對其中一些重點內(nèi)容加以梳理，方便快速上手。

如果你還沒裝上 TensorFlow 2.0 ，或者希望對 TensorFlow 2.0 的新特性有個大概的了解，可以查看我之前的文章：tensorflow2.0 GPU 版本安裝測試教程及新特性初探

TensorFlow 基礎(chǔ)

自動求導機制

TensorFlow 提供了強大的 自動求導機制 來計算導數(shù)。在即時執(zhí)行模式（eager execution）下，TensorFlow 引入了 tf.GradientTape() 這個 “求導記錄器” 來實現(xiàn)自動求導。以線性回歸為例子，假設(shè)其損失函數(shù)為：
$L(w, b) = ||Xw+b-y||^2$
我們用下面的代碼計算給定 X 與 y 后， $L (w, b)$ 在 $w=(1,2)^T, \; b=1$ 時對 $w, b$ 的偏導數(shù)。

import tensorflow as tfX = tf.constant([[1., 2.], [3., 4.]]) y = tf.constant([[1.], [2.]]) # 初始化要學習的參數(shù) w = tf.Variable(initial_value=[[1.], [2.]]) b = tf.Variable(initial_value=1.)# 在 tf.GradientTape() 的上下文內(nèi)，所有計算步驟都會被記錄以用于求導 with tf.GradientTape() as tape:L = tf.reduce_sum(tf.square(tf.matmul(X, w) + b - y))# 計算L(w, b)關(guān)于w, b的偏導數(shù) w_grad, b_grad = tape.gradient(L, [w, b]) print(L, w_grad, b_grad)

輸出:

tf.Tensor(125.0, shape=(), dtype=float32) tf.Tensor( [[ 70.] [100.]], shape=(2, 1), dtype=float32) tf.Tensor(30.0, shape=(), dtype=float32)

從輸出結(jié)果可見 TensorFlow 幫我們計算出了梯度值。

上面的代碼中，變量 w 和 b 使用 tf.Variable() 申明，通過這種方式得到的變量默認能夠被 TensorFlow 的自動求導機制所求導，因此往往被用于定義機器學習模型的參數(shù)。tf.GradientTape() 是一個自動求導的記錄器。只要進入了 with tf.GradientTape() as tape 的上下文環(huán)境，則在該環(huán)境中計算步驟都會被自動記錄。比如在上面的示例中，計算步驟 L = tf.reduce_sum(tf.square(tf.matmul(X, w) + b - y)) 即被自動記錄。離開上下文環(huán)境后，記錄將停止，但記錄器 tape 依然可用，因此可以通過 w_grad, b_grad = tape.gradient(L, [w, b]) 求張量 L 對變量 w,b 的導數(shù)。

TIPS： tf.square() 操作代表對輸入張量的每一個元素求平方，不改變張量形狀。 tf.reduce_sum() 操作代表對輸入張量的所有元素求和，輸出一個形狀為空的純量張量（可以通過 axis 參數(shù)來指定求和的維度，不指定則默認對所有元素求和）。TensorFlow 中有大量的張量操作 API，包括數(shù)學運算、張量形狀操作（如 tf.reshape()）、切片和連接（如 tf.concat()）等多種類型

參數(shù)優(yōu)化

本節(jié)以 TensorFlow 下的線性回歸示例展開，講解如何進行參數(shù)優(yōu)化。

首先，我們定義數(shù)據(jù)，進行基本的歸一化操作：

import numpy as npX_raw = np.array([2013, 2014, 2015, 2016, 2017], dtype=np.float32) y_raw = np.array([12000, 14000, 15000, 16500, 17500], dtype=np.float32)X = (X_raw - X_raw.min()) / (X_raw.max() - X_raw.min()) y = (y_raw - y_raw.min()) / (y_raw.max() - y_raw.min())

TensorFlow 的 即時執(zhí)行模式提供了更快速的GPU運算、自動求導、優(yōu)化器等一系列對深度學習非常重要的功能。以下展示了如何使用 TensorFlow 計算線性回歸：

X = tf.constant(X) y = tf.constant(y)a = tf.Variable(initial_value=0.) b = tf.Variable(initial_value=0.) variables = [a, b]num_epoch = 10000 optimizer = tf.keras.optimizers.SGD(learning_rate=5e-4) for e in range(num_epoch):# 使用tf.GradientTape()記錄損失函數(shù)的梯度信息with tf.GradientTape() as tape:y_pred = a * X + bloss = tf.reduce_sum(tf.square(y_pred - y))# TensorFlow自動計算損失函數(shù)關(guān)于自變量（模型參數(shù)）的梯度grads = tape.gradient(loss, variables)# TensorFlow自動根據(jù)梯度更新參數(shù)optimizer.apply_gradients(grads_and_vars=zip(grads, variables))

在這里，我們使用了前文的方式計算了損失函數(shù)關(guān)于參數(shù)的偏導數(shù)。同時，使用 tf.keras.optimizers.SGD(learning_rate=5e-4) 聲明了一個梯度下降 優(yōu)化器 （Optimizer），其學習率為 5e-4。優(yōu)化器可以幫助我們根據(jù)計算出的求導結(jié)果更新模型參數(shù)，從而最小化某個特定的損失函數(shù)，具體使用方式是調(diào)用其 apply_gradients() 方法。

注意到 optimizer.apply_gradients() 需要提供參數(shù) grads_and_vars，即待更新的變量（如上述代碼中的 variables ）及損失函數(shù)關(guān)于這些變量的偏導數(shù)（如上述代碼中的 grads ）。具體而言，這里需要傳入一個 Python 列表（List），列表中的每個元素是一個（變量的偏導數(shù)，變量）對。比如上例中需要傳入的參數(shù)是 [(grad_a, a), (grad_b, b)] 。我們通過 grads = tape.gradient(loss, variables) 求出 tape 中記錄的 loss 關(guān)于 variables = [a, b] 中每個變量的偏導數(shù)，也就是 grads = [grad_a, grad_b]，再使用 Python 的 zip() 函數(shù)將 grads = [grad_a, grad_b] 和 variables = [a, b] 拼裝在一起，就可以組合出所需的參數(shù)了。

接下來的部分，是一個更正式的例子。

TensorFlow 模型建立、訓練與評估

在 TensorFlow2.0 中，比較推薦使用 Keras（ tf.keras ）構(gòu)建模型。Keras 在 tf.keras.layers 下內(nèi)置了深度學習中大量常用的的預定義層（例如基本的全連接層，CNN 的卷積層、池化層等），同時也允許我們自定義層。

通用模型的類結(jié)構(gòu)

Keras 模型以類的形式呈現(xiàn)，我們可以通過繼承 tf.keras.Model 這個 Python 類來定義自己的模型。在繼承類中，我們需要重寫 __init__() （構(gòu)造函數(shù)，初始化）和 call(input) （模型調(diào)用）兩個方法，同時也可以根據(jù)需要增加自定義的方法。

常見的結(jié)構(gòu)如下：

class MyModel(tf.keras.Model):def __init__(self):super().__init__()# 此處添加初始化代碼（包含 call 方法中會用到的層），例如# layer1 = tf.keras.layers.BuiltInLayer(...)# layer2 = MyCustomLayer(...)def call(self, input):# 此處添加模型調(diào)用的代碼（處理輸入并返回輸出），例如# x = layer1(input)# output = layer2(x)return output# 還可以添加自定義的方法

繼承 tf.keras.Model 后，我們同時可以使用父類的若干方法和屬性，例如在實例化類 model = Model() 后，可以通過 model.variables 這一屬性直接獲得模型中的所有變量，免去我們一個個顯式指定變量的麻煩。

TIPS：前面的文章說到，在計算梯度的時候，需要傳遞要計算梯度的變量，這些變量可以通過 model.variables 一次性獲取。

多層感知機手寫數(shù)字識別

下面以多層感知機實現(xiàn)手寫數(shù)字識別為例子，講解如何構(gòu)建模型、如何訓練、如何評估結(jié)果。

首先定義一個類，完成數(shù)據(jù)的加載：

class MNISTLoader():def __init__(self):mnist = tf.keras.datasets.mnist(self.train_data, self.train_label), (self.test_data, self.test_label) = mnist.load_data()# 在 TensorFlow 中，圖像數(shù)據(jù)集的一種典型表示是 [圖像數(shù)目，長，寬，色彩通道數(shù)]# MNIST中的圖像默認為uint8（0-255的數(shù)字）。以下代碼將其歸一化到0-1之間的浮點數(shù)，并在最后增加一維作為顏色通道self.train_data = np.expand_dims(self.train_data.astype(np.float32) / 255.0, axis=-1) # [60000, 28, 28, 1]self.test_data = np.expand_dims(self.test_data.astype(np.float32) / 255.0, axis=-1) # [10000, 28, 28, 1]self.train_label = self.train_label.astype(np.int32) # [60000]self.test_label = self.test_label.astype(np.int32) # [10000]self.num_train_data, self.num_test_data = self.train_data.shape[0], self.test_data.shape[0]def get_batch(self, batch_size):# 從數(shù)據(jù)集中隨機取出batch_size個元素并返回index = np.random.randint(0, self.num_train_data, batch_size)return self.train_data[index, :], self.train_label[index]

接下來是模型的構(gòu)建：

class MLP(tf.keras.Model):def __init__(self):super().__init__()# Flatten層將除第一維（batch_size）以外的維度展平self.flatten = tf.keras.layers.Flatten() self.dense1 = tf.keras.layers.Dense(units=100, activation=tf.nn.relu)self.dense2 = tf.keras.layers.Dense(units=10)def call(self, inputs): # [batch_size, 28, 28, 1]x = self.flatten(inputs) # [batch_size, 784]x = self.dense1(x) # [batch_size, 100]x = self.dense2(x) # [batch_size, 10]output = tf.nn.softmax(x)return output

在訓練前需要的準備工作：

# 定義訓練參數(shù) num_epochs = 5 batch_size = 50 learning_rate = 0.001# 實例化模型和數(shù)據(jù)讀取類 model = MLP() data_loader = MNISTLoader() # 聲明優(yōu)化器 optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate) # 聲明迭代次數(shù) num_batches = int(data_loader.num_train_data // batch_size * num_epochs)

然后來是模型的迭代與訓練：

從 DataLoader 中隨機取一批訓練數(shù)據(jù)；
將這批數(shù)據(jù)送入模型，計算出模型的預測值；
將模型預測值與真實值進行比較，計算損失函數(shù)（loss）。這里使用 tf.keras.losses 中的交叉熵函數(shù)作為損失函數(shù)；
計算損失函數(shù)關(guān)于模型變量的導數(shù)；
將求出的導數(shù)值傳入優(yōu)化器，使用優(yōu)化器的 apply_gradients 方法更新模型參數(shù)以最小化損失函數(shù)

代碼如下：

for batch_index in range(num_batches):X, y = data_loader.get_batch(batch_size)with tf.GradientTape() as tape:y_pred = model(X)loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=y, y_pred=y_pred)loss = tf.reduce_mean(loss)print("batch %d: loss %f" % (batch_index, loss.numpy()))grads = tape.gradient(loss, model.variables)optimizer.apply_gradients(grads_and_vars=zip(grads, model.variables))

TIPS：在 tf.keras.losses 中，有兩個交叉熵相關(guān)的損失函數(shù)，都需要接受真實標簽 y_true 與預測結(jié)果 y_pred 作為輸入，二者的主要區(qū)別體現(xiàn)在 y_true 的形式不同。

1，sparse_categorical_crossentropy ：

這也是我們的代碼中使用的損失函數(shù)，需要將模型的預測值 y_pred 與真實的標簽值 y 作為函數(shù)參數(shù)傳入，由 Keras 幫助我們計算損失函數(shù)的值。其中 y_pred 是 10 維的向量，表示樣本屬于各個類別的概率值，而標簽 y 則是真實值，例如8，1，2等。

2，categorical_crossentropy：

與sparse_categorical_crossentropy 不同的是，在多分類問題中，參數(shù) y_true 的輸入值應該是經(jīng)過 onehot 編碼后的向量。也就是說：

loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=y, y_pred=y_pred)

與下面的代碼等效：

loss = tf.keras.losses.categorical_crossentropy(y_true=tf.one_hot(y, depth=tf.shape(y_pred)[-1]),y_pred=y_pred )

最后是模型的評估：

sparse_categorical_accuracy = tf.keras.metrics.SparseCategoricalAccuracy() num_batches = int(data_loader.num_test_data // batch_size) for batch_index in range(num_batches):start_index, end_index = batch_index * batch_size, (batch_index + 1) * batch_sizey_pred = model.predict(data_loader.test_data[start_index: end_index])sparse_categorical_accuracy.update_state(y_true=data_loader.test_label[start_index: end_index], y_pred=y_pred) print("test accuracy: %f" % sparse_categorical_accuracy.result())

TIPS：這里，我們使用 tf.keras.metrics 中的 SparseCategoricalAccuracy 評估器來評估模型在測試集上的性能，該評估器能夠?qū)δＰ皖A測的結(jié)果與真實結(jié)果進行比較，并輸出預測正確的樣本數(shù)占總樣本數(shù)的比例。我們迭代測試數(shù)據(jù)集，每次通過 update_state() 方法向評估器輸入兩個參數(shù)： y_pred 和 y_true ，即模型預測出的結(jié)果和真實結(jié)果。評估器具有內(nèi)部變量來保存當前評估指標相關(guān)的參數(shù)數(shù)值（例如當前已傳入的累計樣本數(shù)和當前預測正確的樣本數(shù)）。迭代結(jié)束后，我們使用 result() 方法輸出最終的評估指標值（預測正確的樣本數(shù)占總樣本數(shù)的比例）。

當然，也可以把每次的預測結(jié)果轉(zhuǎn)換成numpy的形式保存起來，然后使用 sklearn 中的評估函數(shù)進行評估。

Keras Pipeline *

以上示例均使用了 Keras 的 Subclassing API 建立模型，即對 tf.keras.Model 類進行擴展以定義自己的新模型，同時手工編寫了訓練和評估模型的流程。這種方式靈活度高，且與其他流行的深度學習框架（如 PyTorch、Chainer）共通，是本手冊所推薦的方法。

不過在很多時候，我們只需要建立一個結(jié)構(gòu)相對簡單和典型的神經(jīng)網(wǎng)絡(luò)（比如上文中的 MLP 和 CNN），并使用常規(guī)的手段進行訓練。這時，Keras 也給我們提供了另一套更為簡單高效的內(nèi)置方法來建立、訓練和評估模型。具體的使用方法與常規(guī)的 Keras 十分相似，這里就不展開講解了。

參考文章：

TensorFlow 基礎(chǔ)

TensorFlow 模型建立與訓練

總結(jié)

以上是生活随笔為你收集整理的TensorFlow 2.0 快速上手教程与手写数字识别例子讲解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：统计学基础之假设检验
下一篇： CTR 模型之 Deep Cross