當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【台大李宏毅机器学习】机器学习基本概念

發布時間：2023/12/14 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了【台大李宏毅机器学习】机器学习基本概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【臺大李宏毅機器學習】機器學習基本概念

機器學習簡介
- Step1 Function with unknown
- Step2 define loss from training data

機器學習簡介

Machine Learning is so simple …

本章節宏毅講機器學習的三個步驟：

Step 1: function with unknown
Step 2: define loss from training data
Step 3: optimization
(Step1 ~ Step3稱為Training，即我們說的訓練、煉丹)

Step1 Function with unknown

線性模型太簡單了，y = wx+b, w影響斜率，b影響截距，僅僅使用線性模型有很大局限性。 Model Bias

對于折線的模擬，可以設 f = constant + sum of a set of sigmoid.

Simoid Function
$\frac{1}{1+{e}^{-(b+wx_1)}} = c*sigmoid(b+wx_1)$

通過修改參數，我們可以得到不同形狀的sigmoid函數，以近似不同的情況：

修改w，函數的斜率發生改變；

修改b，函數發生左移右移；

修改c，函數高度發生改變；

引入多個特征, 公式中j表示特征個數，

$y=b+wx1→y=b+∑jwjxjy=b+wx_1 \rightarrow y=b+\sum\limits_{j} w_j x_j$

將多特征的情況引入函數中，新的sigmoid function為：

$\sum\limits_{i}c_i*sigmoid(b+\sum\limits_{j}w_{ij}x_j)$

將上述公式經過推導后，得到矩陣形式的計算公式：

$c^T \sigma(b+wx)$

該公式為上述Step1中那個有未知參量的公式的一般形式。

Step2 define loss from training data

更換模型/function后，loss也是計算預測與真實值的差距。

$θ?=argmin?θL\theta^* = arg \min\limits_{\theta} L$

(Randomly) Pick initial values $θ0\theta^0$
Compute gradient以更新參數, $\nabla L(\theta^0)$
update $θ1?θ0?ηg\theta^1 \Leftarrow \theta^0 - \eta g$
…
continue update $θi+1←θi?ηg\theta^{i+1} \leftarrow \theta^i - \eta g$

實際上，在訓練中隨機將訓練集分為batch，長度N的數據集按照size=B劃分[N/B]個batch，而不是拿L來計算gradient。

1 epoch = see all the batches once

hypeparameter 超參數: 人設定值的參數

Example 1

10000 examples(N=10000)
Batch size is 10(B=10)

How many update in 1 epochs?
N/B = 1000 updates

ReLU

常用的也不是soft sigmoid一種，還有一種經典的激活函數是ReLU.

Rectified Linear Unit(ReLU)的公式表示：

$y = c* max(0, b+wx_1)$

要使用ReLU替代Sigmoid，公式更改為：

$\sum\limits_{2i} c_i max(0, b_i+ \sum\limits_{j}w_{ij}x_j)$

Which one is better?

輸出層常用softmax、sigmoid，隱藏層常用ReLU.

Deep Learning

神經網絡的重生之我是深度學習

Hidden Layer 代表一層中很多的 Neuron， Many layers means Deep。故Neural Network的應用被稱為Deep Learning。

Why we want “Deep” network, not “Fat” network? AlexNet 8 layers, while ResNet 152 layers.

Overfitting : Better on training data, worse on unseen data.

過擬合的主要特征，在訓練集上表現超級好，但是在沒訓練過的數據表現不太行；與之相關的還有欠擬合，欠擬合就是在訓練集上也并沒有表現特別好，還有學習的空間。

視頻傳送門
課程視頻獲取地址：
李宏毅《機器學習/深度學習》國語課程(2021)_嗶哩嗶哩_bilibili
本節筆記為視頻中機器學習基本概念。
課程ppt及其他資料獲取地址：
https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

總結

以上是生活随笔為你收集整理的【台大李宏毅机器学习】机器学习基本概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。