當(dāng)前位置：首頁 >

超全机器学习术语词汇表

發(fā)布時間：2025/7/25 34 豆豆

生活随笔收集整理的這篇文章主要介紹了超全机器学习术语词汇表小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

from: https://www.jianshu.com/u/c9bd3225567e
A

準(zhǔn)確率（accuracy）

分類模型預(yù)測準(zhǔn)確的比例。在多類別分類中，準(zhǔn)確率定義如下：

在二分類中，準(zhǔn)確率定義為：

激活函數(shù)（Activation function）

一種函數(shù)（例如 ReLU 或 Sigmoid），將前一層所有神經(jīng)元激活值的加權(quán)和輸入到一個非線性函數(shù)中，然后向下一層傳遞該函數(shù)的輸出值（典型的非線性）。

AdaGrad

一種復(fù)雜的梯度下降算法，重新調(diào)節(jié)每個參數(shù)的梯度，高效地給每個參數(shù)一個單獨(dú)的學(xué)習(xí)率。

AUC（曲線下面積）

一種考慮到所有可能的分類閾值的評估標(biāo)準(zhǔn)。ROC 曲線下面積代表分類器隨機(jī)預(yù)測真正類（Ture Positives）要比假正類（False Positives）概率大的確信度。

反向傳播（Backpropagation）

神經(jīng)網(wǎng)絡(luò)中完成梯度下降的重要算法。首先，在前向傳播的過程中計算每個節(jié)點的輸出值。然后，在反向傳播的過程中計算與每個參數(shù)對應(yīng)的誤差的偏導(dǎo)數(shù)。

基線（Baseline）

被用為對比模型表現(xiàn)參考點的簡單模型。基線幫助模型開發(fā)者量化模型在特定問題上的預(yù)期表現(xiàn)。

批量

模型訓(xùn)練中一個迭代（指一次梯度更新）使用的樣本集。

批量大小（batch size）

一個批量中樣本的數(shù)量。例如，SGD 的批量大小為 1，而 mini-batch 的批量大小通常在 10-1000 之間。批量大小通常在訓(xùn)練與推理的過程中確定，然而 TensorFlow 不允許動態(tài)批量大小。

偏置（bias）

與原點的截距或偏移量。偏置（也稱偏置項）被稱為機(jī)器學(xué)習(xí)模型中的 b 或者 w0。例如，偏置項是以下公式中的 b：y′=b+w_1x_1+w_2x_2+…w_nx_n。

注意不要和預(yù)測偏差混淆。

二元分類器（binary classification）

一類分類任務(wù)，輸出兩個互斥（不相交）類別中的一個。例如，一個評估郵件信息并輸出「垃圾郵件」或「非垃圾郵件」的機(jī)器學(xué)習(xí)模型就是一個二元分類器。

binning/bucketing

根據(jù)值的范圍將一個連續(xù)特征轉(zhuǎn)換成多個稱為 buckets 或者 bins 二元特征，稱為 buckets 或者 bins。例如，將溫度表示為單一的浮點特征，可以將溫度范圍切割為幾個離散的 bins。假如給定的溫度的敏感度為十分之一度，那么分布在 0.0 度和 15.0 度之間的溫度可以放入一個 bin 中，15.1 度到 30.0 度放入第二個 bin，30.1 度到 45.0 度放入第三個 bin。

標(biāo)定層（calibration layer）

一種調(diào)整后期預(yù)測的結(jié)構(gòu)，通常用于解釋預(yù)測偏差。調(diào)整后的預(yù)期和概率必須匹配一個觀察標(biāo)簽集的分布。

候選采樣（candidate sampling）

一種優(yōu)化訓(xùn)練時間的，使用 Softmax 等算法計算所有正標(biāo)簽的概率，同時只計算一些隨機(jī)取樣的負(fù)標(biāo)簽的概率。例如，有一個樣本標(biāo)記為「小獵兔狗」和「狗」，候選取樣將計算預(yù)測概率，和與「小獵兔狗」和「狗」類別輸出（以及剩余的類別的隨機(jī)子集，比如「貓」、「棒棒糖」、「柵欄」）相關(guān)的損失項。這個想法的思路是，負(fù)類別可以通過頻率更低的負(fù)強(qiáng)化（negative reinforcement）進(jìn)行學(xué)習(xí)，而正類別經(jīng)常能得到適當(dāng)?shù)恼龔?qiáng)化，實際觀察確實如此。候選取樣的動力是計算有效性從所有負(fù)類別的非計算預(yù)測的得益。

檢查點（checkpoint）

在特定的時刻標(biāo)記模型的變量的狀態(tài)的數(shù)據(jù)。檢查點允許輸出模型的權(quán)重，也允許通過多個階段訓(xùn)練模型。檢查點還允許跳過錯誤繼續(xù)進(jìn)行（例如，搶占作業(yè)）。注意其自身的圖式并不包含于檢查點內(nèi)。

類別（class）

所有同類屬性的目標(biāo)值作為一個標(biāo)簽。例如，在一個檢測垃圾郵件的二元分類模型中，這兩個類別分別是垃圾郵件和非垃圾郵件。而一個多類別分類模型將區(qū)分狗的種類，其中的類別可以是貴賓狗、小獵兔狗、哈巴狗等等。

類別不平衡數(shù)據(jù)集（class-imbalanced data set）

這是一個二元分類問題，其中兩個類別的標(biāo)簽的分布頻率有很大的差異。比如，一個疾病數(shù)據(jù)集中若 0.01% 的樣本有正標(biāo)簽，而 99.99% 的樣本有負(fù)標(biāo)簽，那么這就是一個類別不平衡數(shù)據(jù)集。但對于一個足球比賽預(yù)測器數(shù)據(jù)集，若其中 51% 的樣本標(biāo)記一隊勝利，而 49% 的樣本標(biāo)記其它隊伍勝利，那么這就不是一個類別不平衡數(shù)據(jù)集。

分類模型（classification）

機(jī)器學(xué)習(xí)模型的一種，將數(shù)據(jù)分離為兩個或多個離散類別。例如，一個自然語言處理分類模型可以將一句話歸類為法語、西班牙語或意大利語。分類模型與回歸模型（regression model）成對比。

分類閾值（classification threshold）

應(yīng)用于模型的預(yù)測分?jǐn)?shù)以分離正類別和負(fù)類別的一種標(biāo)量值標(biāo)準(zhǔn)。當(dāng)需要將 logistic 回歸的結(jié)果映射到二元分類模型中時就需要使用分類閾值。例如，考慮一個確定給定郵件為垃圾郵件的概率的 logistic 回歸模型，如果分類閾值是 0.9，那么 logistic 回歸值在 0.9 以上的被歸為垃圾郵件，而在 0.9 以下的被歸為非垃圾郵件。

混淆矩陣（confusion matrix）

總結(jié)分類模型的預(yù)測結(jié)果的表現(xiàn)水平（即，標(biāo)簽和模型分類的匹配程度）的 NxN 表格。混淆矩陣的一個軸列出模型預(yù)測的標(biāo)簽，另一個軸列出實際的標(biāo)簽。N 表示類別的數(shù)量。在一個二元分類模型中，N=2。例如，以下為一個二元分類問題的簡單的混淆矩陣：

上述混淆矩陣展示了在 19 個確實為腫瘤的樣本中，有 18 個被模型正確的歸類（18 個真正），有 1 個被錯誤的歸類為非腫瘤（1 個假負(fù)類）。類似的，在 458 個確實為非腫瘤的樣本中，有 452 個被模型正確的歸類（452 個真負(fù)類），有 6 個被錯誤的歸類（6 個假正類）。

多類別分類的混淆矩陣可以幫助發(fā)現(xiàn)錯誤出現(xiàn)的模式。例如，一個混淆矩陣揭示了一個識別手寫數(shù)字體的模型傾向于將 4 識別為 9，或者將 7 識別為 1。混淆矩陣包含了足夠多的信息可以計算很多的模型表現(xiàn)度量，比如精度（precision）和召回（recall）率。

連續(xù)特征（continuous feature）

擁有無限個取值點的浮點特征。和離散特征（discrete feature）相反。

收斂（convergence）

訓(xùn)練過程達(dá)到的某種狀態(tài)，其中訓(xùn)練損失和驗證損失在經(jīng)過了確定的迭代次數(shù)后，在每一次迭代中，改變很小或完全不變。換句話說就是，當(dāng)對當(dāng)前數(shù)據(jù)繼續(xù)訓(xùn)練而無法再提升模型的表現(xiàn)水平的時候，就稱模型已經(jīng)收斂。在深度學(xué)習(xí)中，損失值下降之前，有時候經(jīng)過多次迭代仍保持常量或者接近常量，會造成模型已經(jīng)收斂的錯覺。

凸函數(shù)（concex function）

一種形狀大致呈字母 U 形或碗形的函數(shù)。然而，在退化情形中，凸函數(shù)的形狀就像一條線。例如，以下幾個函數(shù)都是凸函數(shù)：

L2 損失函數(shù)

Log 損失函數(shù)

L1 正則化函數(shù)

L2 正則化函數(shù)

凸函數(shù)是很常用的損失函數(shù)。因為當(dāng)一個函數(shù)有最小值的時候（通常就是這樣），梯度下降的各種變化都能保證找到接近函數(shù)最小值的點。類似的，隨機(jī)梯度下降的各種變化有很大的概率（雖然無法保證）找到接近函數(shù)最小值的點。

兩個凸函數(shù)相加（比如，L2 損失函數(shù)+L1 正則化函數(shù)）后仍然是凸函數(shù)。

深度模型通常是非凸的。出乎意料的是，以凸優(yōu)化的形式設(shè)計的算法通常都能在深度網(wǎng)絡(luò)上工作的很好，雖然很少能找到最小值。

成本（cost）

loss 的同義詞。

交叉熵（cross-entropy）

多類別分類問題中對 Log 損失函數(shù)的推廣。交叉熵量化兩個概率分布之間的區(qū)別。參見困惑度（perplexity）。

數(shù)據(jù)集（data set）

樣本的集合。

決策邊界（decision boundary）

在一個二元分類或多類別分類問題中模型學(xué)習(xí)的類別之間的分離器。例如，下圖就展示了一個二元分類問題，決策邊界即橙點類和藍(lán)點類的邊界。

深度模型（deep model）

一種包含多個隱藏層的神經(jīng)網(wǎng)絡(luò)。深度模型依賴于其可訓(xùn)練的非線性性質(zhì)。和寬度模型對照（wide model）。

密集特征（dense feature）

大多數(shù)取值為非零的一種特征，通常用取浮點值的張量（tensor）表示。和稀疏特征（sparse feature）相反。

派生特征（derived feature）

合成特征（synthetic feature）的同義詞。

離散特征（discrete feature）

只有有限個可能取值的一種特征。例如，一個取值只包括動物、蔬菜或礦物的特征就是離散（或類別）特征。和連續(xù)特征（continuous feature）對照。

dropout 正則化（dropout regularization）

訓(xùn)練神經(jīng)網(wǎng)絡(luò)時一種有用的正則化方法。dropout 正則化的過程是在單次梯度計算中刪去一層網(wǎng)絡(luò)中隨機(jī)選取的固定數(shù)量的單元。刪去的單元越多，正則化越強(qiáng)。

動態(tài)模型（dynamic model）

以連續(xù)更新的方式在線訓(xùn)練的模型。即數(shù)據(jù)連續(xù)不斷的輸入模型。

早期停止法（early stopping）

一種正則化方法，在訓(xùn)練損失完成下降之前停止模型訓(xùn)練過程。當(dāng)驗證數(shù)據(jù)集（validation data set）的損失開始上升的時候，即泛化表現(xiàn)變差的時候，就該使用早期停止法了。

嵌入（embeddings）

一類表示為連續(xù)值特征的明確的特征。嵌入通常指將高維向量轉(zhuǎn)換到低維空間中。例如，將一個英語句子中的單詞以以下任何一種方式表示：

擁有百萬數(shù)量級（高維）的元素的稀疏向量，其中所有的元素都是整數(shù)。向量的每一個單元表示一個單獨(dú)的英語單詞，單元中的數(shù)字表示該單詞在一個句子中出現(xiàn)的次數(shù)。由于一個句子中的單詞通常不會超過 50 個，向量中幾乎所有的單元都是 0。少量的非零的單元將取一個小的整數(shù)值（通常為 1）表示句子中一個單詞的出現(xiàn)次數(shù)。

擁有數(shù)百個（低維）元素的密集向量，其中每一個元素取 0 到 1 之間的浮點數(shù)。

在 TensorFlow 中，嵌入是通過反向傳播損失訓(xùn)練的，正如神經(jīng)網(wǎng)絡(luò)的其它參量一樣。

經(jīng)驗風(fēng)險最小化（empirical risk minimization，ERM）

選擇能最小化訓(xùn)練數(shù)據(jù)的損失的模型函數(shù)的過程。和結(jié)構(gòu)風(fēng)險最小化（structual risk minimization）對照。

集成（ensemble）

多個模型預(yù)測的綜合考慮。可以通過以下一種或幾種方法創(chuàng)建一個集成方法：

設(shè)置不同的初始化；

設(shè)置不同的超參量；

設(shè)置不同的總體結(jié)構(gòu)。

深度和廣度模型是一種集成。

評估器（Estimator）

tf.Estimator 類的一個例子，封裝 logic 以建立一個 TensorFlow 圖并運(yùn)行一個 TensorFlow session。你可以通過以下方式創(chuàng)建自己的評估器：https://www.tensorflow.org/extend/estimators

樣本（example）

一個數(shù)據(jù)集的一行內(nèi)容。一個樣本包含了一個或多個特征，也可能是一個標(biāo)簽。參見標(biāo)注樣本（labeled example）和無標(biāo)注樣本（unlabeled example）。

假負(fù)類（false negative，FN）

被模型錯誤的預(yù)測為負(fù)類的樣本。例如，模型推斷一封郵件為非垃圾郵件（負(fù)類），但實際上這封郵件是垃圾郵件。

假正類（false positive，FP）

被模型錯誤的預(yù)測為正類的樣本。例如，模型推斷一封郵件為垃圾郵件（正類），但實際上這封郵件是非垃圾郵件。

假正類率（false positive rate，FP rate）

ROC 曲線（ROC curve）中的 x 軸。FP 率的定義是：假正率=假正類數(shù)/(假正類數(shù)+真負(fù)類數(shù))

特征（feature）

輸入變量，用于做出預(yù)測。

特征列（feature columns/FeatureColumn）

具有相關(guān)性的特征的集合，比如用戶可能居住的所有可能的國家的集合。一個樣本的一個特征列中可能會有一個或者多個特征。

TensorFlow 中的特征列還可以壓縮元數(shù)據(jù)比如下列情況：

特征的數(shù)據(jù)類型；

一個特征是固定長度的或應(yīng)該轉(zhuǎn)換為嵌入。

一個特征列可以僅包含一個特征。「特征列」是谷歌專用的術(shù)語。在 VW 系統(tǒng)（Yahoo/Microsoft）中特征列的意義是「命名空間」（namespace），或者場（field）。

特征交叉（feature cross）

將特征進(jìn)行交叉（乘積或者笛卡爾乘積）運(yùn)算后得到的合成特征。特征交叉有助于表示非線性關(guān)系。

特征工程（feature engineering）

在訓(xùn)練模型的時候，決定哪些特征是有用的，然后將記錄文件和其它來源的原始數(shù)據(jù)轉(zhuǎn)換成上述特征的過程。在 TensorFlow 中特征工程通常意味著將原始記錄文件輸入 tf.Example 協(xié)議緩存中。參見 tf.Transform。特征工程有時候也稱為特征提取。

特征集（feature set）

機(jī)器學(xué)習(xí)模型訓(xùn)練的時候使用的特征群。比如，郵政編碼，面積要求和物業(yè)狀況可以組成一個簡單的特征集，使模型能預(yù)測房價。

特征定義（feature spec）

描述所需的信息從 tf.Example 協(xié)議緩存中提取特征數(shù)據(jù)。因為 tf.Example 協(xié)議緩存只是數(shù)據(jù)的容器，必須明確以下信息：

需要提取的數(shù)據(jù)（即特征的關(guān)鍵信息）

數(shù)據(jù)類型（比如，浮點數(shù)還是整數(shù)）

數(shù)據(jù)長度（固定的或者變化的）

Estimator API 提供了從一群特征列中生成一個特征定義的工具。

完全 softmax（full softmax）

參見 softmax。和候選采樣對照。

泛化（generalization）

指模型利用新的沒見過的數(shù)據(jù)而不是用于訓(xùn)練的數(shù)據(jù)作出正確的預(yù)測的能力。

廣義線性模型（generalized linear model）

最小二乘回歸模型的推廣/泛化，基于高斯噪聲，相對于其它類型的模型（基于其它類型的噪聲，比如泊松噪聲，或類別噪聲）。廣義線性模型的例子包括：

logistic 回歸

多分類回歸

最小二乘回歸

廣義線性模型的參數(shù)可以通過凸優(yōu)化得到，它具有以下性質(zhì)：

最理想的最小二乘回歸模型的平均預(yù)測結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

最理想的 logistic 回歸模型的平均概率的預(yù)測結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

廣義線性模型的能力局限于其特征的性質(zhì)。和深度模型不同，一個廣義線性模型無法「學(xué)習(xí)新的特征」。

梯度（gradient）

所有變量的偏導(dǎo)數(shù)的向量。在機(jī)器學(xué)習(xí)中，梯度是模型函數(shù)的偏導(dǎo)數(shù)向量。梯度指向最陡峭的上升路線。

梯度截斷（gradient clipping）

在應(yīng)用梯度之前先修飾數(shù)值，梯度截斷有助于確保數(shù)值穩(wěn)定性，防止梯度爆炸出現(xiàn)。

梯度下降（gradient descent）

通過計算模型的相關(guān)參量和損失函數(shù)的梯度最小化損失函數(shù)，值取決于訓(xùn)練數(shù)據(jù)。梯度下降迭代地調(diào)整參量，逐漸靠近權(quán)重和偏置的最佳組合，從而最小化損失函數(shù)。

圖（graph）

在 TensorFlow 中的一種計算過程展示。圖中的節(jié)點表示操作。節(jié)點的連線是有指向性的，表示傳遞一個操作（一個張量）的結(jié)果（作為一個操作數(shù)）給另一個操作。使用 TensorBoard 能可視化計算圖。

啟發(fā)式（heuristic）

一個問題的實際的和非最優(yōu)的解，但能從學(xué)習(xí)經(jīng)驗中獲得足夠多的進(jìn)步。

隱藏層（hidden layer）

神經(jīng)網(wǎng)絡(luò)中位于輸入層（即特征）和輸出層（即預(yù)測）之間的合成層。一個神經(jīng)網(wǎng)絡(luò)包含一個或多個隱藏層。

折頁損失函數(shù)（Hinge loss）

損失函數(shù)的一個類型，用于分類模型以尋找距離每個樣本的距離最大的決策邊界，即最大化樣本和邊界之間的邊緣。KSVMs 使用 hinge 損失函數(shù)（或相關(guān)的函數(shù)，比如平方 hinge 函數(shù)）。在二元分類中，hinge 損失函數(shù)按以下方式定義：

loss=max(0,1?(y′?y))

其中 y'是分類器模型的列輸出：

y′=b+w_1x_1+w_2x_2+…w_nx_n

y 是真實的標(biāo)簽，-1 或+1。

因此，hinge 損失將是下圖所示的樣子：

測試數(shù)據(jù)（holdout data）

有意不用于訓(xùn)練的樣本。驗證數(shù)據(jù)集（validation data set）和測試數(shù)據(jù)集（test data set）是測試數(shù)據(jù)（holdout data）的兩個例子。測試數(shù)據(jù)幫助評估模型泛化到除了訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)的能力。測試集的損失比訓(xùn)練集的損失提供了對未知數(shù)據(jù)集的損失更好的估計。

超參數(shù)（hyperparameter）

連續(xù)訓(xùn)練模型的過程中可以擰動的「旋鈕」。例如，相對于模型自動更新的參數(shù)，學(xué)習(xí)率（learning rate）是一個超參數(shù)。和參量對照。

獨(dú)立同分布（independently and identically distributed，i.i.d）

從不會改變的分布中獲取的數(shù)據(jù)，且獲取的每個值不依賴于之前獲取的值。i.i.d. 是機(jī)器學(xué)習(xí)的理想情況——一種有用但在現(xiàn)實世界中幾乎找不到的數(shù)學(xué)構(gòu)建。例如，網(wǎng)頁訪客的分布可能是短暫時間窗口上的 i.i.d；即分布不會在該時間窗口發(fā)生改變，每個人的訪問都與其他人的訪問獨(dú)立。但是，如果你擴(kuò)展了時間窗口，則會出現(xiàn)網(wǎng)頁訪客的季節(jié)性差異。

推斷（inference）

在機(jī)器學(xué)習(xí)中，通常指將訓(xùn)練模型應(yīng)用到無標(biāo)注樣本來進(jìn)行預(yù)測的過程。在統(tǒng)計學(xué)中，推斷指在觀察到的數(shù)據(jù)的基礎(chǔ)上擬合分布參數(shù)的過程。

輸入層（input layer）

神經(jīng)網(wǎng)絡(luò)的第一層（接收輸入數(shù)據(jù)）。

評分者間一致性（inter-rater agreement）

用來衡量一項任務(wù)中人類評分者意見一致的指標(biāo)。如果意見不一致，則任務(wù)說明可能需要改進(jìn)。有時也叫標(biāo)注者間信度（inter-annotator agreement）或評分者間信度（inter-rater reliability）。

Kernel 支持向量機(jī)（Kernel Support Vector Machines/KSVM）

一種分類算法，旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間使正類和負(fù)類之間的邊際最大化。例如，考慮一個輸入數(shù)據(jù)集包含一百個特征的分類問題。為了使正類和負(fù)類之間的間隔最大化，KSVM 從內(nèi)部將特征映射到百萬維度的空間。KSVM 使用的損失函數(shù)叫作 hinge 損失。

L1 損失函數(shù)（L1 loss）

損失函數(shù)基于模型對標(biāo)簽的預(yù)測值和真實值的差的絕對值而定義。L1 損失函數(shù)比起 L2 損失函數(shù)對異常值的敏感度更小。

L1 正則化（L1 regularization）

一種正則化，按照權(quán)重絕對值總和的比例進(jìn)行懲罰。在依賴稀疏特征的模型中，L1 正則化幫助促使（幾乎）不相關(guān)的特征的權(quán)重趨近于 0，從而從模型中移除這些特征。

L2 損失（L2 loss）

參見平方損失。

L2 正則化（L2 regularization）

一種正則化，按照權(quán)重平方的總和的比例進(jìn)行懲罰。L2 正則化幫助促使異常值權(quán)重更接近 0 而不趨近于 0。（可與 L1 正則化對照閱讀。）L2 正則化通常改善線性模型的泛化效果。

標(biāo)簽（label）

在監(jiān)督式學(xué)習(xí)中，樣本的「答案」或「結(jié)果」。標(biāo)注數(shù)據(jù)集中的每個樣本包含一或多個特征和一個標(biāo)簽。比如，在房屋數(shù)據(jù)集中，特征可能包括臥室數(shù)量、衛(wèi)生間數(shù)量、房齡，而標(biāo)簽可能就是房子的價格。在垃圾郵件檢測數(shù)據(jù)集中，特征可能包括主題、發(fā)出者何郵件本身，而標(biāo)簽可能是「垃圾郵件」或「非垃圾郵件」。

標(biāo)注樣本（labeled example）

包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中，模型從標(biāo)注樣本中進(jìn)行學(xué)習(xí)。

lambda

正則化率的同義詞。（該術(shù)語有多種含義。這里，我們主要關(guān)注正則化中的定義。）

層（layer）

神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元序列，可以處理輸入特征序列或神經(jīng)元的輸出。

它也是 TensorFlow 的一種抽象化概念。層是將張量和配置選項作為輸入、輸出其他張量的 Python 函數(shù)。一旦必要的張量出現(xiàn)，用戶就可以通過模型函數(shù)將結(jié)果轉(zhuǎn)換成估計器。

學(xué)習(xí)率（learning rate）

通過梯度下降訓(xùn)練模型時使用的一個標(biāo)量。每次迭代中，梯度下降算法使學(xué)習(xí)率乘以梯度，乘積叫作 gradient step。

學(xué)習(xí)率是一個重要的超參數(shù)。

最小二乘回歸（least squares regression）

通過 L2 損失最小化進(jìn)行訓(xùn)練的線性回歸模型。

線性回歸（linear regression）

對輸入特征的線性連接輸出連續(xù)值的一種回歸模型。

logistic 回歸（logistic regression）

將 sigmoid 函數(shù)應(yīng)用于線性預(yù)測，在分類問題中為每個可能的離散標(biāo)簽值生成概率的模型。盡管 logistic 回歸常用于二元分類問題，但它也用于多類別分類問題（這種情況下，logistic 回歸叫作「多類別 logistic 回歸」或「多項式回歸」。

對數(shù)損失函數(shù)（Log Loss）

二元 logistic 回歸模型中使用的損失函數(shù)。

損失

度量模型預(yù)測與標(biāo)簽距離的指標(biāo)，它是度量一個模型有多糟糕的指標(biāo)。為了確定損失值，模型必須定義損失函數(shù)。例如，線性回歸模型通常使用均方差作為損失函數(shù)，而 logistic 回歸模型使用對數(shù)損失函數(shù)。

機(jī)器學(xué)習(xí)（machine learning）

利用輸入數(shù)據(jù)構(gòu)建（訓(xùn)練）預(yù)測模型的項目或系統(tǒng)。該系統(tǒng)使用學(xué)習(xí)的模型對與訓(xùn)練數(shù)據(jù)相同分布的新數(shù)據(jù)進(jìn)行有用的預(yù)測。機(jī)器學(xué)習(xí)還指與這些項目或系統(tǒng)相關(guān)的研究領(lǐng)域。

均方誤差（Mean Squared Error/MSE）

每個樣本的平均平方損失。MSE 可以通過平方損失除以樣本數(shù)量來計算。TensorFlow Playground 展示「訓(xùn)練損失」和「測試損失」的值是 MSE。

小批量（mini-batch）

在訓(xùn)練或推斷的一個迭代中運(yùn)行的整批樣本的一個小的隨機(jī)選擇的子集。小批量的大小通常在 10 到 1000 之間。在小批量數(shù)據(jù)上計算損失比在全部訓(xùn)練數(shù)據(jù)上計算損失要高效的多。

小批量隨機(jī)梯度下降（mini-batch stochastic gradient descent）

使用小批量的梯度下降算法。也就是，小批量隨機(jī)梯度下降基于訓(xùn)練數(shù)據(jù)的子集對梯度進(jìn)行評估。Vanilla SGD 使用 size 為 1 的小批量。

模型（model）

機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)中所學(xué)內(nèi)容的表示。該術(shù)語有多個含義，包括以下兩個相關(guān)含義：

TensorFlow 圖，顯示如何計算預(yù)測的結(jié)構(gòu)。

TensorFlow 圖的特定權(quán)重和偏差，由訓(xùn)練決定。

模型訓(xùn)練（model training）

確定最佳模型的過程。

動量（Momentum）

一種復(fù)雜的梯度下降算法，其中的學(xué)習(xí)步不只依賴于當(dāng)前步的導(dǎo)數(shù)，還依賴于先于它的步。動量包括隨著時間計算梯度的指數(shù)加權(quán)移動平均數(shù)，類似于物理學(xué)中的動量。動量有時可以阻止學(xué)習(xí)陷于局部最小值。

多類別（multi-class）

在多于兩類的類別中進(jìn)行分類的分類問題。例如，有約 128 種楓樹，那么分類楓樹品種的模型就是多類別的。反之，把電子郵件分成兩個類別（垃圾郵件和非垃圾郵件）的模型是二元分類器模型。

NaN trap

訓(xùn)練過程中，如果模型中的一個數(shù)字變成了 NaN，則模型中的很多或所有其他數(shù)字最終都變成 NaN。NaN 是「Not a Number」的縮寫。

負(fù)類（negative class）

在二元分類中，一個類別是正類，另外一個是負(fù)類。正類就是我們要找的目標(biāo)，負(fù)類是另外一種可能性。例如，醫(yī)療測試中的負(fù)類可能是「非腫瘤」，電子郵件分類器中的負(fù)類可能是「非垃圾郵件」。

神經(jīng)網(wǎng)絡(luò)（neural network）

該模型從大腦中獲取靈感，由多個層組成（其中至少有一個是隱藏層），每個層包含簡單的連接單元或神經(jīng)元，其后是非線性。

神經(jīng)元（neuron）

神經(jīng)網(wǎng)絡(luò)中的節(jié)點，通常輸入多個值，生成一個輸出值。神經(jīng)元通過將激活函數(shù)（非線性轉(zhuǎn)換）應(yīng)用到輸入值的加權(quán)和來計算輸出值。

歸一化（normalization）

將值的實際區(qū)間轉(zhuǎn)化為標(biāo)準(zhǔn)區(qū)間的過程，標(biāo)準(zhǔn)區(qū)間通常是-1 到+1 或 0 到 1。例如，假設(shè)某個特征的自然區(qū)間是 800 到 6000。通過減法和分割，你可以把那些值標(biāo)準(zhǔn)化到區(qū)間-1 到+1。參見縮放。

numpy

Python 中提供高效數(shù)組運(yùn)算的開源數(shù)學(xué)庫。pandas 基于 numpy 構(gòu)建。

目標(biāo)（objective）

算法嘗試優(yōu)化的目標(biāo)函數(shù)。

離線推斷（offline inference）

生成一組預(yù)測并存儲，然后按需檢索那些預(yù)測。可與在線推斷對照閱讀。

one-hot 編碼（one-hot encoding）

一個稀疏向量，其中：

一個元素設(shè)置為 1。

所有其他的元素設(shè)置為 0。

獨(dú)熱編碼常用于表示有有限可能值集合的字符串或標(biāo)識符。例如，假設(shè)一個記錄了 15000 個不同品種的植物數(shù)據(jù)集，每一個用獨(dú)特的字符串標(biāo)識符來表示。作為特征工程的一部分，你可能將那些字符串標(biāo)識符進(jìn)行獨(dú)熱編碼，每個向量的大小為 15000。

一對多（one-vs.-all）

給出一個有 N 個可能解決方案的分類問題，一對多解決方案包括 N 個獨(dú)立的二元分類器——每個可能的結(jié)果都有一個二元分類器。例如，一個模型將樣本分為動物、蔬菜或礦物，則一對多的解決方案將提供以下三種獨(dú)立的二元分類器：

動物和非動物

蔬菜和非蔬菜

礦物和非礦物

在線推斷（online inference）

按需生成預(yù)測。可與離線推斷對照閱讀。

運(yùn)算（Operation/op）

TensorFlow 圖中的一個節(jié)點。在 TensorFlow 中，任何創(chuàng)建、控制或損壞張量的步驟都是運(yùn)算。例如，矩陣乘法是一個把兩個張量作為輸入、生成一個張量作為輸出的運(yùn)算。

優(yōu)化器（optimizer）

梯度下降算法的特定實現(xiàn)。TensorFlow 的基類優(yōu)化器是 tf.train.Optimizer。不同的優(yōu)化器（tf.train.Optimizer 的子類）對應(yīng)不同的概念，如：

動量（Momentum）

更新頻率（AdaGrad = ADAptive GRADient descent；Adam = ADAptive with Momentum；RMSProp）

稀疏性／正則化（Ftrl）

更復(fù)雜的數(shù)學(xué)（Proximal 及其他）

你甚至可以想象 NN-driven optimizer。

異常值（outlier）

與大多數(shù)值差別很大的值。在機(jī)器學(xué)習(xí)中，下列都是異常值：

高絕對值的權(quán)重。

與實際值差距過大的預(yù)測值。

比平均值多大約 3 個標(biāo)準(zhǔn)差的輸入數(shù)據(jù)的值。

異常值往往使模型訓(xùn)練中出現(xiàn)問題。

輸出層（output layer）

神經(jīng)網(wǎng)絡(luò)的「最后」一層。這一層包含整個·模型所尋求的答案。

過擬合（overfitting）

創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)非常匹配，以至于模型無法對新數(shù)據(jù)進(jìn)行正確的預(yù)測。

pandas

一種基于列的數(shù)據(jù)分析 API。很多機(jī)器學(xué)習(xí)框架，包括 TensorFlow，支持 pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入。參見 pandas 文檔。

參數(shù)（parameter）

機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如，權(quán)重是參數(shù)，它的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的。可與超參數(shù)對照閱讀。

參數(shù)服務(wù)器（Parameter Server/PS）

用于在分布式設(shè)置中跟蹤模型參數(shù)。

參數(shù)更新（parameter update）

在訓(xùn)練過程中調(diào)整模型參數(shù)的操作，通常在梯度下降的單個迭代中進(jìn)行。

偏導(dǎo)數(shù)（partial derivative）

一個多變量函數(shù)的偏導(dǎo)數(shù)是它關(guān)于其中一個變量的導(dǎo)數(shù)，而保持其他變量恒定。例如，f(x, y) 對于 x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù)，y 保持恒定。x 的偏導(dǎo)數(shù)中只有 x 是變化的，公式中其他的變量都不用變化。

分區(qū)策略（partitioning strategy）

在多個參數(shù)服務(wù)器中分割變量的算法。

性能（performance）

具有多種含義：

在軟件工程中的傳統(tǒng)含義：軟件運(yùn)行速度有多快／高效？

在機(jī)器學(xué)習(xí)中的含義：模型的準(zhǔn)確率如何？即，模型的預(yù)測結(jié)果有多好？

困惑度（perplexity）

對模型完成任務(wù)的程度的一種度量指標(biāo)。例如，假設(shè)你的任務(wù)是閱讀用戶在智能手機(jī)上輸入的單詞的頭幾個字母，并提供可能的完整單詞列表。該任務(wù)的困惑度（perplexity，P）是為了列出包含用戶實際想輸入單詞的列表你需要進(jìn)行的猜測數(shù)量。

困惑度和交叉熵的關(guān)系如下：

流程（pipeline）

機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。管道包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件中、訓(xùn)練一或多個模型，以及最終輸出模型。

正類（positive class）

在二元分類中，有兩種類別：正類和負(fù)類。正類是我們測試的目標(biāo)。（不過必須承認(rèn)，我們同時測試兩種結(jié)果，但其中一種不是重點。）例如，醫(yī)療測試中正類可能是「腫瘤」，電子郵件分類器中的正類可能是「垃圾郵件」。可與負(fù)類對照閱讀。

精度（precision）

分類模型的一種指標(biāo)。準(zhǔn)確率指模型預(yù)測正類時預(yù)測正確的頻率。即：

預(yù)測（prediction）

模型在輸入樣本后的輸出結(jié)果。

預(yù)測偏差（prediction bias）

揭示預(yù)測的平均值與數(shù)據(jù)集中標(biāo)簽的平均值的差距。

預(yù)制評估器（pre-made Estimator）

已經(jīng)構(gòu)建好的評估器。TensorFlow 提供多個預(yù)制評估器，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。你可以根據(jù)指導(dǎo)（https://www.tensorflow.org/extend/estimators）構(gòu)建自己的預(yù)制評估器。

預(yù)訓(xùn)練模型（pre-trained model）

已經(jīng)訓(xùn)練好的模型或模型組件（如嵌入）。有時，你將預(yù)訓(xùn)練嵌入饋送至神經(jīng)網(wǎng)絡(luò)。其他時候，你的模型自行訓(xùn)練嵌入，而不是依賴于預(yù)訓(xùn)練嵌入。

先驗信念（prior belief）

訓(xùn)練開始之前你對數(shù)據(jù)的信念。例如，L2 正則化依賴于權(quán)重值很小且正常分布在 0 周圍的信念。

隊列（queue）

實現(xiàn)隊列數(shù)據(jù)結(jié)構(gòu)的 TensorFlow 操作。通常在輸入／輸出（I/O）中使用。

秩（rank）

機(jī)器學(xué)習(xí)領(lǐng)域中包含多種含義的術(shù)語：

張量中的維度數(shù)量。比如，標(biāo)量有 1 個秩，向量有 1 個秩，矩陣有 2 個秩。（注：在這個詞匯表中，「秩」的概念和線性代數(shù)中「秩」的概念不一樣，例如三階可逆矩陣的秩為 3。）

機(jī)器學(xué)習(xí)問題中類別的序數(shù)位置，按從高到低的順序給類別分類。比如，行為排序系統(tǒng)可以把狗的獎勵按從高（牛排）到低（甘藍(lán)）排序。

評分者（rater）

為樣本提供標(biāo)簽的人，有時也叫「標(biāo)注者」。

召回率（recall）

分類模型的一個指標(biāo)，可以回答這個問題：模型能夠準(zhǔn)確識別多少正標(biāo)簽？即：

修正線性單元（Rectified Linear Unit/ReLU）

一種具備以下規(guī)則的激活函數(shù)：

如果輸入為負(fù)或零，則輸出為 0。

如果輸入為正，則輸出與輸入相同。

回歸模型（regression model）

一種輸出持續(xù)值（通常是浮點數(shù)）的模型。而分類模型輸出的是離散值，如「day lily」或「tiger lily」。

正則化（regularization）

對模型復(fù)雜度的懲罰。正則化幫助防止過擬合。正則化包括不同種類：

L1 正則化

L2 正則化

dropout 正則化

early stopping（這不是正式的正則化方法，但可以高效限制過擬合）

正則化率（regularization rate）

一種標(biāo)量級，用 lambda 來表示，指正則函數(shù)的相對重要性。從下面這個簡化的損失公式可以看出正則化率的作用：

minimize(loss function + λ(regularization function))

提高正則化率能夠降低過擬合，但可能會使模型準(zhǔn)確率降低。

表征

將數(shù)據(jù)映射到有用特征的過程。

受試者工作特征曲線（receiver operating characteristic/ROC Curve）

反映在不同的分類閾值上，真正類率和假正類率的比值的曲線。參見 AUC。

根目錄（root directory）

指定放置 TensorFlow 檢查點文件子目錄和多個模型的事件文件的目錄。

均方根誤差（Root Mean Squared Error/RMSE）

均方誤差的平方根。

Saver

負(fù)責(zé)存儲模型檢查點文件的 TensorFlow 對象。

縮放（scaling）

特征工程中常用的操作，用于控制特征值區(qū)間，使之與數(shù)據(jù)集中其他特征的區(qū)間匹配。例如，假設(shè)你想使數(shù)據(jù)集中所有的浮點特征的區(qū)間為 0 到 1。給定一個特征區(qū)間是 0 到 500，那么你可以通過將每個值除以 500，縮放特征值區(qū)間。還可參見正則化。

scikit-learn

一種流行的開源機(jī)器學(xué)習(xí)平臺。網(wǎng)址：www.scikit-learn.org

序列模型（sequence model）

輸入具有序列依賴性的模型。例如，根據(jù)之前觀看過的視頻序列對下一個視頻進(jìn)行預(yù)測。

會話（session）

保持 TensorFlow 程序的狀態(tài)（如變量）。

Sigmoid 函數(shù)（sigmoid function）

把 logistic 或多項式回歸輸出（對數(shù)幾率）映射到概率的函數(shù)，返回的值在 0 到 1 之間。sigmoid 函數(shù)的公式如下：

其中σ在 logistic 回歸問題中只是簡單的：

在有些神經(jīng)網(wǎng)絡(luò)中，sigmoid 函數(shù)和激活函數(shù)一樣。

softmax

為多類別分類模型中每個可能的類提供概率的函數(shù)。概率加起來的總和是 1.0。例如，softmax 可能檢測到某個圖像是一只狗的概率為 0.9，是一只貓的概率為 0.08，是一匹馬的概率為 0.02。（也叫作 full softmax）。

稀疏特征（sparse feature）

值主要為 0 或空的特征向量。比如，一個向量的值有 1 個 1,、一百萬個 0，則該向量為稀疏向量。再比如，搜索查詢中的單詞也是稀疏向量：在一種語言中有很多可以用的單詞，但給定的查詢中只用了其中的一些。

可與稠密特征對照閱讀。

平方損失（squared loss）

線性回歸中使用的損失函數(shù)（也叫作 L2 Loss）。該函數(shù)計算模型對標(biāo)注樣本的預(yù)測值和標(biāo)簽真正值之間差的平方。在平方之后，該損失函數(shù)擴(kuò)大了不良預(yù)測的影響。即，平方損失比 L1 Loss 對異常值（outlier）的反應(yīng)更加強(qiáng)烈。

靜態(tài)模型（static model）

離線訓(xùn)練的模型。

穩(wěn)態(tài)（stationarity）

數(shù)據(jù)集中的一種數(shù)據(jù)屬性，數(shù)據(jù)分布在一或多個維度中保持不變。通常情況下，維度是時間，意味著具備平穩(wěn)性的數(shù)據(jù)不會隨著時間發(fā)生變化。比如，具備平穩(wěn)性的數(shù)據(jù)從 9 月到 12 月不會改變。

步（step）

一個批量中的前向和后向評估。

步長（step size）

學(xué)習(xí)速率（learning rate）乘以偏導(dǎo)數(shù)的值，即梯度下降中的步長。

隨機(jī)梯度下降（stochastic gradient descent/SGD）

批量大小為 1 的梯度下降算法。也就是說，SGD 依賴于從數(shù)據(jù)集中隨機(jī)均勻選擇出的一個樣本，以評估每一步的梯度。

結(jié)構(gòu)風(fēng)險最小化（structural risk minimization/SRM）

這種算法平衡兩個目標(biāo)：

構(gòu)建預(yù)測性最強(qiáng)的模型（如最低損失）。

使模型盡量保持簡單（如強(qiáng)正則化）。

比如，在訓(xùn)練集上的損失最小化 + 正則化的模型函數(shù)就是結(jié)構(gòu)風(fēng)險最小化算法。更多信息，參見 http://www.svms.org/srm/。可與經(jīng)驗風(fēng)險最小化對照閱讀。

摘要（summary）

在 TensorFlow 中，特定步計算的值或值的集合，通常用于跟蹤訓(xùn)練過程中的模型指標(biāo)。

監(jiān)督式機(jī)器學(xué)習(xí)（supervised machine learning）

利用輸入數(shù)據(jù)及其對應(yīng)標(biāo)簽來訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類似學(xué)生通過研究問題和對應(yīng)答案進(jìn)行學(xué)習(xí)。在掌握問題和答案之間的映射之后，學(xué)生就可以提供同樣主題的新問題的答案了。可與非監(jiān)督機(jī)器學(xué)習(xí)對照閱讀。

合成特征（synthetic feature）

不在輸入特征中，而是從一個或多個輸入特征中派生出的特征。合成特征的類型包括：

特征與自己或其他特征相乘（叫作特征交叉）。

兩個特征相除。

將連續(xù)的特征放進(jìn) range bin 中。

由歸一化或縮放單獨(dú)創(chuàng)建的特征不是合成特征。

張量（tensor）

TensorFlow 項目的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維數(shù)據(jù)結(jié)構(gòu)（N 的值很大），經(jīng)常是標(biāo)量、向量或矩陣。張量可以包括整數(shù)、浮點或字符串值。

張量處理單元（Tensor Processing Unit，TPU）

優(yōu)化 TensorFlow 性能的 ASIC（application-specific integrated circuit，專用集成電路）。

張量形狀（Tensor shape）

張量的元素數(shù)量包含在不同維度中。比如，[5, 10] 張量在一個維度中形狀為 5，在另一個維度中形狀為 10。

張量大小（Tensor size）

張量包含的標(biāo)量總數(shù)。比如，[5, 10] 張量的大小就是 50。

TensorBoard

展示一個或多個 TensorFlow 項目運(yùn)行過程中保存的摘要數(shù)據(jù)的控制面板。

TensorFlow

大型分布式機(jī)器學(xué)習(xí)平臺。該術(shù)語還指 TensorFlow 堆棧中的基礎(chǔ) API 層，支持?jǐn)?shù)據(jù)流圖上的通用計算。

盡管 TensorFlow 主要用于機(jī)器學(xué)習(xí)，但是它也適用于要求使用數(shù)據(jù)流圖進(jìn)行數(shù)值運(yùn)算的非機(jī)器學(xué)習(xí)任務(wù)。

TensorFlow Playground

一個可以看到不同超參數(shù)對模型（主要是神經(jīng)網(wǎng)絡(luò)）訓(xùn)練的影響的平臺。前往 http://playground.tensorflow.org，使用 TensorFlow Playground。

TensorFlow Serving

幫助訓(xùn)練模型使之可部署到產(chǎn)品中的平臺。

測試集（test set）

數(shù)據(jù)集的子集。模型經(jīng)過驗證集初步測試之后，使用測試集對模型進(jìn)行測試。可與訓(xùn)練集和驗證集對照閱讀。

tf.Example

一種標(biāo)準(zhǔn) protocol buffer，用于描述機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。

訓(xùn)練（training）

確定組成模型的完美參數(shù)的流程。

訓(xùn)練集（training set）

數(shù)據(jù)集子集，用于訓(xùn)練模型。可與驗證集和測試集對照閱讀。

真負(fù)類（true negative，TN）

被模型正確地預(yù)測為負(fù)類的樣本。例如，模型推斷某封電子郵件不是垃圾郵件，然后該電郵真的不是垃圾郵件。

真正類（true positive，TP）

被模型正確地預(yù)測為正類的樣本。例如，模型推斷某封電子郵件是垃圾郵件，結(jié)果該電郵真的是垃圾郵件。

真正類率（true positive rate，TP rate）

召回率（recall）的同義詞。即：

TruePositiveRate=TruePositives/(TruePositives+FalseNegatives)

真正類率是 ROC 曲線的 y 軸。

無標(biāo)簽樣本（unlabeled example）

包含特征但沒有標(biāo)簽的樣本。無標(biāo)簽樣本是推斷的輸入。在半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的訓(xùn)練過程中，通常使用無標(biāo)簽樣本。

無監(jiān)督機(jī)器學(xué)習(xí)（unsupervised machine learning）

訓(xùn)練一個模型尋找數(shù)據(jù)集（通常是無標(biāo)簽數(shù)據(jù)集）中的模式。

無監(jiān)督機(jī)器學(xué)習(xí)最常用于將數(shù)據(jù)分成幾組類似的樣本。例如，無監(jiān)督機(jī)器學(xué)習(xí)算法可以根據(jù)音樂的各種屬性聚類數(shù)據(jù)。用這種方式收集的數(shù)據(jù)可以作為其他機(jī)器學(xué)習(xí)算法（如音樂推薦服務(wù)）的輸入。聚類在難以獲取真正標(biāo)簽的情景中非常有用。例如，在反欺詐和反濫用的情景中，聚類可以幫助人類更好地理解數(shù)據(jù)。

無監(jiān)督機(jī)器學(xué)習(xí)的另一個例子是主成分分析（principal component analysis，PCA）。如，將 PCA 應(yīng)用于包含數(shù)百萬購物車內(nèi)容的數(shù)據(jù)集中時，就有可能發(fā)現(xiàn)有檸檬的購物車往往也有解酸劑。可與監(jiān)督式機(jī)器學(xué)習(xí)對照閱讀。

驗證集（validation set）

數(shù)據(jù)集的一個子集（與訓(xùn)練集不同），可用于調(diào)整超參數(shù)。可與訓(xùn)練集和測試集對照閱讀。

權(quán)重（weight）

線性模型中的特征系數(shù)，或者深度網(wǎng)絡(luò)中的邊緣。線性模型的訓(xùn)練目標(biāo)是為每個特征確定一個完美的權(quán)重。如果權(quán)重為 0，則對應(yīng)的特征對模型而言是無用的。

寬模型（wide model）

線性模型通常具備很多稀疏輸入特征。我們稱之為「寬」模型，因其具有大量與輸出節(jié)點直接連接的輸入，是一種特殊類型的神經(jīng)網(wǎng)絡(luò)。寬模型通常比深度模型更容易調(diào)試（debug）和檢查。盡管寬模型無法通過隱藏層表達(dá)非線性，但它們可以使用特征交叉和 bucketization 等轉(zhuǎn)換用不同方式對非線性建模。可與深度模型對照閱讀。

總結(jié)

以上是生活随笔為你收集整理的超全机器学习术语词汇表的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： protobuf与protoc-gen-
下一篇： SSE,MSE,RMSE,R-squar

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

超全机器学习术语词汇表

總結(jié)