《机器学习》 —— 第一章:绪论 学习笔记
1.1 引言
機(jī)器學(xué)習(xí)所研究的主要內(nèi)容,是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”(learning algorithm)。
1.2 基本術(shù)語(yǔ)
反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng),稱(chēng)為“屬性”(attribute)或“特征”(feature);
屬性上的取值稱(chēng)為“屬性值”(attribute value);
屬性張成的空間稱(chēng)為“屬性空間”(attribute space)、“樣本空間”(sample space)或“輸入空間”。
由于空間中的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)向量,因此我們也把一個(gè)示例稱(chēng)為一個(gè)“特征向量”(feature vector)。
一般地,D={x1,x2,…,xm}表示包含m個(gè)示例的數(shù)據(jù)集,每個(gè)示例由d個(gè)屬性描述,則每個(gè)示例xi=(xi1,xi2,…,xid)是d維樣本空間X中的一個(gè)向量,xi∈X,其中xij是xi在第j個(gè)屬性上的取值,d稱(chēng)為樣本xi的“維數(shù)”(dimensionality)。
從數(shù)據(jù)中學(xué)得模型的過(guò)程稱(chēng)為“學(xué)習(xí)”(learning)或“訓(xùn)練”(training);
訓(xùn)練過(guò)程中使用的數(shù)據(jù)稱(chēng)為“訓(xùn)練數(shù)據(jù)”(learning data),其中每個(gè)樣本稱(chēng)為一個(gè)“訓(xùn)練樣本”(training sample);
訓(xùn)練樣本組成的集合稱(chēng)為“數(shù)據(jù)集”(training set)。
學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律,因此亦稱(chēng)“假設(shè)”(hypothesis);
這種潛在規(guī)律自身,則稱(chēng)為“真相”或“真實(shí)”(ground-truth),學(xué)習(xí)過(guò)程就是為了找出或逼近真相。
有時(shí)將模型稱(chēng)為“學(xué)習(xí)器”(learner),可看作學(xué)習(xí)算法在給定數(shù)據(jù)和參數(shù)空間上的實(shí)例化。
關(guān)于示例結(jié)果的信息,稱(chēng)為“標(biāo)記”(label);
擁有了標(biāo)記信息的示例稱(chēng)為“樣例”(example)。
一般地,用(xi,yi)表示第i個(gè)樣例,其中yi∈Y是示例xi的標(biāo)記,Y是所有標(biāo)記的集合,亦稱(chēng)“標(biāo)記空間”(label space)或“輸出空間”。
若將標(biāo)記看作對(duì)象本身的一部分,則“樣例”有時(shí)也稱(chēng)為“樣本”。
若預(yù)測(cè)的是離散值,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“分類(lèi)”(classification);
若預(yù)測(cè)的是連續(xù)值,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“回歸”(regression)。
對(duì)只涉及兩個(gè)類(lèi)別的“二分類(lèi)”(binary classification)任務(wù)通常稱(chēng)其中一個(gè)為“正類(lèi)”(positive class),另一個(gè)類(lèi)為“反類(lèi)”(negative class);
涉及多個(gè)類(lèi)別時(shí),則稱(chēng)為“多分類(lèi)”(multi-class classification)任務(wù)。
一般地,預(yù)測(cè)任務(wù)是希望通過(guò)對(duì)訓(xùn)練集{(x1,y1),(x2,y2),…,(xm,ym)}進(jìn)行學(xué)習(xí),建立一個(gè)從輸入空間X到輸出空間Y的映射f:x—>y。
對(duì)二分類(lèi)任務(wù),通常令Y={-1,+1}或{0,1};
對(duì)多分類(lèi)任務(wù),|Y|>2;
對(duì)回歸任務(wù),y=R,R是實(shí)數(shù)集。
學(xué)得模型后,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為“測(cè)試”(testing),被預(yù)測(cè)的樣本稱(chēng)為“測(cè)試樣本”(testing sample)。
聚類(lèi)(clustering),即將訓(xùn)練集分成若干組,每組稱(chēng)為一個(gè)“簇”(cluster);
這些自動(dòng)形成的簇可能對(duì)應(yīng)一些潛在的概念劃分。
這樣的學(xué)習(xí)過(guò)程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ);
需說(shuō)明的是,在聚類(lèi)學(xué)習(xí)中,潛在的概念事先是不知道的,而且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類(lèi):“監(jiān)督學(xué)習(xí)”(supervised learning)和“無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning),分類(lèi)和回歸是前者的代表,而聚類(lèi)是則是后者的代表。
機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”,而不是僅僅在訓(xùn)練樣本上工作的很好;即便對(duì)聚類(lèi)這樣的無(wú)監(jiān)督學(xué)習(xí)任務(wù),也希望學(xué)得的簇劃分能適用于沒(méi)在訓(xùn)練集中出現(xiàn)的樣本。
學(xué)得模型適用于新樣本的能力,稱(chēng)為“泛化”(generalization)能力。
具有強(qiáng)泛化能力的模型能很好地適用于整個(gè)樣本空間。
通常假設(shè)樣本空間中全體樣本服從一個(gè)未知“分布”(distribution)D,獲得的每個(gè)樣本都是獨(dú)立地從這個(gè)分布上采樣獲得的,即“獨(dú)立同分布”(independent and identically distributed,簡(jiǎn)稱(chēng)i.i.d.)。
一般而言,訓(xùn)練樣本越多,得到的關(guān)于D的信息越多,這樣就越有可能通過(guò)學(xué)習(xí)獲得具有強(qiáng)泛化能力的模型。
1.3 假設(shè)空間
歸納(induction)與演繹(deduction)是科學(xué)推理的兩大基本手段,
前者是從特殊到一般的泛化(generalization)過(guò)程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律;
后者則是從一般到特殊的“特化”(specialization)過(guò)程,即從基礎(chǔ)原理推演出具體狀況。
歸納學(xué)習(xí)有狹義和廣義之分,
廣義的歸納學(xué)習(xí)大體相當(dāng)于從樣例中學(xué)習(xí);
而狹義的歸納學(xué)習(xí)則要求從訓(xùn)練數(shù)據(jù)中學(xué)得概念(concept),因此亦稱(chēng)為“概念學(xué)習(xí)”或“概念形成”。
概念學(xué)習(xí)中最基本的是布爾概念學(xué)習(xí)。
把學(xué)習(xí)過(guò)程看作一個(gè)在所有假設(shè)(hypothesis)組成的空間中進(jìn)行搜索的過(guò)程,搜索目標(biāo)是找到與訓(xùn)練集“匹配”(fit)的假設(shè)。
1.4 歸納偏好
機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好,稱(chēng)為“歸納偏好”(inductive bias),或簡(jiǎn)稱(chēng)為“偏好”。
任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上“等效”的假設(shè)所迷惑,而無(wú)法產(chǎn)生確定的學(xué)習(xí)結(jié)果。
歸納偏好可看作學(xué)習(xí)算法自身在一個(gè)可能很龐大的假設(shè)空間中對(duì)假設(shè)進(jìn)行選擇的啟發(fā)式或“價(jià)值觀”。
“奧卡姆剃刀”(Occam’s razor)是一種常用的、自然科學(xué)研究中最基本的原則,即“若有多個(gè)假設(shè)與觀察一致,則選最簡(jiǎn)單的那個(gè)”。
“沒(méi)有免費(fèi)的午餐”定理(No Free Lunch Theorem),簡(jiǎn)稱(chēng)NFL定理。
NFL定理有一個(gè)重要前提:所有“問(wèn)題”出現(xiàn)的機(jī)會(huì)相同、或所有問(wèn)題同等重要。
機(jī)器學(xué)習(xí)領(lǐng)域最重要的國(guó)際學(xué)術(shù)會(huì)議
國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML)
國(guó)際神經(jīng)信息處理系統(tǒng)會(huì)議(NIPS)
國(guó)際學(xué)習(xí)理論會(huì)議(COLT)
機(jī)器學(xué)習(xí)領(lǐng)域最重要的區(qū)域性會(huì)議
歐洲機(jī)器學(xué)習(xí)會(huì)議(ECML)
亞洲機(jī)器學(xué)習(xí)會(huì)議(ACML)
機(jī)器學(xué)習(xí)領(lǐng)域最重要的國(guó)際學(xué)術(shù)期刊
Journal of Machine Learning Research
Machine Learning
人工智能領(lǐng)域的重要會(huì)議
IJCAI
AAAI
人工智能領(lǐng)域的重要期刊
Artificial Intelligence
Journal of Artificial Intelligence Research
數(shù)據(jù)挖掘領(lǐng)域的重要會(huì)議
KDD
ICDM
數(shù)據(jù)挖掘領(lǐng)域的重要期刊
ACM Transactions on Knowledge Discovery from Data
Data Mining and Knowledge Discovery
計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的重要會(huì)議
CVPR
計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的重要期刊
IEEE Transactions on Pattern Analysis and Machine Intelligence
神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要期刊
Neural Computation
IEEE Transactions on Networks and Learning Systems
統(tǒng)計(jì)學(xué)領(lǐng)域的重要期刊
Annals of Statistics
國(guó)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域的重要會(huì)議
中國(guó)機(jī)器學(xué)習(xí)大會(huì)(CCML)
“機(jī)器學(xué)習(xí)及其應(yīng)用”研討會(huì)(MLA)
總結(jié)
以上是生活随笔為你收集整理的《机器学习》 —— 第一章:绪论 学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 1130:找第一个只出现一次的字符
- 下一篇: 最大连续和问题