4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
生活随笔
收集整理的這篇文章主要介紹了
4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
大數(shù)據(jù)集
在機(jī)器學(xué)習(xí)領(lǐng)域,流傳著這樣一句話:
It’s not who has the best algorithm that wins. It’s who has the most data.
所以商業(yè)社會(huì)中,互聯(lián)網(wǎng)公司都不遺余力地先收集一波大數(shù)據(jù)再說,沒有數(shù)據(jù),再多的手段也是空談。下圖中,是一個(gè)區(qū)分容易混淆單詞的機(jī)器學(xué)習(xí)案例,所采用的幾種算法在訓(xùn)練樣本提供的樣本越來越多時(shí),都表現(xiàn)得越來越優(yōu)異:
什么時(shí)候采用大規(guī)模的數(shù)據(jù)集呢,一定要保證模型擁有足夠的參數(shù)(線索),對(duì)于線性回歸/邏輯回歸來說,就是具備足夠多的特征,而對(duì)于神經(jīng)網(wǎng)絡(luò)來說,就是更多的隱層單元。這樣,足夠多的特征避免了高偏差(欠擬合)問題,而足夠大數(shù)據(jù)集避免了多特征容易引起的高方差(過擬合)問題。
總結(jié)
以上是生活随笔為你收集整理的4.6 大数据集-机器学习笔记-斯坦福吴恩达教授的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4.5 偏斜类-机器学习笔记-斯坦福吴恩
- 下一篇: 4.7 程序示例--算法诊断-机器学习笔