机器学习(1.机器学习概述、数据集的组成以及机器学习的特征工程)
什么是機(jī)器學(xué)習(xí)?
? ?機(jī)器學(xué)習(xí)是從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律(模型),并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)
??為什么需要機(jī)器學(xué)習(xí)
? 解放生產(chǎn)力、解決專(zhuān)業(yè)問(wèn)題、提供社會(huì)便利
機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景
自然語(yǔ)言處理、無(wú)人駕駛、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)、、、
??機(jī)器學(xué)習(xí)在各領(lǐng)域帶來(lái)的價(jià)值
? 領(lǐng)域:醫(yī)療、航空、教育、物流、電商。。。。
? 目的:?讓機(jī)器學(xué)習(xí)程序替換手動(dòng)的步驟,減少企業(yè)的成本也提高企業(yè)的效率
?機(jī)器學(xué)習(xí)的數(shù)據(jù)集組成
1.數(shù)據(jù)來(lái)源,以及存放方式
?從歷史數(shù)據(jù)當(dāng)中獲取規(guī)律?這些歷史數(shù)據(jù)是怎么樣的格式?
? ? ?1.大多數(shù)以文件的形式? (csv文件..), 因?yàn)閙ysql有性能瓶頸、讀取速度遭到限制,數(shù)據(jù)大的時(shí)候很費(fèi)時(shí)間
? ? ?2. 格式不太符合機(jī)器學(xué)習(xí)要求的數(shù)據(jù)格式
2.讀取數(shù)據(jù)的工具
? ? ?Python中很強(qiáng)大的模塊? pandas:讀取工具、numpy(數(shù)據(jù)計(jì)算模塊,計(jì)算速度非常快,因?yàn)獒尫帕薖ython中的GIL)
3.可用數(shù)據(jù)集
Kaggle特點(diǎn):1、大數(shù)據(jù)競(jìng)賽平臺(tái)? ? ?2、80萬(wàn)科學(xué)家? ??3、真實(shí)數(shù)據(jù)? ? ??4、數(shù)據(jù)量巨大
UCI特點(diǎn):1、收錄了360個(gè)數(shù)據(jù)集? ??2、覆蓋科學(xué)、生活、經(jīng)濟(jì)等領(lǐng)域???????3、數(shù)據(jù)量幾十萬(wàn)
scikit-learn特點(diǎn):1、數(shù)據(jù)量較小??2、方便學(xué)習(xí)
網(wǎng)址:
Kaggle網(wǎng)址:https://www.kaggle.com/datasets
UCI數(shù)據(jù)集網(wǎng)址: http://archive.ics.uci.edu/ml/
scikit-learn網(wǎng)址:http://scikit-learn.org/stable/datasets/index.html#datasets
4.特征值-目標(biāo)值
?特征值: 就是DataFrame中的列索引,
?目標(biāo)值: 很據(jù)特征值得到的結(jié)果值,就為目標(biāo)值,(就是想要做的事情的目的的分類(lèi))
特征工程
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測(cè)模型的潛在問(wèn)題的特征的過(guò)程,從而提高了對(duì)未知數(shù)據(jù)的模型準(zhǔn)確性
特征工程的意義
? ? ?直接影響模型的預(yù)測(cè)結(jié)果
總結(jié)
以上是生活随笔為你收集整理的机器学习(1.机器学习概述、数据集的组成以及机器学习的特征工程)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Pandas的学习(6.DataFram
- 下一篇: 机器学习(2.sklearn(Sciki