04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)
機器學(xué)習概述
人工智能、機器學(xué)習、深度學(xué)習之間的關(guān)系
機器學(xué)習框架
Pytorch
Caffe2
theano
Chainer
Scikit-learn
語言支持
機器學(xué)習書籍
《面向機器智能 TensorFlow實踐》
《MACHINE LEARNING 機器學(xué)習》,周志華
《TensorFlow技術(shù)解析與實踐》
什么是機器學(xué)習
機器學(xué)習是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測。
應(yīng)用案例
案例1
案例2
為什么需要機器學(xué)習
機器學(xué)習應(yīng)用場景
1、自然語言處理
2、無人駕駛
3、計算機視覺
4、推薦系統(tǒng)
數(shù)據(jù)來源與類型
1、數(shù)據(jù)來源
- 企業(yè)日益積累的大量數(shù)據(jù)(互聯(lián)網(wǎng)公司更為顯著)
- 政府掌握的各種數(shù)據(jù)
- 科研機構(gòu)的實驗數(shù)據(jù)
2、數(shù)據(jù)類型
- 離散型數(shù)據(jù):由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù),又稱計數(shù)數(shù)據(jù),所有這些數(shù)據(jù)全部都是整數(shù),而且不能再也不能進一步提高他們的精確度。
- 連續(xù)型數(shù)據(jù):變量可以在某個范圍內(nèi)取任一數(shù),即變量的取值可以是連續(xù)的,如,長度、時間、質(zhì)量值等,這類整數(shù)通常是非整數(shù),含有小數(shù)部分。
注:只要記住一點,離散型是區(qū)間內(nèi)不可分,連續(xù)型是區(qū)間內(nèi)可分
數(shù)據(jù)類型的不用應(yīng)用
數(shù)據(jù)的類型將是機器學(xué)習模型不同問題不同處理的依據(jù)?
3、可用的數(shù)據(jù)集
常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成
結(jié)構(gòu):特征值 + 目標值
例如:
注:有些數(shù)據(jù)集可以沒有目標值
數(shù)據(jù)的特征工程
1、特征工程是什么
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征的過程,從而提高了對未知數(shù)據(jù)的模型準確性
案例:
將下面的文本轉(zhuǎn)換為數(shù)字類型的過程。
再如,將一個numpy的數(shù)組按照一定規(guī)則轉(zhuǎn)成另外一個
2、特征工程的意義
直接影響模型的預(yù)測結(jié)果
3、scikit-learn庫介紹
- Python語言的機器學(xué)習工具
- Scikit-learn包括許多知名的機器學(xué)習算法的實現(xiàn)。
- Scikit-learn文檔完善,容易上手,豐富的API,使其在學(xué)術(shù)界頗受歡迎。
安裝參考:https://blog.csdn.net/tototuzuoquan/article/details/105290465
4、數(shù)據(jù)的特征抽取
閱讀:https://blog.csdn.net/tototuzuoquan/article/details/105424709
5、數(shù)值的特征處理
閱讀:https://blog.csdn.net/tototuzuoquan/article/details/105440244
6、機器學(xué)習模型是什么
定義:通過一種映射關(guān)系將輸入值到輸出值
7、機器學(xué)習算法分類
機器學(xué)習開發(fā)流程
監(jiān)督學(xué)習
1、分類 : k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)
2、回歸:線性回歸、嶺回歸
3、標注:隱馬爾可夫模型(不做要求)
無監(jiān)督學(xué)習
1、聚類:k-means
8、監(jiān)督學(xué)習
監(jiān)督學(xué)習 (英語:Supervised learning),可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型,并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是由
輸入特征值和目標值所組成。函數(shù)的輸出可以是一個連續(xù)的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。
無監(jiān)督學(xué)習(英語:Supervised learning),可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型,并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是
由輸入特征值所組成。
分類問題
概念:分類是監(jiān)督學(xué)習的一個核心問題,在監(jiān)督學(xué)習中,當輸出變量取有限個離散值時,預(yù)測問題變成為分類問題。最基礎(chǔ)的便是二分類問題,即判斷是非,從兩個類別中選擇一個作為預(yù)測結(jié)果;
分類問題的應(yīng)用
回歸問題:
概念:回歸是監(jiān)督學(xué)習的另一個重要問題。回歸用于預(yù)測輸入變量和輸出變量之間的關(guān)系,輸出是連續(xù)型的值。
回歸在多領(lǐng)域也有廣泛的應(yīng)用1、房價預(yù)測,根據(jù)某地歷史房價數(shù)據(jù),進行一個預(yù)測2、金融信息,每日股票走向 … 與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蔚来et5座椅通风多少钱?
- 下一篇: 05_数据的特征处理,归一化,标准化、缺