當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

04_机器学习概述，什么是机器学习，应用场景，数据来源与类型，网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取（学习笔记）

發(fā)布時間：2024/9/27 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 04_机器学习概述，什么是机器学习，应用场景，数据来源与类型，网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取（学习笔记）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

機器學(xué)習概述

人工智能、機器學(xué)習、深度學(xué)習之間的關(guān)系

機器學(xué)習框架

Pytorch
Caffe2
theano
Chainer
Scikit-learn

語言支持

機器學(xué)習書籍

《面向機器智能 TensorFlow實踐》
《MACHINE LEARNING 機器學(xué)習》，周志華
《TensorFlow技術(shù)解析與實踐》

什么是機器學(xué)習

機器學(xué)習是從數(shù)據(jù)中自動分析獲得規(guī)律（模型），并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測。

應(yīng)用案例

案例1

案例2

為什么需要機器學(xué)習

機器學(xué)習應(yīng)用場景

1、自然語言處理
2、無人駕駛
3、計算機視覺
4、推薦系統(tǒng)

數(shù)據(jù)來源與類型

1、數(shù)據(jù)來源

企業(yè)日益積累的大量數(shù)據(jù)（互聯(lián)網(wǎng)公司更為顯著）
政府掌握的各種數(shù)據(jù)
科研機構(gòu)的實驗數(shù)據(jù)

2、數(shù)據(jù)類型

離散型數(shù)據(jù)：由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù)，又稱計數(shù)數(shù)據(jù)，所有這些數(shù)據(jù)全部都是整數(shù)，而且不能再也不能進一步提高他們的精確度。
連續(xù)型數(shù)據(jù)：變量可以在某個范圍內(nèi)取任一數(shù)，即變量的取值可以是連續(xù)的，如，長度、時間、質(zhì)量值等，這類整數(shù)通常是非整數(shù)，含有小數(shù)部分。

注：只要記住一點，離散型是區(qū)間內(nèi)不可分，連續(xù)型是區(qū)間內(nèi)可分

數(shù)據(jù)類型的不用應(yīng)用

數(shù)據(jù)的類型將是機器學(xué)習模型不同問題不同處理的依據(jù)？

3、可用的數(shù)據(jù)集

常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成

結(jié)構(gòu)：特征值 + 目標值

例如：

注：有些數(shù)據(jù)集可以沒有目標值

數(shù)據(jù)的特征工程

1、特征工程是什么

特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征的過程，從而提高了對未知數(shù)據(jù)的模型準確性

案例：
將下面的文本轉(zhuǎn)換為數(shù)字類型的過程。

再如，將一個numpy的數(shù)組按照一定規(guī)則轉(zhuǎn)成另外一個

2、特征工程的意義

直接影響模型的預(yù)測結(jié)果

3、scikit-learn庫介紹

Python語言的機器學(xué)習工具
Scikit-learn包括許多知名的機器學(xué)習算法的實現(xiàn)。
Scikit-learn文檔完善，容易上手，豐富的API，使其在學(xué)術(shù)界頗受歡迎。

安裝參考：https://blog.csdn.net/tototuzuoquan/article/details/105290465

4、數(shù)據(jù)的特征抽取

閱讀：https://blog.csdn.net/tototuzuoquan/article/details/105424709

5、數(shù)值的特征處理

閱讀：https://blog.csdn.net/tototuzuoquan/article/details/105440244

6、機器學(xué)習模型是什么

定義：通過一種映射關(guān)系將輸入值到輸出值

7、機器學(xué)習算法分類

機器學(xué)習開發(fā)流程

監(jiān)督學(xué)習

1、分類 : k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)
2、回歸：線性回歸、嶺回歸
3、標注：隱馬爾可夫模型（不做要求）

無監(jiān)督學(xué)習

1、聚類：k-means

8、監(jiān)督學(xué)習

監(jiān)督學(xué)習 （英語：Supervised learning），可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型，并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是由
輸入特征值和目標值所組成。函數(shù)的輸出可以是一個連續(xù)的值（稱為回歸），或是輸出是有限個離散值（稱作分類）。

無監(jiān)督學(xué)習（英語：Supervised learning），可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型，并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是
由輸入特征值所組成。

分類問題

概念：分類是監(jiān)督學(xué)習的一個核心問題，在監(jiān)督學(xué)習中，當輸出變量取有限個離散值時，預(yù)測問題變成為分類問題。最基礎(chǔ)的便是二分類問題，即判斷是非，從兩個類別中選擇一個作為預(yù)測結(jié)果；

分類問題的應(yīng)用

分類在于根據(jù)其特性將數(shù)據(jù)“分門別類”，所以在許多領(lǐng)域都有廣泛的應(yīng)用：1、在銀行業(yè)務(wù)中，構(gòu)建一個客戶分類模型，按客戶按照貸款風險的大小進行分類2、圖像處理中，分類可以用來檢測圖像中是否有人臉出現(xiàn)，動物類別等3、手寫識別中，分類可以用于識別手寫的數(shù)字4、文本分類，這里的文本可以是新聞報道、網(wǎng)頁、電子郵件、學(xué)術(shù)論文…

回歸問題：

概念：回歸是監(jiān)督學(xué)習的另一個重要問題。回歸用于預(yù)測輸入變量和輸出變量之間的關(guān)系，輸出是連續(xù)型的值。

回歸在多領(lǐng)域也有廣泛的應(yīng)用1、房價預(yù)測，根據(jù)某地歷史房價數(shù)據(jù)，進行一個預(yù)測2、金融信息，每日股票走向 … 與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的04_机器学习概述，什么是机器学习，应用场景，数据来源与类型，网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取（学习笔记）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：蔚来et5座椅通风多少钱？
下一篇： 05_数据的特征处理，归一化，标准化、缺