當前位置：首頁 >

01 -- 机器学习入门

發布時間：2023/12/20 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 01 -- 机器学习入门小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.大數據框架

大數據的離線數據處理
- Hadoop大數據平臺(Hadoop1和Hadoop2、Hadoop3)
  - HDFS分布式文件系統
  - MapReduce分布式計算框架
  - Yarn資源管理平臺
- Hive數據倉庫
  - 底層執行的是MR
- Sqoop關系型數據庫和非關系型數據庫的導入和導出
  - 底層MR
- Flume數據采集
大數據的實時數據處理
- Storm-----天貓雙11，實時統計銷售總額
- Spark-----一站式數據分析平臺
  - Spark-Core
  - SparkSql----Hive
  - SparkStreaming----Storm
  - SparkMllib----機器學習
  - SparkGraphX----圖計算
- Kafka消息隊列
大數據新興技術
- Flink-一站式數據分析
- Keylin數據分析-數據立方體
機器學習階段
- 機器學習和大數據區別和聯系
  - 大數據框架做的是基礎的數據的存儲和統計計算，但是如果需要從大量的是數據中發現或挖掘規律，需要使用機器學習方法，通過機器學習算法結合大量數據，構建機器學習模型，通過模型對現實事件作出預測和判斷。
  - 如果要構建模型，需要大量的數據，一定需要大數據框架做基礎統計和分析
- 大數據4V特征
  - 數據量大：TB-PB-ZB HDFS存儲
  - 數據種類多：
    - 結構化數據：Mysql或oracle存儲
    - 非結構化數據：視頻、音頻等 -HDFS存儲
    - 半結構化數據：html、xml等 -HDFS存儲
  - 速度快
    - 數據的增長的速度快：TB-PB-ZB
    - 數據的處理速度快：大數據框架解決
  - 價值密度低-價值高
    - 密度=有價值數據/All
    - 機器學習學習算法解決

2.大數據時代究竟改變了什么？

大數據時代改變更多的是思維方式
數據重要性：
- 數據資源--------數據資產(數據的增值)
方法論：
- 基于知識的理論完美主義-----基于數據的歷史經驗主義
- 翻譯：你好嗎？
- 基于知識：
  - 你好嗎+ 語言學知識
  - 你 you your
  - 好 well good
  - 嗎 do does is
  - 你好嗎？Are you well?Are you good？How are you? （選擇）
- 基于數據：
  - Are you well?
  - Are you good？
  - How are you? （選擇）
數據分析：
- 統計學-----數據科學(大數據)
  - 抽樣理論
  - 數據科學家（擁有大數據技術+機器學習算法技術+強大的業務能力、數據分析能力）
計算智能：
- 復雜算法–簡單算法（MapReduce）
業務層面：
- 業務的數據化--------數據的業務化
決策方式
- 目標決策------數據決策
產業競合
- 以戰略為中心-------以數據為中心

3.以大數據項目為例展開

項目名稱：電信日志分析系統
項目描述：該項目對電信用戶上網所產生的日志進行分析和處理，對產生的日志數據進行入庫、處理、實時分析、上報監管部門等，整個項目利用Hadoop大數據平臺，完成日志的入庫、處理、分析和查詢等，達到異常ip的檢測、關鍵詞的過濾、違規違法用戶的檢測等。
項目架構：
- 數據采集：ftp和socket方式
- 數據存儲：HDFS
- 數據分析：Hive等
- 數據展現：WEB
數據量：1T-20T數據量不等
集群搭建：在全國20個省份部署集群，集群數據在10-100臺不等

4.以推薦系統為例展開

項目名稱：推薦系統
項目描述：猜你喜歡
項目架構：離線推薦、實時推薦、近線計算(整個業務邏輯整合的地方)

5.人工智能

6.人工智能、機器學習、深度學習區別和聯系

機器學習是人工智能的一個分支，深度學習是機器學習的一種方法或技術

7.數據、數據分析、數據挖掘、機器學習

數據：1.7 1.8 1.9

數據分析

信息：矮正好高
深度學習—>機器學習(方法)—>數據挖掘(事情)、模式識別(事件)
有價值信息：長相好丑好

8.機器學習概念

機器學習是致力于研究如何通過CPU和GPU(圖形圖像處理器)的計算，利用經驗或數據來改善計算機系統自身的性能。
機器學習是人工智能具有智能的必備技術手段，人工智能的核心
總結：機器學習模型Model=數據+算法
- 如果有新的數據，只需要代入到Model中就可以輸出預測值
什么不是機器學習？
- 比如對于計算問題、已經知道結果的(確定性問題)等不是機器學習問題
- 機器學習問題需要有一個預測的過程

9.基于規則的學習

基于專家發現的規則，制定規則，只需要新數據代入規則進行判斷即可

10.基于模型的學習

X（郵件一些特征數據）---------f（函數-模型）--------->Y(結果數據)
基于模型就可以直接進行預測分析

11.機器學習各種概念

參考圖示

12.機器學習概念補充

類別型變量處理

天氣：晴天、陰天、雨天
label encoder：標簽編碼

晴天、陰天、雨天 0 1 2

one-hot encoder：獨熱編碼
晴天、陰天、雨天
0 0 1
0 1 0
1 0 0
結果：通常使用labelencoder
是享受運動 0 不是 1

概念學習
- X---------------f(模型)--------------------->Y
回歸和分類問題
- 如果預測值是連續值對應的問題是回歸問題
- 如果預測值是離散值對應的問題是分類問題

13.機器學習分類

根據是否有類別標簽—監督學習和非監督學習
監督學習：
- 分類：預測值是否為連續值，不是連續值的預測的話，是分類
- 回歸：是連續值的預測的話，是回歸
非監督學習：
- 聚類：通過相似性度量，組內的相似性是極高的，組間的相異性極高的，進行分類
- 降維-通過算法進行降維的話，Z1和Z2的物理含義是不明確的
  - 特征選擇：
    - 從原有的特征中選擇比較重要的特征-----X1X2X3====>X1X2
      ?
半監督學習
- 應用場景比較多一些，
- 半監督學習：
  1.基于聚類的假設
  有類別標記的數據+沒有類別標記的數據將有類別標記的數據，去掉標簽列所有的數據均沒標簽，對全部數據進行聚類，聚類之后，有類別標記的數據和沒有類別標記的數據，有可能被分到不同的組或簇中，將所有的，有類別標記的數據，根據機器學習常用的處理方法—投票原則，根據少數服從多數的原則進行表決，將沒有帶類別標簽的數據加上類別標簽
  2.利用所有樣本進行模型訓練
強化學習(系統)
- 解決連續決策的問題
- 圍棋、無人駕駛汽車
遷移學習

14.機器學習三要素

機器學習=算法+數據+策略(損失函數)
機器學習=模型+算法+策略（損失函數）
- 模型：決策函數、條件概率分布
- 策略：損失函數/目標函數/誤差函數
  - 01損失—分類問題
  - 平方損失—回歸問題
  - 絕對值損失—分類或回歸問題
- 算法：
  - 解析解
  - 最優解-----梯度下降法或牛頓法

15.模型選擇

模型的泛化性能
- 模型對于新數據的適應能力
- 欠擬合：模型對于訓練集和測試集效果都很差
  - 產生的原因：模型太過于簡單
  - 產生的時期：訓練模型的初期
  - 解決辦法：
    - 增加多項式的特征項，使得模型變得復雜
    - 增加多項式的特征項的次數，使得模型復雜
    - 減少正則罰項
- 過擬合：模型對于訓練集效果很好，對于測試集效果較差
  - 產生的原因：模型過于復雜、訓練數據量太少、數據不純
  - 產生的時期：訓練模型的中后期
  - 解決辦法：
    - 增加訓練數據
    - 重新清洗數據
    - 增加正則罰項(降低模型的復雜度)
- 模型選擇的基本原則-奧卡姆剃刀原則
  - 在具有相同泛化誤差的模型中，選擇較為簡單的模型，防止過擬合

總結

以上是生活随笔為你收集整理的01 -- 机器学习入门的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：乐高机器人linux,乐高机器人
下一篇： RPA破解人力资源管理困境丨人资领域应用