日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

01 -- 机器学习入门

發布時間:2023/12/20 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 01 -- 机器学习入门 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.大數據框架

  • 大數據的離線數據處理
    • Hadoop大數據平臺(Hadoop1和Hadoop2、Hadoop3)
      • HDFS分布式文件系統
      • MapReduce分布式計算框架
      • Yarn資源管理平臺
    • Hive數據倉庫
      • 底層執行的是MR
    • Sqoop關系型數據庫和非關系型數據庫的導入和導出
      • 底層MR
    • Flume數據采集
  • 大數據的實時數據處理
    • Storm-----天貓雙11,實時統計銷售總額
    • Spark-----一站式數據分析平臺
      • Spark-Core
      • SparkSql----Hive
      • SparkStreaming----Storm
      • SparkMllib----機器學習
      • SparkGraphX----圖計算
    • Kafka消息隊列
  • 大數據新興技術
    • Flink-一站式數據分析
    • Keylin數據分析-數據立方體
  • 機器學習階段
    • 機器學習和大數據區別和聯系
      • 大數據框架做的是基礎的數據的存儲和統計計算,但是如果需要從大量的是數據中發現或挖掘規律,需要使用機器學習方法,通過機器學習算法結合大量數據,構建機器學習模型,通過模型對現實事件作出預測和判斷。
      • 如果要構建模型,需要大量的數據,一定需要大數據框架做基礎統計和分析
    • 大數據4V特征
      • 數據量大:TB-PB-ZB HDFS存儲
      • 數據種類多:
        • 結構化數據:Mysql或oracle存儲
        • 非結構化數據:視頻、音頻等 -HDFS存儲
        • 半結構化數據:html、xml等 -HDFS存儲
      • 速度快
        • 數據的增長的速度快:TB-PB-ZB
        • 數據的處理速度快:大數據 框架解決
      • 價值密度低-價值高
        • 密度=有價值數據/All
        • 機器學習學習算法解決

2.大數據時代究竟改變了什么?

  • 大數據時代改變更多的是思維方式
  • 數據重要性:
    • 數據資源--------數據資產(數據的增值)
  • 方法論:
    • 基于知識的理論完美主義-----基于數據的歷史經驗主義
    • 翻譯:你好嗎?
    • 基于知識:
      • 你 好 嗎+ 語言學知識
      • 你 you your
      • 好 well good
      • 嗎 do does is
      • 你好嗎?Are you well?Are you good?How are you? (選擇)
    • 基于數據:
      • Are you well?
      • Are you good?
      • How are you? (選擇)
  • 數據分析:
    • 統計學-----數據科學(大數據)
      • 抽樣理論
      • 數據科學家(擁有大數據技術+機器學習算法技術+強大的業務能力、數據分析能力)
  • 計算智能:
    • 復雜算法–簡單算法(MapReduce)
  • 業務層面:
    • 業務的數據化--------數據的業務化
  • 決策方式
    • 目標決策------數據決策
  • 產業競合
    • 以戰略為中心-------以數據為中心

3.以大數據項目為例展開

  • 項目名稱:電信日志分析系統
  • 項目描述:該項目對電信用戶上網所產生的日志進行分析和處理,對產生的日志數據進行入庫、處理、實時分析、上報監管部門等,整個項目利用Hadoop大數據平臺,完成日志的入庫、處理、分析和查詢等,達到異常ip的檢測、關鍵詞的過濾、違規違法用戶的檢測等。
  • 項目架構:
    • 數據采集:ftp和socket方式
    • 數據存儲:HDFS
    • 數據分析:Hive等
    • 數據展現:WEB
  • 數據量:1T-20T數據量不等
  • 集群搭建:在全國20個省份部署集群,集群數據在10-100臺不等

4.以推薦系統為例展開

  • 項目名稱:推薦系統

  • 項目描述:猜你喜歡

  • 項目架構:離線推薦、實時推薦、近線計算(整個業務邏輯整合的地方)

5.人工智能

6.人工智能、機器學習、深度學習區別和聯系

  • 機器學習是人工智能的一個分支,深度學習是機器學習的一種方法或技術

7.數據、數據分析、數據挖掘、機器學習

數據:1.7 1.8 1.9

數據分析

信息:矮 正好 高
深度學習—>機器學習(方法)—>數據挖掘(事情)、模式識別(事件)
有價值信息:長相好 丑 好

8.機器學習概念

  • 機器學習是致力于研究如何通過CPU和GPU(圖形圖像處理器)的計算,利用經驗或數據來改善計算機系統自身的性能。
  • 機器學習是人工智能具有智能的必備技術手段,人工智能的核心
  • 總結:機器學習模型Model=數據+算法
    • 如果有新的數據,只需要代入到Model中就可以輸出預測值
  • 什么不是機器學習?
    • 比如對于計算問題、已經知道結果的(確定性問題)等不是機器學習問題
    • 機器學習問題需要有一個預測的過程

9.基于規則的學習

  • 基于專家發現的規則,制定規則,只需要新數據代入規則進行判斷即可

10.基于模型的學習

  • X(郵件一些特征數據)---------f(函數-模型)--------->Y(結果數據)
  • 基于模型就可以直接進行預測分析

11.機器學習各種概念

  • 參考圖示

12.機器學習概念補充

  • 類別型變量處理

天氣:晴天、陰天、雨天
label encoder:標簽編碼

晴天、陰天、雨天 0 1 2

one-hot encoder:獨熱編碼
晴天、陰天、雨天
0 0 1
0 1 0
1 0 0
結果:通常使用labelencoder
是享受運動 0 不是 1

  • 概念學習
    • X---------------f(模型)--------------------->Y
  • 回歸和分類問題
    • 如果預測值是連續值對應的問題是回歸問題
    • 如果預測值是離散值對應的問題是分類問題

13.機器學習分類

  • 根據是否有類別標簽—監督學習和非監督學習

  • 監督學習:

    • 分類:預測值是否為連續值,不是連續值的預測的話,是分類
    • 回歸:是連續值的預測的話,是回歸
  • 非監督學習:

    • 聚類:通過相似性度量,組內的相似性是極高的,組間的相異性極高的,進行分類
    • 降維-通過算法進行降維的話,Z1和Z2的物理含義是不明確的
      • 特征選擇:
        • 從原有的特征中選擇比較重要的特征-----X1X2X3====>X1X2
          ?
  • 半監督學習

    • 應用場景比較多一些,

    • 半監督學習:
      1.基于聚類的假設
      有類別標記的數據+沒有類別標記的數據將有類別標記的數據,去掉標簽列所有的數據均沒標簽,對全部數據進行聚類,聚類之后,有類別標記的數據和沒有類別標記的數據,有可能被分到不同的組或簇中,將所有的, 有類別標記的數據,根據機器學習常用的處理方法—投票原則,根據少數服從多數的原則進行表決,將沒有帶類別標簽的數據加上類別標簽
      2.利用所有樣本進行模型訓練

  • 強化學習(系統)

    • 解決連續決策的問題
    • 圍棋、無人駕駛汽車
  • 遷移學習

14.機器學習三要素

  • 機器學習=算法+數據+策略(損失函數)
  • 機器學習=模型+算法+策略(損失函數)
    • 模型:決策函數、條件概率分布
    • 策略:損失函數/目標函數/誤差函數
      • 01損失—分類問題
      • 平方損失—回歸問題
      • 絕對值損失—分類或回歸問題
    • 算法:
      • 解析解
      • 最優解-----梯度下降法或牛頓法

15.模型選擇

  • 模型的泛化性能
    • 模型對于新數據的適應能力
    • 欠擬合:模型對于訓練集和測試集效果都很差
      • 產生的原因:模型太過于簡單
      • 產生的時期:訓練模型的初期
      • 解決辦法:
        • 增加多項式的特征項,使得模型變得復雜
        • 增加多項式的特征項的次數,使得模型復雜
        • 減少正則罰項
    • 過擬合:模型對于訓練集效果很好,對于測試集效果較差
      • 產生的原因:模型過于復雜、訓練數據量太少、數據不純
      • 產生的時期:訓練模型的中后期
      • 解決辦法:
        • 增加訓練數據
        • 重新清洗數據
        • 增加正則罰項(降低模型的復雜度)
    • 模型選擇的基本原則-奧卡姆剃刀原則
      • 在具有相同泛化誤差的模型中,選擇較為簡單的模型,防止過擬合

總結

以上是生活随笔為你收集整理的01 -- 机器学习入门的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。