01 -- 机器学习入门
生活随笔
收集整理的這篇文章主要介紹了
01 -- 机器学习入门
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.大數據框架
- 大數據的離線數據處理
- Hadoop大數據平臺(Hadoop1和Hadoop2、Hadoop3)
- HDFS分布式文件系統
- MapReduce分布式計算框架
- Yarn資源管理平臺
- Hive數據倉庫
- 底層執行的是MR
- Sqoop關系型數據庫和非關系型數據庫的導入和導出
- 底層MR
- Flume數據采集
- Hadoop大數據平臺(Hadoop1和Hadoop2、Hadoop3)
- 大數據的實時數據處理
- Storm-----天貓雙11,實時統計銷售總額
- Spark-----一站式數據分析平臺
- Spark-Core
- SparkSql----Hive
- SparkStreaming----Storm
- SparkMllib----機器學習
- SparkGraphX----圖計算
- Kafka消息隊列
- 大數據新興技術
- Flink-一站式數據分析
- Keylin數據分析-數據立方體
- 機器學習階段
- 機器學習和大數據區別和聯系
- 大數據框架做的是基礎的數據的存儲和統計計算,但是如果需要從大量的是數據中發現或挖掘規律,需要使用機器學習方法,通過機器學習算法結合大量數據,構建機器學習模型,通過模型對現實事件作出預測和判斷。
- 如果要構建模型,需要大量的數據,一定需要大數據框架做基礎統計和分析
- 大數據4V特征
- 數據量大:TB-PB-ZB HDFS存儲
- 數據種類多:
- 結構化數據:Mysql或oracle存儲
- 非結構化數據:視頻、音頻等 -HDFS存儲
- 半結構化數據:html、xml等 -HDFS存儲
- 速度快
- 數據的增長的速度快:TB-PB-ZB
- 數據的處理速度快:大數據 框架解決
- 價值密度低-價值高
- 密度=有價值數據/All
- 機器學習學習算法解決
- 機器學習和大數據區別和聯系
2.大數據時代究竟改變了什么?
- 大數據時代改變更多的是思維方式
- 數據重要性:
- 數據資源--------數據資產(數據的增值)
- 方法論:
- 基于知識的理論完美主義-----基于數據的歷史經驗主義
- 翻譯:你好嗎?
- 基于知識:
- 你 好 嗎+ 語言學知識
- 你 you your
- 好 well good
- 嗎 do does is
- 你好嗎?Are you well?Are you good?How are you? (選擇)
- 基于數據:
- Are you well?
- Are you good?
- How are you? (選擇)
- 數據分析:
- 統計學-----數據科學(大數據)
- 抽樣理論
- 數據科學家(擁有大數據技術+機器學習算法技術+強大的業務能力、數據分析能力)
- 統計學-----數據科學(大數據)
- 計算智能:
- 復雜算法–簡單算法(MapReduce)
- 業務層面:
- 業務的數據化--------數據的業務化
- 決策方式
- 目標決策------數據決策
- 產業競合
- 以戰略為中心-------以數據為中心
3.以大數據項目為例展開
- 項目名稱:電信日志分析系統
- 項目描述:該項目對電信用戶上網所產生的日志進行分析和處理,對產生的日志數據進行入庫、處理、實時分析、上報監管部門等,整個項目利用Hadoop大數據平臺,完成日志的入庫、處理、分析和查詢等,達到異常ip的檢測、關鍵詞的過濾、違規違法用戶的檢測等。
- 項目架構:
- 數據采集:ftp和socket方式
- 數據存儲:HDFS
- 數據分析:Hive等
- 數據展現:WEB
- 數據量:1T-20T數據量不等
- 集群搭建:在全國20個省份部署集群,集群數據在10-100臺不等
4.以推薦系統為例展開
-
項目名稱:推薦系統
-
項目描述:猜你喜歡
-
項目架構:離線推薦、實時推薦、近線計算(整個業務邏輯整合的地方)
5.人工智能
6.人工智能、機器學習、深度學習區別和聯系
- 機器學習是人工智能的一個分支,深度學習是機器學習的一種方法或技術
7.數據、數據分析、數據挖掘、機器學習
數據:1.7 1.8 1.9
數據分析信息:矮 正好 高
深度學習—>機器學習(方法)—>數據挖掘(事情)、模式識別(事件)
有價值信息:長相好 丑 好
8.機器學習概念
- 機器學習是致力于研究如何通過CPU和GPU(圖形圖像處理器)的計算,利用經驗或數據來改善計算機系統自身的性能。
- 機器學習是人工智能具有智能的必備技術手段,人工智能的核心
- 總結:機器學習模型Model=數據+算法
- 如果有新的數據,只需要代入到Model中就可以輸出預測值
- 什么不是機器學習?
- 比如對于計算問題、已經知道結果的(確定性問題)等不是機器學習問題
- 機器學習問題需要有一個預測的過程
9.基于規則的學習
- 基于專家發現的規則,制定規則,只需要新數據代入規則進行判斷即可
10.基于模型的學習
- X(郵件一些特征數據)---------f(函數-模型)--------->Y(結果數據)
- 基于模型就可以直接進行預測分析
11.機器學習各種概念
- 參考圖示
12.機器學習概念補充
- 類別型變量處理
天氣:晴天、陰天、雨天
label encoder:標簽編碼
one-hot encoder:獨熱編碼
晴天、陰天、雨天
0 0 1
0 1 0
1 0 0
結果:通常使用labelencoder
是享受運動 0 不是 1
- 概念學習
- X---------------f(模型)--------------------->Y
- 回歸和分類問題
- 如果預測值是連續值對應的問題是回歸問題
- 如果預測值是離散值對應的問題是分類問題
13.機器學習分類
-
根據是否有類別標簽—監督學習和非監督學習
-
監督學習:
- 分類:預測值是否為連續值,不是連續值的預測的話,是分類
- 回歸:是連續值的預測的話,是回歸
-
非監督學習:
- 聚類:通過相似性度量,組內的相似性是極高的,組間的相異性極高的,進行分類
- 降維-通過算法進行降維的話,Z1和Z2的物理含義是不明確的
- 特征選擇:
- 從原有的特征中選擇比較重要的特征-----X1X2X3====>X1X2
?
- 從原有的特征中選擇比較重要的特征-----X1X2X3====>X1X2
- 特征選擇:
-
半監督學習
-
應用場景比較多一些,
-
半監督學習:
1.基于聚類的假設
有類別標記的數據+沒有類別標記的數據將有類別標記的數據,去掉標簽列所有的數據均沒標簽,對全部數據進行聚類,聚類之后,有類別標記的數據和沒有類別標記的數據,有可能被分到不同的組或簇中,將所有的, 有類別標記的數據,根據機器學習常用的處理方法—投票原則,根據少數服從多數的原則進行表決,將沒有帶類別標簽的數據加上類別標簽
2.利用所有樣本進行模型訓練
-
-
強化學習(系統)
- 解決連續決策的問題
- 圍棋、無人駕駛汽車
-
遷移學習
14.機器學習三要素
- 機器學習=算法+數據+策略(損失函數)
- 機器學習=模型+算法+策略(損失函數)
- 模型:決策函數、條件概率分布
- 策略:損失函數/目標函數/誤差函數
- 01損失—分類問題
- 平方損失—回歸問題
- 絕對值損失—分類或回歸問題
- 算法:
- 解析解
- 最優解-----梯度下降法或牛頓法
15.模型選擇
- 模型的泛化性能
- 模型對于新數據的適應能力
- 欠擬合:模型對于訓練集和測試集效果都很差
- 產生的原因:模型太過于簡單
- 產生的時期:訓練模型的初期
- 解決辦法:
- 增加多項式的特征項,使得模型變得復雜
- 增加多項式的特征項的次數,使得模型復雜
- 減少正則罰項
- 過擬合:模型對于訓練集效果很好,對于測試集效果較差
- 產生的原因:模型過于復雜、訓練數據量太少、數據不純
- 產生的時期:訓練模型的中后期
- 解決辦法:
- 增加訓練數據
- 重新清洗數據
- 增加正則罰項(降低模型的復雜度)
- 模型選擇的基本原則-奧卡姆剃刀原則
- 在具有相同泛化誤差的模型中,選擇較為簡單的模型,防止過擬合
總結
以上是生活随笔為你收集整理的01 -- 机器学习入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乐高机器人linux,乐高机器人
- 下一篇: RPA破解人力资源管理困境丨人资领域应用