日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用Scikit-learn和TensorFlow进行机器学习(一)

發(fā)布時間:2025/3/19 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用Scikit-learn和TensorFlow进行机器学习(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 機器學(xué)習(xí)概覽
    • 一、什么是機器學(xué)習(xí)?
      • 1、定義
      • 2、適用
    • 二、分類
      • 1、監(jiān)督, 非監(jiān)督, 半監(jiān)督和強化學(xué)習(xí)
        • (1)監(jiān)督學(xué)習(xí)
        • (2)非監(jiān)督學(xué)習(xí)
        • (3)半監(jiān)督學(xué)習(xí)
        • (4)強化學(xué)習(xí)
      • 2、在線學(xué)習(xí) vs 批量學(xué)習(xí)
        • (1)在線學(xué)習(xí)
        • (2)批量學(xué)習(xí)
      • 3、基于實例學(xué)習(xí) vs 基于模型學(xué)習(xí)
        • (1)基于實例學(xué)習(xí)
        • (2)基于模型學(xué)習(xí)
    • 三、主要挑戰(zhàn)
    • 四、測試和確認(rèn)

機器學(xué)習(xí)概覽

一、什么是機器學(xué)習(xí)?

1、定義

計算機程序利用經(jīng)驗 E 學(xué)習(xí)任務(wù) T, 性能是 P, 如果針對任務(wù) T 的性能 P 隨著經(jīng)驗 E 不斷增長, 則稱為機器學(xué)習(xí)。(湯姆·米切爾,1997)

2、適用

  • 需要進行大量手工調(diào)整或需要擁有長串規(guī)則才能解決的問題: 機器學(xué)習(xí)算法通常可以簡化代碼、 提高性能。
  • 問題復(fù)雜, 傳統(tǒng)方法難以解決: 最好的機器學(xué)習(xí)方法可以找到解決方案。
  • 環(huán)境有波動: 機器學(xué)習(xí)算法可以適應(yīng)新數(shù)據(jù)。
  • 洞察復(fù)雜問題和大量數(shù)據(jù)

二、分類

注意下述規(guī)則可以組合

1、監(jiān)督, 非監(jiān)督, 半監(jiān)督和強化學(xué)習(xí)

分類依據(jù):根據(jù)訓(xùn)練時監(jiān)督的量和類型進行分類。

(1)監(jiān)督學(xué)習(xí)

分為:分類任務(wù)、回歸任務(wù)

常用算法:

  • K近鄰算法
  • 線性回歸
  • 邏輯回歸
  • 支持向量機( SVM)
  • 決策樹和隨機森林
  • 神經(jīng)網(wǎng)絡(luò)

(2)非監(jiān)督學(xué)習(xí)

常用算法:
聚類

  • K 均值
  • 層次聚類分析( Hierarchical Cluster Analysis, HCA)
  • 期望最大值

可視化和降維(簡化數(shù)據(jù)、 但是不能失去大部分信息)

  • 主成分分析( Principal Component Analysis, PCA)
  • 核主成分分析
  • 局部線性嵌入( Locally-Linear Embedding, LLE)
  • t-分布鄰域嵌入算法( t-distributed Stochastic Neighbor Embedding, t-SNE)

關(guān)聯(lián)性規(guī)則學(xué)習(xí)(挖掘大量數(shù)據(jù)以發(fā)現(xiàn)屬性間有趣的關(guān)系)

  • Apriori 算法
  • Eclat 算法

此外,還常用于異常檢測( anomaly detection)

(3)半監(jiān)督學(xué)習(xí)

數(shù)據(jù)形式:通常是大量不帶標(biāo)簽數(shù)據(jù)加上小部分帶標(biāo)簽數(shù)
據(jù)。

多數(shù)半監(jiān)督學(xué)習(xí)算法是非監(jiān)督和監(jiān)督算法的結(jié)合。eg:深度信念網(wǎng)絡(luò)(deep belief networks)

(4)強化學(xué)習(xí)

智能體(agent), 可以對環(huán)境進行觀察(observation), 選擇和執(zhí)行動作(action), 獲得獎勵。然后它必須自己學(xué)習(xí)哪個是最佳方法( 稱為策略, policy) , 以得到長久的最大獎勵。 策略決定了智能體在給定情況下應(yīng)該采取的行動。

2、在線學(xué)習(xí) vs 批量學(xué)習(xí)

分類依據(jù):是否能從導(dǎo)入的數(shù)據(jù)流進行持續(xù)學(xué)習(xí)

(1)在線學(xué)習(xí)

用數(shù)據(jù)實例持續(xù)地進行訓(xùn)練,可以一次一個或一次幾個實例( 稱為小批量)。 每個學(xué)習(xí)步驟都很快且廉價,所以系統(tǒng)可以動態(tài)地學(xué)習(xí)到達(dá)的新數(shù)據(jù)。
==》適合接收連續(xù)流的數(shù)據(jù),且需要自動對改變作出調(diào)整。

數(shù)據(jù)的使用:

  • 一旦在線學(xué)習(xí)系統(tǒng)學(xué)習(xí)了新的數(shù)據(jù)實例,它就不再需要這些數(shù)據(jù)了, 所以扔掉這些數(shù)據(jù)( 除非你想滾回到之前的一個狀態(tài), 再次使用數(shù)據(jù))==》這樣可以節(jié)省大量的空間。
  • 核外數(shù)據(jù)(機器內(nèi)存存不下大量數(shù)據(jù)集時):加載部分?jǐn)?shù)據(jù),之后訓(xùn)練,然后重復(fù)該過程,直到所有數(shù)據(jù)都進行了訓(xùn)練。

(2)批量學(xué)習(xí)

系統(tǒng)不能持續(xù)學(xué)習(xí):必須用所有可用數(shù)據(jù)進行訓(xùn)練。
==》占用大量時間和計算資源

3、基于實例學(xué)習(xí) vs 基于模型學(xué)習(xí)

(1)基于實例學(xué)習(xí)

記憶學(xué)習(xí)。系統(tǒng)先用記憶學(xué)習(xí)案例, 然后使用相似度測量推廣到新的例子

(2)基于模型學(xué)習(xí)

從樣本集進行歸納的方法是建立這些樣本的模型, 然后使用這個模型進行預(yù)測。

三、主要挑戰(zhàn)

  • 訓(xùn)練數(shù)據(jù)量不足:數(shù)據(jù)不合理的有效性;
  • 沒有代表性的訓(xùn)練數(shù)據(jù);
    • 樣本太小==》樣本噪聲
    • 樣本太大==》樣本偏差:可能沒有代表性, 如果取樣方法錯誤的話。
  • 低質(zhì)量數(shù)據(jù):錯誤、異常值和噪聲
  • 不相關(guān)的特征
    • 特征工程(特征選擇、特征提取、收集新數(shù)據(jù)創(chuàng)建新特性)
  • 過擬合訓(xùn)練數(shù)據(jù)
    • 簡化模型, 可以通過選擇一個參數(shù)更少的模型( 比如使用線性模型, 而不是高階多項式模型)、 減少訓(xùn)練數(shù)據(jù)的屬性數(shù)、 或限制一下模型(正則化)
    • 收集更多的訓(xùn)練數(shù)據(jù)
    • 減小訓(xùn)練數(shù)據(jù)的噪聲( 比如, 修改數(shù)據(jù)錯誤和去除異常值)
  • 欠擬合訓(xùn)練數(shù)據(jù)

四、測試和確認(rèn)

數(shù)據(jù)集劃分:訓(xùn)練集、驗證集、測試集;

在驗證集上模型和超參數(shù),選擇性能最佳的模型和超參數(shù)

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的用Scikit-learn和TensorFlow进行机器学习(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。