日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

(视频+图文)机器学习入门系列-第15章

發布時間:2025/3/12 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 (视频+图文)机器学习入门系列-第15章 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習入門系列,黃海廣老師主講。本站將持續更新,ppt、代碼、課后習題見文末。

本系列的目錄

01.引言

02.回歸

03.邏輯回歸

04.樸素貝葉斯

05.機器學習實踐

06.機器學習庫Scikit-learn

07.KNN算法

08.決策樹

09.集成學習

10.人工神經網絡

11.支持向量機

12.聚類

13.降維

14.關聯規則

15.機器學習項目流程

本章目錄

  • 15.1 機器學習項目流程概述

  • 15.2?數據清洗

  • 15.3 特征工程

  • 15.4 數據建模

15.1 機器學習項目流程概述

視頻講解

圖文內容

15.2 數據清洗

視頻講解

圖文內容

15.3 特征工程

視頻講解

圖文內容

15.4 回歸的評價指標

視頻講解

項目講解

這是一個機器學習的完整流程,附代碼非常全,幾乎適合任何監督學習的分類問題,本文提供代碼和數據下載。

作者:WillKoehrsen

翻譯:DeqianBai(https://github.com/DeqianBai)

這是2018年夏天,一位美國數據科學家在申請工作時的“作業”,完整的英文版作業在:

https://github.com/WillKoehrsen/machine-learning-project-walkthrough/blob/master/hw_assignment.pdf

項目目標:

  • 使用提供的建筑能源數據開發一個模型,該模型可以預測建筑物的能源之星得分

  • 然后解釋結果以找到最能預測得分的變量。

項目介紹:

這是一個受監督的回歸機器學習任務:給定一組包含目標(在本例中為分數)的數據,我們希望訓練一個可以學習將特征(也稱為解釋變量)映射到目標的模型。

  • 受監督問題:我們可以知道數據的特征和目標,我們的目標是訓練可以學習兩者之間映射關系的模型。

  • 回歸問題:Energy Star Score是一個連續變量。

在訓練中,我們希望模型能夠學習特征和分數之間的關系,因此我們給出了特征和答案。然后,為了測試模型的學習效果,我們在一個從未見過答案的測試集上進行評估

我們在拿到一個機器學習問題之后,要做的第一件事就是制作出我們的機器學習項目清單。下面給出了一個可供參考的機器學習項目清單,它應該適用于大多數機器學習項目,雖然確切的實現細節可能有所不同,但機器學習項目的一般結構保持相對穩定:

  • 數據清理和格式化

  • 探索性數據分析

  • 特征工程和特征選擇

  • 基于性能指標比較幾種機器學習模型

  • 對最佳模型執行超參數調整

  • 在測試集上評估最佳模型

  • 解釋模型結果

  • 得出結論

  • 提前設置機器學習管道結構讓我們看到每一步是如何流入另一步的。但是,機器學習管道是一個迭代過程,因此我們并不總是以線性方式遵循這些步驟。我們可能會根據管道下游的結果重新審視上一步。例如,

    • 雖然我們可以在構建任何模型之前執行特征選擇,但我們可以使用建模結果返回并選擇一組不同的特征。

    • 或者,建模可能會出現意想不到的結果,這意味著我們希望從另一個角度探索我們的數據。

    • 一般來說,你必須完成一步才能繼續下一步,但不要覺得一旦你第一次完成一步,你就不能回頭做出改進!你可以在任何時候返回前面的步驟并作出相應的修改。

    代碼部分

    代碼部分較長,僅貼代碼的目錄,完整代碼在文末提供下載。

    1. 數據清理和格式化

    • 1.1 加載并檢查數據

    • 1.2 ?數據類型和缺失值

      • 1.2.1 將數據轉換為正確的類型

    • 1.3 處理缺失值

    2. 探索性數據分析

    • 2.1 單變量圖

    • 2.2 去除異常值

    • 2.3 尋找關系

    • 2.4 特征與目標之間的相關性

    • 2.5 雙變量圖(Two-Variable Plots)

      • 2.5.1 Pairs Plot

    3. 特征工程和特征選擇

    • 3.1 特征工程

    • 3.2 特征選擇(去除共線特征)

    • 3.3 劃分訓練集和測試集

    • 3.4 建立Baseline

    • 小結

    4. 基于性能指標比較幾種機器學習模型

    • 4.1 輸入缺失值

    • 4.2 特征縮放

    • 4.3 需要評估的模型

    5. 對最佳模型執行超參數調整

    • 5.1 超參數

    • 5.2 使用隨機搜索和交叉驗證進行超參數調整

    6. 在測試集上評估最佳模型

    7. 解釋模型結果

    • 7.1 特征重要性

    • 7.2 使用特征重要性進行特征選擇

    • 7.3 本地可解釋的與模型無關的解釋

    • 7.4 檢查單個決策樹

    8. 得出結論

    • 8.1 得出結論

    • 記錄發現

    代碼截圖


    相關資源

    課程門檻較低,只要有本科三年級以上的數學知識,會一種編程語言,就可以掌握這門課程的絕大部分內容。

    課程鏈接(中國大學慕課,有習題和證書):
    https://www.icourse163.org/course/WZU-1464096179

    課程資源(pdf版本課件和代碼)公布在Github:

    https://github.com/fengdu78/WZU-machine-learning-course

    課程視頻也可以在b站觀看(觀看方便,但無課后習題和證書):

    https://www.bilibili.com/video/BV1gP4y177cf?share_source=copy_web

    ?如果是在校老師,請告知我們學校和姓名,我可以發原版ppt文件,請用edu郵箱聯系我:haiguang2000@wzu.edu.cn

    ?機器學習交流qq群955171419,加入微信群請掃碼:

    總結

    以上是生活随笔為你收集整理的(视频+图文)机器学习入门系列-第15章的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。