机器学习的宝典-华校专老师的笔记
華校專,清華航天學院工程力學本科,國防科大計算機專業碩士。清華四年每年成績都是本系頭名,曾任阿里巴巴資深算法工程師,現任智易科技首席算法研究員,《Python 大戰機器學習》的作者。
這是作者多年以來學習總結的筆記,經整理之后開源于世。目前還有約一半的內容在陸續整理中,已經整理好的內容放置在此。 曾有出版社約稿,但是考慮到出版時間周期較長,而且書本購買成本高不利于技術廣泛傳播,因此作者采取開源的形式。
本人得到華校專老師授權,在公眾號公布了他的筆記,筆記目錄如下:
筆記內容較多,歡迎大家探討。請點擊“閱讀原文”。
華老師聯系方式:huaxz1986@163.com
華校專老師的個人網站:http://www.huaxiaozhuan.com/
數學基礎
1.線性代數基礎
一、基本知識
二、向量操作
三、矩陣運算
2.概率論基礎
一、概率與分布
二、期望
三、方差
四、大數定律及中心極限定理
五、不確定性來源
六、常見概率分布
七、先驗分布與后驗分布
八、測度論
九、信息論
3.數值計算基礎
一、數值穩定性
二、Conditioning
三、梯度下降法
四、海森矩陣
四、牛頓法
五、擬牛頓法
六、 約束優化
4.常用函數
一、 sigmoid
二、 softplus
三、Gamma 函數和貝塔函數
統計學習
0.機器學習簡介
一、基本概念
二、監督學習
三、機器學習三要素
1.線性代數基礎
一、線性回歸
二、廣義線性模型
三、對數幾率回歸
四、線性判別分析
五、感知機
2.支持向量機
一、 線性可分支持向量機
二、線性支持向量機
三、非線性支持向量機
四、支持向量回歸
五、SVDD
六、序列最小最優化方法
七、其它討論
3.樸素貝葉斯
一、貝葉斯定理
二、樸素貝葉斯法
三、半樸素貝葉斯分類器
四、其它討論
4.決策樹
一、 原理
二、 特征選擇
三、生成算法
四、剪枝算法
五、CART 樹
六、連續值、缺失值處理
七、多變量決策樹
5.knn
一、k 近鄰算法
二、 kd樹
6.集成學習
一、集成學習誤差
二、 Boosting
三、Bagging
四、集成策略
五、多樣性分析
7.梯度提升樹
一、提升樹
二、xgboost
三、LightGBM
8.特征工程
一、缺失值處理
二、特征編碼
三、數據標準化、正則化
四、特征選擇
五、稀疏表示和字典學習
六、多類分類問題
七、類別不平衡問題
9.模型評估
一、泛化能力
二、過擬合、欠擬合
三、偏差方差分解
四、參數估計準則
五、泛化能力評估
六、訓練集、驗證集、測試集
七、性能度量
七、超參數調節
八、傳統機器學習的挑戰
10.降維
一、維度災難
二、主成分分析 PCA
三、核化線性降維 KPCA
四、流形學習
五、度量學習
六、概率PCA
七、獨立成分分析
八、t-SNE
九、LargeVis
11.聚類
一、性能度量
二、原型聚類
三、密度聚類
四、層次聚類
五、譜聚類
12.半監督學習
半監督學習
二、半監督 SVM
三、圖半監督學習
四、基于分歧的方法
五、半監督聚類
六、 總結
深度學習
0.深度學習簡介
一、 介紹
二、歷 史
1.機器學習基礎
一、基本概念
二、點估計、偏差方差
三、最大似然估計
四、貝葉斯估計
五、隨機梯度下降
七、傳統機器學習的挑戰
八、低維流形
2.深度前饋神經網絡
一、基礎
二、損失函數
三、輸出單元
四、隱單元
五、結構設計
六、歷史小記
3.反向傳播算法
一、鏈式法則
二、反向傳播
三、深度前饋神經網絡
四、實現
五、應用
六、自動微分
4.正則化
一、 基本概念
二、 參數范數正則化
三、 約束正則化
四、 數據集增強
五、 噪聲魯棒性
六、 早停
七、參數共享
八、 dropout
九、 稀疏表達
十、 半監督學習與多任務學習
十一、對抗訓練
十二、正切傳播算法
十三、 正則化和欠定問題
5.最優化礎
一、代價函數
二、神經網絡最優化挑戰
三、 mini-batch
四、基本優化算法
五、自適應學習率算法
六、二階近似方法
七、 共軛梯度
八、優化策略和元算法
九、參數初始化策略
6.卷積神經網絡
一、卷積運算
二、卷積層、池化層
三、基本卷積的變體
四、算法細節
五、 歷史和現狀
7.循環神經網絡
一、RNN計算圖
二、循環神經網絡
三、長期依賴
四、序列到序列架構
五、遞歸神經網絡
六、回聲狀態網絡
七、LSTM 和其他門控RNN
八、外顯記憶
8.工程實踐指導原則
一、性能度量
二、默認的基準模型
三、決定是否收集更多數據
四、選擇超參數
五、調試策略
六、示例:數字識別系統
七、數據預處理
八、變量初始化
九、結構設計
自然語言處理
主題模型
一、Unigram Model
二、pLSA Model
三、LDA Model
四、模型討論
詞向量
一、向量空間模型 VSM
二、LSA
三、Word2Vec
四、GloVe
計算機視覺
圖片分類網絡
一、LeNet
二、AlexNet
三、VGG-Net
四、Inception
五、ResNet
六、SENet
七、 DenseNet
八、小型網絡
九、趨勢
工具
CRF
CRF++
一、安裝
二、使用
三、Python接口
四、常見錯誤
lightgbm
lightgbm使用指南
一、安裝
二、調參
三、進階
四、API
五、Docker
xgboost
xgboost使用指南
一、安裝
二、調參
三、外存計算
四、 GPU計算
五、單調約束
六、 DART booster
七、Python API
scikit-learn
1.預處理
一、特征處理
二、特征選擇
三、字典學習
四、PipeLine
2.降維
一、PCA
二、MDS
三、Isomap
四、LocallyLinearEmbedding
五、FA
六、FastICA
七、t-SNE
3.監督學習模型
一、線性模型
二、支持向量機
三、貝葉斯模型
四、決策樹
五、KNN
六 、AdaBoost
七、梯度提升樹
八、Random Forest
4.模型評估
一、數據集切分
二、性能度量
三、驗證曲線 && 學習曲線
四、超參數優化
5.聚類模型
一、KMeans
二、DBSCAN
三、MeanShift
四、AgglomerativeClustering
五、BIRCH
六、GaussianMixture
七、SpectralClustering
6.半監督學習模型
一、標簽傳播算法
spark
1.基礎概念
一、核心概念
二、安裝和使用
三、 pyspark shell
四、獨立應用
2.rdd使用
一、概述
二、創建 RDD
三、轉換操作
四、行動操作
五、其他方法和屬性
六、持久化
七、分區
八、混洗
3.dataframe使用
一、概述
二、SparkSession
三、DataFrame 創建
四、 DataFrame 保存
五、DataFrame
六、Row
七、Column
八、GroupedData
九、functions
4.累加器和廣播變量
一、累加器
二、廣播變量
numpy
numpy 使用指南
一、 ndarray
二、 ufunc 函數
三、 函數庫
四、數組的存儲和加載
scipy
scipy 使用指南
一、 常數和特殊函數
二、 擬合與優化
三、線性代數
四、 統計
五、數值積分
六、 稀疏矩陣
matplotlib
matplotlib 使用指南
一、matplotlib配置
二、 matplotlib Artist
三、基本概念
四、布局
五、 Path
六、 path effect
七、坐標變換
八、 3D 繪圖
九、技巧
pandas
pandas 使用指南
一、基本數據結構
二、 內部數據結構
三、 下標存取
四、 運算
五、變換
六、數據清洗
七、 字符串操作
八、 聚合與分組
九、時間序列
十、 DataFrame 繪圖
十一、 移動窗口函數
十二、 數據加載和保存
筆記截圖:
華校專老師的個人網站:http://www.huaxiaozhuan.com/
github:https://github.com/huaxz1986
筆記內容較多,歡迎大家探討。請點擊“閱讀原文”。
機器學習愛好者qq群:654173748
請關注和分享本公眾號:
精華文章:
吳恩達老師的機器學習和深度學習課程筆記打印版
吳恩達老師機器學習課程個人筆記在線版
DeepLearning.ai深度學習課程筆記在線版
機器學習的數學基礎
科研工作者的神器-zotero論文管理工具
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的机器学习的宝典-华校专老师的笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Coursera机器学习课程代码作业-P
- 下一篇: 机器学习初学者公众号下载资源汇总(一)