特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现
由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(國內譯作《精通特征工程》)一書,可以說是特征工程的寶典,本文在知名開源apachecn組織翻譯的英文版基礎上,將原文修改成jupyter notebook格式,并增加和修改了部分代碼,測試全部通過。這個資料可以說是特征工程的寶典,值得推薦。
資料說明
《Feature Engineering for Machine Learning》由知名開源apachecn組織翻譯,原版英文書可以在網上試讀(免費讀10天),試讀地址:
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
這本書可以說是特征工程的寶典,值得推薦。
本站在得到apachecn同意后,對翻譯版本進行了潤色和代碼實現,將原文修改成jupyter notebook格式,并增加和修改了部分代碼,測試全部通過,同時所有數據集已經放在百度云下載。
翻譯代碼放在數據科學的github倉庫提供下載,倉庫地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
備注:本文的翻譯版本與人民郵電出版社出版的《精通特征工程》有所不同,屬于獨立完成。
文件目錄
一、引言
二、簡單數字的奇特技巧
三、文本數據:展開、過濾和分塊
四、特征縮放的效果:從詞袋到 TF-IDF
五、類別特征:機器雞時代的雞蛋計數
六、降維:使用 PCA 壓縮數據集
七、非線性特征提取和模型堆疊
八、自動化特征提取器:圖像特征提取和深度學習
九、回到特征:將它們放到一起(更新中)
附錄、線性模型和線性代數基礎
內容簡介
第 1 章從數字數據的基本特征工程開始:過濾,合并,縮放,日志轉換和能量轉換以及交互功能。
第 2 章和第 3 章深入探討了自然文本的特征工程:bag-of-words,n-gram 和短語檢測。
第 4 章將 tf-idf 作為特征縮放的例子,并討論它的工作原理。
第 5 章討論分類變量的高效編碼技術,包括特征哈希和 bin-counting。
第 6 章中進行主成分分析,我們深入機器學習的領域。
第 7 章將 k-means 看作一種特征化技術,它說明了模型堆疊的有效理論。
第 8 章都是關于圖像的,在特征提取方面比文本數據更具挑戰性。在得出深度學習是最新圖像特征提取技術的解釋之前,我們著眼于兩種手動特征提取技術 SIFT 和 HOG。
第 9 章中完成了一個端到端示例中的幾種不同技術,為學術論文數據集創建了一個推薦器。
內容截圖
總結
本文將《Feature Engineering for Machine Learning》修改成jupyter notebook格式,測試全部通過,并提供下載。
翻譯代碼的倉庫地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
參考
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
https://github.com/alicezheng/feature-engineering-book
https://github.com/apachecn/feature-engineering-for-ml-zh本站簡介↓↓↓?
“機器學習初學者”是幫助人工智能愛好者入門的個人公眾號(創始人:黃海廣)
初學者入門的道路上,最需要的是“雪中送炭”,而不是“錦上添花”。
本站的知識星球(黃博的機器學習圈子)ID:92416895
目前在機器學習方向的知識星球排名第一(上圖二維碼)
往期精彩回顧
良心推薦:機器學習入門資料匯總及學習建議(2018版)
黃海廣博士的github鏡像下載(機器學習及深度學習資源)
吳恩達老師的機器學習和深度學習課程筆記打印版
機器學習小抄-(像背托福單詞一樣理解機器學習)
首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書
機器學習的數學基礎
機器學習必備寶典-《統計學習方法》的python代碼實現、電子書及課件
吐血推薦收藏的學位論文排版教程(完整版)
Python代碼寫得丑怎么辦?推薦幾個神器拯救你
重磅 | 完備的 AI 學習路線,最詳細的資源整理!
圖解word2vec(原文翻譯)
備注:本站qq群:865189078(共8個群,不用重復加)。
加入本站微信群,請加黃博的助理微信,說明:公眾號用戶加群。
總結
以上是生活随笔為你收集整理的特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐:腾讯开源的词向量精简版本下载
- 下一篇: 喜大普奔:Datawhale开源项目《李