日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

推荐ApacheCN开源的一个机器学习路线图

發布時間:2025/3/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐ApacheCN开源的一个机器学习路线图 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

推薦一個ApacheCN開源的一個機器學習路線圖:

https://github.com/apachecn/AiLearning

注意:需要直接打開網址或者“閱讀原文”才能打開文章里的鏈接

路線圖

按照步驟: 1 => 2 => 3,你可以當大牛!

1.機器學習 - 基礎

  • Machine Learning in Action (機器學習實戰) |?ApacheCN(apache中文網)

  • 電子版書籍:【機器學習實戰-中文版-帶目錄版.pdf】

  • -- 感謝?飛龍小哥哥?生成的電子書《機器學習實戰-ApacheCN.pdf》

  • 視頻已更新完成,如果你覺得有價值,請幫忙點 Star【后續組織學習活動:sklearn、kaggle、 Pytorch 和 tensorflow】

  • -- 視頻網站:優酷 /bilibili / Acfun / 網易云課堂,可直接在線播放。(最下方有相應鏈接)

  • -- 群小哥哥:紅色石頭: 臺灣大學林軒田機器學習筆記

  • 推薦一個機器學習筆記:?

    https://feisky.xyz/machine-learning網站視頻

    機器學習實戰

    第 1 章: 機器學習基礎

    機器學習實戰

    第 2 章: KNN 近鄰算法

    機器學習實戰

    第 3 章: 決策樹

    機器學習實戰

    第 4 章: 樸素貝葉斯

    機器學習實戰

    第 5 章: Logistic回歸

    機器學習實戰

    第 6 章: SVM 支持向量機

    網上組合內容

    第 7 章: 集成方法(隨機森林和 AdaBoost)

    機器學習實戰

    第 8 章: 回歸

    機器學習實戰

    第 9 章: 樹回歸

    機器學習實戰

    第 10 章: K-Means 聚類

    機器學習實戰

    第 11 章: 利用 Apriori 算法進行關聯分析

    機器學習實戰

    第 12 章: FP-growth 高效發現頻繁項集

    機器學習實戰

    第 13 章: 利用 PCA 來簡化數據

    機器學習實戰

    第 14 章: 利用 SVD 來簡化數據

    機器學習實戰

    第 15 章: 大數據與 MapReduce

    Ml項目實戰

    第 16 章: 推薦系統(已遷移)

    第一期的總結

    2017-04-08: 第一期的總結

知乎問答-爆炸啦-機器學習該怎么入門?

視頻怎么看?

  • 理論科班出身-建議去學習 Andrew Ng 的視頻(Ng 的視頻絕對是權威,這個毋庸置疑)

  • 編碼能力強 - 建議看我們的《機器學習實戰-教學版》

  • 編碼能力弱 - 建議看我們的《機器學習實戰-討論版》,不過在看理論的時候,看 教學版-理論部分;討論版的廢話太多,不過在講解代碼的時候是一行一行講解的;所以,根據自己的需求,自由的組合。

  • 【免費】數學教學視頻 - 可汗學院 入門篇

    • @于振梓?推薦: 可汗學院-網易公開課

    概率統計線性代數
    可汗學院(概率)可汗學院(統計學)可汗學院(線性代數)

    機器學習視頻 - ApacheCN 教學版



    AcFunB站
    優酷網易云課堂

    【免費】機器/深度學習視頻 - 吳恩達

    機器學習深度學習
    吳恩達機器學習神經網絡和深度學習

    2.深度學習 - 基礎

    深度學習必學

  • 反向傳遞:?

  • https://www.cnblogs.com/charlotte77/p/5629865.html

  • CNN原理:?

  • http://www.cnblogs.com/charlotte77/p/7759802.html

  • RNN原理:

  • ?https://blog.csdn.net/qq_39422642/article/details/78676567

  • LSTM深入淺出的好文:?

  • https://blog.csdn.net/roslei/article/details/61912618

  • 3.自然語言處理

    學習過程中-內心復雜的變化!!!

    自從學習NLP以后,才發現國內與國外的典型區別: 1. 對資源的態度是完全相反的:1) 國內:就好像為了名氣,舉辦工作裝逼的會議,就是沒有干貨,全部都是象征性的PPT介紹,不是針對在做的各位2)國外:就好像是為了推動nlp進步一樣,分享者各種干貨資料和具體的實現。(特別是: python自然語言處理) 2. 論文的實現:1) 各種高大上的論文實現,卻還是沒看到一個像樣的GitHub項目!(可能我的搜索能力差了點,一直沒找到)2)國外就不舉例了,我看不懂! 3. 開源的框架1)國外的開源框架:tensorflow/pytorch 文檔+教程+視頻(官方提供)2) 國內的開源框架: 額額,還真舉例不出來!但是牛逼吹得不比國外差!(MXNet雖然有眾多華人參與開發,但不能算是國內開源框架。基于MXNet的動手學深度學習(https://zh.diveintodeeplearning.org)中文教程,已經由沐神(李沐)以及阿斯頓·張講授錄制,公開發布。文檔+第一季教程+視頻) 每一次深入都要去翻墻,每一次深入都要Google,每一次看著國內的說:哈工大、訊飛、中科大、百度、阿里 多牛逼,但是資料還是得國外去找! 有時候真的挺狠的!真的有點瞧不起自己國內的技術環境!當然謝謝國內很多博客大佬,特別是一些入門的Demo和基本概念。【深入的水平有限,沒看懂】

    • 入門教程必看資料【添加比賽鏈接】:

      https://github.com/apachecn/AiLearning/tree/dev/blog/nlp

    • Python 自然語言處理 第二版:?

      https://usyiyi.github.io/nlp-py-2e-zh

    • 推薦一個liuhuanyong大佬整理的nlp全面知識體系:?

      https://liuhuanyong.github.io

    1.使用場景 (百度公開課)

    第一部分 入門介紹

    • 1.)?自然語言處理入門介紹

    第二部分 機器翻譯

    • 2.)?機器翻譯

    第三部分 篇章分析

    • 3.1.)?篇章分析-內容概述

    • 3.2.)?篇章分析-內容標簽

    • 3.3.)?篇章分析-情感分析

    • 3.4.)?篇章分析-自動摘要

    第四部分 UNIT-語言理解與交互技術

    • 4.)?UNIT-語言理解與交互技術

    應用領域

    中文分詞:

    • 構建DAG圖

    • 動態規劃查找,綜合正反向(正向加權反向輸出)求得DAG最大概率路徑

    • 使用了SBME語料訓練了一套 HMM + Viterbi 模型,解決未登錄詞問題

    1.文本分類(Text Classification)

    文本分類是指標記句子或文檔,例如電子郵件垃圾郵件分類和情感分析。

    下面是一些很好的初學者文本分類數據集。

  • 路透社Newswire主題分類(路透社-21578)。1987年路透社出現的一系列新聞文件,按類別編制索引。另見RCV1,RCV2和TRC2。

  • IMDB電影評論情感分類(斯坦福)。來自網站imdb.com的一系列電影評論及其積極或消極的情緒。

  • 新聞組電影評論情感分類(康奈爾)。來自網站imdb.com的一系列電影評論及其積極或消極的情緒。

  • 有關更多信息,請參閱帖子:單標簽文本分類的數據集。

    情感分析

    比賽地址:?

    https://www.kaggle.com/c/word2vec-nlp-tutorial

    • 方案一(0.86):WordCount + 樸素 Bayes

    • 方案二(0.94):LDA + 分類模型(knn/決策樹/邏輯回歸/svm/xgboost/隨機森林)

      • a) 決策樹效果不是很好,這種連續特征不太適合的

      • b) 通過參數調整 200 個topic,信息量保存效果較優(計算主題)

    • 方案三(0.72):word2vec + CNN

      • 說實話:沒有一個好的機器,是調不出來一個好的結果 (: 逃

    通過AUC 來評估模型的效果

    2.語言模型(Language Modeling)

    語言建模涉及開發一種統計模型,用于預測句子中的下一個單詞或一個單詞中的下一個單詞。它是語音識別和機器翻譯等任務中的前置任務。

    它是語音識別和機器翻譯等任務中的前置任務。

    下面是一些很好的初學者語言建模數據集。

  • 古騰堡項目,一系列免費書籍,可以用純文本檢索各種語言。

  • 還有更多正式的語料庫得到了很好的研究; 例如:布朗大學現代美國英語標準語料庫。大量英語單詞樣本。谷歌10億字語料庫。

  • 新詞發現

    • 中文分詞新詞發現

    • python3利用互信息和左右信息熵的中文分詞新詞發現

    • https://github.com/zhanzecheng/Chinese_segment_augment

    句子相似度識別

    • 項目地址:?https://www.kaggle.com/c/quora-question-pairs

    • 解決方案: word2vec + Bi-GRU

    文本糾錯

    • bi-gram + levenshtein

    3.圖像字幕(Image Captioning)

    mage字幕是為給定圖像生成文本描述的任務。

    下面是一些很好的初學者圖像字幕數據集。

  • 上下文中的公共對象(COCO)。包含超過12萬張帶描述的圖像的集合

  • Flickr 8K。從flickr.com獲取的8千個描述圖像的集合。

  • Flickr 30K。從flickr.com獲取的3萬個描述圖像的集合。欲了解更多,請看帖子:

  • 探索圖像字幕數據集,2016年

    4.機器翻譯(Machine Translation)

    機器翻譯是將文本從一種語言翻譯成另一種語言的任務。

    下面是一些很好的初學者機器翻譯數據集。

  • 加拿大第36屆議會的協調國會議員。成對的英語和法語句子。

  • 歐洲議會訴訟平行語料庫1996-2011。句子對一套歐洲語言。有大量標準數據集用于年度機器翻譯挑戰; 看到:

  • 統計機器翻譯

    機器翻譯

    • Encoder + Decoder(Attention)

    • 參考案例:

    • http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

    5.問答系統(Question Answering)

    問答是一項任務,其中提供了一個句子或文本樣本,從中提出問題并且必須回答問題。

    下面是一些很好的初學者問題回答數據集。

  • 斯坦福問題回答數據集(SQuAD)。回答有關維基百科文章的問題。

  • Deepmind問題回答語料庫。從每日郵報回答有關新聞文章的問題。

  • 亞馬遜問答數據。回答有關亞馬遜產品的問題。有關更多信息,請參閱帖子:

  • 數據集:我如何獲得問答網站的語料庫,如Quora或Yahoo Answers或Stack Overflow來分析答案質量?

    6.語音識別(Speech Recognition)

    語音識別是將口語的音頻轉換為人類可讀文本的任務。

    下面是一些很好的初學者語音識別數據集。

  • TIMIT聲學 - 語音連續語音語料庫。不是免費的,但因其廣泛使用而上市。口語美國英語和相關的轉錄。

  • VoxForge。用于構建用于語音識別的開源數據庫的項目。

  • LibriSpeech ASR語料庫。從LibriVox收集的大量英語有聲讀物。

  • 7.自動文摘(Document Summarization)

    文檔摘要是創建較大文檔的簡短有意義描述的任務。

    下面是一些很好的初學者文檔摘要數據集。

  • 法律案例報告數據集。收集了4000份法律案件及其摘要。

  • TIPSTER文本摘要評估會議語料庫。收集了近200份文件及其摘要。

  • 英語新聞文本的AQUAINT語料庫。不是免費的,而是廣泛使用的。新聞文章的語料庫。欲了解更多信息:

  • 文檔理解會議(DUC)任務。在哪里可以找到用于文本摘要的良好數據集?

    命名實體識別

    • Bi-LSTM CRF

    • 參考案例:?

      http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html

    • CRF推薦文檔:?

      https://www.jianshu.com/p/55755fc649b1

    文本摘要

    • 抽取式

    • word2vec + textrank

    • word2vec推薦文檔:?

      https://www.zhihu.com/question/44832436/answer/266068967

    • textrank推薦文檔:?

      https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

    Graph圖計算【慢慢更新】

    • 數據集:?data/nlp/graph

    • 學習資料: spark graphX實戰.pdf 【文件太大不方便提供,自己百度】

    進一步閱讀

    如果您希望更深入,本節提供了其他數據集列表。

  • 維基百科研究中使用的文本數據集

  • 數據集:計算語言學家和自然語言處理研究人員使用的主要文本語料庫是什么?

  • 斯坦福統計自然語言處理語料庫

  • 按字母順序排列的NLP數據集列表

  • 該機構NLTK

  • 在DL4J上打開深度學習數據

  • NLP數據集

  • 國內開放數據集:?

    https://bosonnlp.com/dev/resource

    原文地址

    https://github.com/apachecn/AiLearning

    注意:需要直接打開網址或者“閱讀原文”才能打開文章里的鏈接

  • 請關注和分享↓↓↓?

    本站的知識星球(黃博的機器學習圈子)ID:92416895

    目前在機器學習方向的知識星球排名第一

    往期精彩回顧

    • 良心推薦:機器學習入門資料匯總及學習建議(2018版)

    • 黃海廣博士的github鏡像下載(機器學習及深度學習資源)

    • 吳恩達老師的機器學習和深度學習課程筆記打印版

    • 機器學習小抄-(像背托福單詞一樣理解機器學習)

    • 首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書

    • 機器學習的數學基礎

    • 機器學習必備寶典-《統計學習方法》的python代碼實現、電子書及課件

    • 吐血推薦收藏的學位論文排版教程(完整版)

    • Python環境的安裝(Anaconda+Jupyter notebook+Pycharm)

    • Python代碼寫得丑怎么辦?推薦幾個神器拯救你

    總結

    以上是生活随笔為你收集整理的推荐ApacheCN开源的一个机器学习路线图的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。