當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021年自然语言处理 (NLP) 算法学习路线！

發(fā)布時間：2024/10/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021年自然语言处理 (NLP) 算法学习路线！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在過去幾年時間里，NLP領(lǐng)域取得了飛速的發(fā)展，這也推動了NLP在產(chǎn)業(yè)中的持續(xù)落地，以及行業(yè)對相關(guān)人才的需求。?

但這里我們要面對的現(xiàn)實是，行業(yè)上90%以上的NLP工程師是“不合格的”。在過去幾個月時間里，我們其實也面試過數(shù)百名已經(jīng)在從事NLP的工程師，但明顯發(fā)現(xiàn)絕大部分對技術(shù)深度和寬度的理解是比較薄弱的，大多還是只停留在調(diào)用現(xiàn)有工具比如BERT、XLNet等階段。?

我們一直堅信AI人才的最大壁壘是創(chuàng)造力，能夠持續(xù)為變化的業(yè)務(wù)帶來更多的價值。但創(chuàng)造的前提一定是對一個領(lǐng)域的深度理解和廣度認知，以及不斷對一個事物的追問比如不斷問自己為什么。

?對于二分類，我應(yīng)該選擇交叉熵還是Hinge Loss？BERT模型太大了，而且效果發(fā)現(xiàn)不那么好比如next sentence prediction, 能不能改一改？?為什么CRF要不HMM在不少NLP問題上效果更好？?文本生成效果不太好，如何改造Beam Search讓效果更好呢？訓(xùn)練主題模型效率太慢了，如果改造吉布斯采樣在分布式環(huán)境下運行呢？?數(shù)據(jù)樣本里的標(biāo)簽中有一些依賴關(guān)系，能不能把這些信息也加入到目標(biāo)函數(shù)里呢？

另外，有必要保持對前沿技術(shù)的敏感性，但事實上，很多人還是由于各種原因很難做到這一點。基于上述的目的，貪心學(xué)院一直堅持跑在技術(shù)的最前線，幫助大家不斷地成長。貪心學(xué)院這次重磅推出了《自然語言處理高階研修》。

01 課程大綱

課程內(nèi)容上做了大幅度的更新，課程覆蓋了從預(yù)訓(xùn)練模型、對話系統(tǒng)、信息抽取、知識圖譜、文本生成所有必要的技術(shù)應(yīng)用和學(xué)術(shù)前沿。課程采用全程直播授課模式。帶你全面掌握自然語言處理技術(shù)，能夠靈活應(yīng)用在自己的工作中；深入理解前沿的技術(shù)，為后續(xù)的科研打下基礎(chǔ)；通過完成一系列課題，有可能成為一個創(chuàng)業(yè)項目或者轉(zhuǎn)換成你的科研論文。

第一章：預(yù)訓(xùn)練模型基礎(chǔ)

| 預(yù)訓(xùn)練模型基礎(chǔ)、語言模型回顧
| N-gram、Neural語言模型回顧
| 預(yù)訓(xùn)練方法的發(fā)展歷程
| 預(yù)訓(xùn)練和transfer learning
| Pre-BERT時代的transfer learning
| word2vec，transfer learning in NER
| Post-BERT時代的transfer learning
| Pre-train fine-tune范式

第二章：ELmo與BERT

| Elmo、Transformer、BERT
| 更強的BERT：RoBERTa
| 基于Elmo和BERT的NLP下游任務(wù)
| Huggingface Transformers庫介紹?
| 構(gòu)建基于BERT的情感分類器

?第三章: GPT系列模型

| GPT、GPT2、GPT3?
| 基于GPT的fine-tuning
| 基于GPT的Zero-shot learning
| 基于GPT模型的文本生成實戰(zhàn)
| Top-k + Top-p 采樣
| 基于給定Prompt生成續(xù)寫文本

第四章: Transformer-XL與XLNet

| 處理長文本?
| Transformer-XL
| 相對位置編碼
| Permutation Language Model
| Two-stream attention
| XLNet
| 更進階的預(yù)訓(xùn)練任務(wù)：MPNet

第五章：其他前沿的預(yù)訓(xùn)練模型

| 考慮知識的預(yù)訓(xùn)練模型：ERINE
| 對話預(yù)訓(xùn)練模型：PLATO2, DialoGPT
| SpanBERT
| MASS，UniLM
| BART，T5
| 實現(xiàn)基于T5的文本分類模型

第六章: 低計算量下模型微調(diào)和對比學(xué)習(xí)

| 低計算量情況下的預(yù)訓(xùn)練模型微調(diào)
| Adapter-based fine-tuning，
| Prompt-search，P-tuning?
| 基于對比學(xué)習(xí)的預(yù)訓(xùn)練
| 對比學(xué)習(xí)目標(biāo)：Triplet Loss，InfoNCE Loss
| 對比學(xué)習(xí)在NLP中的前沿應(yīng)用：SimCSE

第七章：多模態(tài)預(yù)訓(xùn)練和挑戰(zhàn)

| 多模態(tài)預(yù)訓(xùn)練模型
| 多模態(tài)匹配模型：CLIP，文瀾
| VQ-VAE
| 多模態(tài)生成模型：DALLE，CogView
| 預(yù)訓(xùn)練模型面臨的挑戰(zhàn)及其前沿進展
| 模型并行帶來的挑戰(zhàn)
| 對于Transformer的改進：Reformer

第一章：對話系統(tǒng)綜述

| 對話系統(tǒng)發(fā)展歷程
| 對話系統(tǒng)的主要應(yīng)用場景
| 常見的對話系統(tǒng)類別以及采用的技術(shù)
| 對話系統(tǒng)前沿的技術(shù)介紹
| 基礎(chǔ)：語言模型
| 基礎(chǔ)：基于神經(jīng)網(wǎng)絡(luò)的語言模型

第二章：對話系統(tǒng)綜述

| 任務(wù)型對話系統(tǒng)的總體架構(gòu)
| 案例：訂票系統(tǒng)的搭建
| 自然語言理解模塊簡介
| 對話管理模塊技術(shù)
| 對話生成模型技術(shù)
| 基于神經(jīng)網(wǎng)絡(luò)的文本分類和序列標(biāo)注

第三章：自然語言處理理解模塊

| 自然語言理解模塊面臨的挑戰(zhàn)
| NLU模型中意圖和槽位的聯(lián)合識別
| 考慮長上下文的NLU
| NLU中的OOD檢測
| NLU模型的可擴展性和少樣本學(xué)習(xí)
| 少樣本學(xué)習(xí)方法介紹
| 孿生網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)、原型網(wǎng)絡(luò)

第四章：對話管理和對話生成

| 對話狀態(tài)追蹤
| 對話策略詳解
| POMDP技術(shù)
| 對話管理的最新研究進展
| 基于RL的對話管理
| 對話生成技術(shù)
| 端到端的對話系統(tǒng)
| 基于預(yù)訓(xùn)練模型的DST

第五章：閑聊對話系統(tǒng)

| 閑聊對話系統(tǒng)基礎(chǔ)技術(shù)
| 基于檢索的閑聊對話系統(tǒng)
| 基于生成的閑聊對話系統(tǒng)
| 融合檢索和生成的閑聊對話系統(tǒng)
| Protoype rewriting, Retrieval augmented generation
| 閑聊對話系統(tǒng)的主要應(yīng)用場景
| 閑聊對話系統(tǒng)技術(shù)所面臨的主要挑戰(zhàn)
| FAQ系統(tǒng)實戰(zhàn)，實現(xiàn)一個自己的FAQ系統(tǒng)
| 基于RNN/Transformer/BERT的文本匹配模型

第六章：對話系統(tǒng)進階

| 情感/共情對話系統(tǒng)
| 生成帶情緒的回復(fù)
| 個性化對話生成
| 生成符合特定個性人設(shè)的回復(fù)
| 風(fēng)格化對話生成
| 對話回復(fù)的多樣性
| Label Smoothing, Adaptive label smoothing
| Top-K Sampling, Nuclear Sampling
| Non-autoregressive 算法在生成模型中的應(yīng)用
| 基于Transformer的對話生成模型
| TransferTransfo

第七章：開源對話系統(tǒng)架構(gòu)RASA詳解

| RASA的主要架構(gòu)
| 基于RASA搭建自己的對話系統(tǒng)
| 多模態(tài)對話、VQA
| 考慮圖像模態(tài)的對話回復(fù)檢索和生成
| 基于預(yù)訓(xùn)練模型的對話系統(tǒng)
| 基于GPT模型的對話模型
| Meena，PLA

第一章：知識圖譜與圖數(shù)據(jù)模型

| 知識圖譜：搜索引擎，數(shù)據(jù)整合，AI
| 實體抽取、關(guān)系抽取、詞向量
| graph embedding
| 圖數(shù)據(jù)模型：RDF, Cyper
| 結(jié)構(gòu)化數(shù)據(jù)的關(guān)系抽取
| 介紹關(guān)系抽取的基本方法
| 介紹結(jié)構(gòu)化數(shù)據(jù)的信息過濾

第二章：知識圖譜的設(shè)計

| RDF和Property graph的設(shè)計
| 創(chuàng)建KG：數(shù)據(jù)處理、文本和圖像
| 推斷用到的基本方法
| Path detection
| Centrality and community Detection
| 圖結(jié)構(gòu)嵌入方法
| 重要性的基本方法：node，edge

第三章：關(guān)系抽取和預(yù)測

| Hand-built patterns
| Bootstrapping methods
| Supervised methods
| Distant supervision
| Unsupervised methods
| 實體識別的基本方法

第四章：低資源信息抽取和推斷

| Low-resource NER?
| Low-resource structured models
| Learning multi-lingual Embeddings
| Deepath?
| DIVA
| Generic Statistical Relational Entity Resolution in Knowledge Graphs?

第五章：結(jié)構(gòu)化預(yù)測模型

| Sequence labeling
| 結(jié)構(gòu)化數(shù)據(jù)類別：Dependency，constituency
| Stack LSTM
| Stack RNNS
| Tree-structure LSTM

第六章：圖挖掘的熱門應(yīng)用

| 基本圖概念
| Link Prediction
| Recommendation system
| Anomaly detection
| Gated Graph Sequence Neural Networks

第一章：Seq2Seq模型與機器翻譯

| Seq2seq 模型與機器翻譯任務(wù)
| 機器翻譯中未登錄詞UNK與subword
| 文本生成coverage
| length normalization
| 低資源語言生成
| 多任務(wù)學(xué)習(xí)
| Tearch Force Model

第二章：文本摘要生成（1）

| 摘要生成技術(shù)類別
| 生成式摘要生成技術(shù)
| 抽取式摘要生成技術(shù)
| 基于CNN的文本生成
| 基于RNN的文本生成

第三章：文本摘要生成（2）

| Pointer Network 及其應(yīng)用
| CopyNet 于工業(yè)界的落地
| Length Normalization?
| Coverage Normalization
| Text summarization 前沿研究

第四章：Creative Writing

| 可控性文本生成
| Story Telling 與預(yù)先訓(xùn)練GPT
| 詩詞，歌詞，藏頭詩等文本生成
| 創(chuàng)作性文本生成技巧

第五章：多模態(tài)文本生成

| ResNet?
| Inception 等預(yù)訓(xùn)練圖片特征抽取模型
| Image Caption 及其應(yīng)用
| Table2text
| 圖神經(jīng)網(wǎng)絡(luò)與文本生成

第六章：對抗式文本生成與NL2sql

| 對抗生成網(wǎng)絡(luò) GAN模型
| 強化學(xué)習(xí)基礎(chǔ)
| 基于 Policy Gradient 的強化學(xué)習(xí)
| SeqGAN
| NL2sql ：自然語言轉(zhuǎn)SQL

如果對課程感興趣，請聯(lián)系

添加課程顧問小姐姐微信

報名、課程咨詢

????????????

02?部分案例和項目

學(xué)員可以選擇每個模塊完成我們提供的固定項目（以個人為單位），或者以小組為單位完成一個開放式項目（capstone），當(dāng)然你也可以提出你自己的項目。從項目的立項、中期驗收到最終答辯，在這個過程中我們的導(dǎo)師團隊會給你建議、并輔助你完成課題，該課題最終很有可能成為你的創(chuàng)業(yè)項目或科研論文！

如果對課程感興趣，請聯(lián)系

添加課程顧問小姐姐微信

報名、課程咨詢

????????????

03直播授課，現(xiàn)場推導(dǎo)演示

區(qū)別于劣質(zhì)的PPT講解，導(dǎo)師全程現(xiàn)場推導(dǎo)，讓你在學(xué)習(xí)中有清晰的思路，深刻的理解算法模型背后推導(dǎo)的每個細節(jié)。更重要的是可以清晰地看到各種模型之間的關(guān)系！幫助你打通六脈！

▲源自：LDA模型講解

▲源自：Convex Optimization 講解

▲源自：Convergence Analysis 講解

04?科學(xué)的課程安排

采用直播的授課方式，每周3-4次直播教學(xué)，包含核心理論課、實戰(zhàn)課、復(fù)習(xí)鞏固課以及論文講解課。教學(xué)模式上也參考了美國頂級院校的教學(xué)體系。以下為其中一周的課程安排，供參考。?

02 項目講解&實戰(zhàn)幫助

訓(xùn)練營最終的目的是幫助學(xué)員完成項目，理解項目中包含核心知識技能，訓(xùn)練營中會花大量的時間幫助學(xué)員理解項目以及所涉及到的實戰(zhàn)講解。

▲節(jié)選往期部分課程安排

03 專業(yè)的論文解讀

作為AI工程師，閱讀論文能力是必須要的。在課程里，我們每1-2周會安排一篇經(jīng)典英文文章供學(xué)員閱讀，之后由老師幫助解讀。? ?

????

▲僅供參考

04 代碼解讀&實戰(zhàn)

對于核心的模型如BERT，XLNet都會精心安排代碼解讀和實戰(zhàn)課，幫助學(xué)員深入理解其細節(jié)并有能力去實現(xiàn)。

▲BERT模型代碼實戰(zhàn)講解

05 行業(yè)案例分享

訓(xùn)練營過程中會邀請合作的專家來分享行業(yè)案例以及技術(shù)解決方案，如知識圖譜的搭建、保險領(lǐng)域的客服系統(tǒng)等。

▲專家分享

《Google YouTube 基于深度學(xué)習(xí)的視頻推薦》

嘉賓簡介：曾博士

計算機視覺，機器學(xué)習(xí)領(lǐng)域?qū)＜?/p>

先后在CVPR，ACMMM，TPAMI，SCI 期刊，EI 會議等發(fā)表超過30篇論文

06 日常社群答疑

為了幫助解決學(xué)員遇到的問題，專業(yè)助教會提供全天社群答疑服務(wù)。我們的助教均來來自于一線AI公司和國內(nèi)外名校，扎實的理論和工業(yè)界應(yīng)用也是我們選拔助教老師的重要標(biāo)準(zhǔn)，拒絕空談理論。

▲社群內(nèi)老師專業(yè)的解答

07 日常作業(yè)&講解

為了鞏固對一些核心知識點，學(xué)員除了大項目，也需要完成日常的小作業(yè)。之后助教會給出詳細的解答。

▲課程學(xué)習(xí)中的小作業(yè)

適合什么樣的人來參加吶？

從事AI行業(yè)多年，但技術(shù)上感覺不夠深入，遇到了瓶頸；?
停留在使用模型/工具上，很難基于業(yè)務(wù)場景來提出新的模型；?
對于機器學(xué)習(xí)背后的優(yōu)化理論、前沿的技術(shù)不夠深入；
計劃從事尖端的科研、研究工作、申請AI領(lǐng)域研究生、博士生；?
打算進入頂尖的AI公司如Google，Facebook，Amazon，阿里等；
讀ICML，IJCAI等會議文章比較吃力，似懂非懂，無法把每個細節(jié)理解透。

05?報名須知

1、本課程為收費教學(xué)。

2、本期招收學(xué)員名額有限。

3、品質(zhì)保障！學(xué)習(xí)不滿意，可在開課后7天內(nèi)，無條件全額退款。

4、學(xué)習(xí)本課程需要具備一定的機器學(xué)習(xí)基礎(chǔ)和Python編程基礎(chǔ)。

●●●

如果對課程感興趣，請聯(lián)系

添加課程顧問小姐姐微信

報名、課程咨詢

????????????

總結(jié)

以上是生活随笔為你收集整理的2021年自然语言处理 (NLP) 算法学习路线！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：男的姓谢女的姓凌怎么取网名
下一篇：今日arXiv精选 | 35篇顶会论文：

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

2021年自然语言处理 (NLP) 算法学习路线！

總結(jié)