當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

常见的nlp 自然语言处理模型

發(fā)布時(shí)間：2023/12/29 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了常见的nlp 自然语言处理模型小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近需要處理有關(guān)語言的模型，因此整理了一份語言處理相關(guān)的方法鏈接

LSA、PLSA
Language sense analyse, potential Language sense analyse
潛在語義分析–文本稀疏表示–>文本相似度度量、主題模型
https://blog.csdn.net/TiffanyRabbit/article/details/72650606

Word2vec(2013)
Word2Vec是Google在2013年開源的一款詞向量計(jì)算工具，它的特點(diǎn)是將所有的詞向量化，這樣詞與詞之間就可以定量的去度量他們之間的關(guān)系，挖掘詞之間的聯(lián)系
https://blog.csdn.net/asialee_bird/article/details/100124565

GLOVE(2014)
現(xiàn)有詞向量模型中，第一種是全局的詞-文本矩陣分解（LSA），該方法能有效收集每一個(gè)詞的統(tǒng)計(jì)信息，但他們卻不能捕捉到詞的上下文信息（語義的表達(dá)能力不夠）；第二種就是基于局部窗口信息（Word2Vec），這種方法雖然能在詞的語義上有更豐富的表達(dá)，但是他們卻不能很好的捕捉詞的全局統(tǒng)計(jì)信息。
GloVe詞向量模型融合了全局矩陣分解方法（Matrix Factorization）和局部文本框捕捉方法（word2vec），是一種用于獲得單詞矢量表示的無監(jiān)督學(xué)習(xí)算法。
https://blog.csdn.net/asialee_bird/article/details/100124565

DOC2VEC(2014)
Word2Vec表示的詞向量不僅考慮了詞之間的語義信息，還壓縮了維度。但是，有時(shí)候當(dāng)我們需要得到Sentence/Document的向量表示，雖然可以直接將Sentence/Document中所有詞的向量取均值作為Sentence/Document的向量表示，但是這樣會(huì)忽略單詞之間的排列順序?qū)渥踊蛭谋拘畔⒌挠绊憽?br /> Doc2vec是在Word2vec的基礎(chǔ)上做出的改進(jìn)，它不僅考慮了詞和詞之間的語義，也考慮了詞序。
https://blog.csdn.net/asialee_bird/article/details/100124565

Fastext(約2016)
Fasttext可以實(shí)現(xiàn)高效學(xué)習(xí)單詞表示和句子分類；Fasttext是一個(gè)快速文本分類算法，與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點(diǎn)。
Fasttext在保持高精度的情況下加快了訓(xùn)練速度和測(cè)試速度
Fasttext不需要預(yù)訓(xùn)練好的詞向量，Fasttext會(huì)自己訓(xùn)練詞向量
https://blog.csdn.net/asialee_bird/article/details/100124565

ELMO(2018)：
作者認(rèn)為好的詞表征模型應(yīng)該同時(shí)兼顧兩個(gè)問題：一是詞語用法在語義和語法上的復(fù)雜特點(diǎn)；二是隨著語言環(huán)境的改變，這些用法也應(yīng)該隨之改變。作者提出了deep contextualized word representation 方法來解決以上兩個(gè)問題。
這種算法的特點(diǎn)是：每一個(gè)詞語的表征都是整個(gè)輸入語句的函數(shù)。具體做法就是先在大語料上以language model為目標(biāo)訓(xùn)練出bidirectional LSTM模型，然后利用LSTM產(chǎn)生詞語的表征。ELMo故而得名(Embeddings from Language Models)。為了應(yīng)用在下游的NLP任務(wù)中，一般先利用下游任務(wù)的語料庫(kù)(注意這里忽略掉label)進(jìn)行l(wèi)anguage model的微調(diào),這種微調(diào)相當(dāng)于一種domain transfer; 然后才利用label的信息進(jìn)行supervised learning。
ELMo表征是“深”的，就是說它們是biLM的所有層的內(nèi)部表征的函數(shù)。這樣做的好處是能夠產(chǎn)生豐富的詞語表征。高層的LSTM的狀態(tài)可以捕捉詞語意義中和語境相關(guān)的那方面的特征(比如可以用來做語義的消歧)，而低層的LSTM可以找到語法方面的特征(比如可以做詞性標(biāo)注)。如果把它們結(jié)合在一起，在下游的NLP任務(wù)中會(huì)體現(xiàn)優(yōu)勢(shì)。
https://cloud.tencent.com/developer/article/1458629

Bert(2018)
BERT的全稱為Bidirectional Encoder Representation from Transformers，是一個(gè)預(yù)訓(xùn)練的語言表征模型。它強(qiáng)調(diào)了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個(gè)單向語言模型進(jìn)行淺層拼接的方法進(jìn)行預(yù)訓(xùn)練，而是采用新的masked language model（MLM），以致能生成深度的雙向語言表征。
https://blog.csdn.net/hufei_neo/article/details/99434690

Flair(2018)
Flair庫(kù)中包含了許多強(qiáng)大的功能，以下是最突出的一些方面：
· 它包括了最通用和最先進(jìn)的單詞嵌入方式，如GloVe，BERT，ELMo，字符嵌入等。憑借Flair API技術(shù)，使用起來非常容易。
· Flair的界面允許我們組合不同的單詞嵌入并嵌入文檔，顯著優(yōu)化了結(jié)果。
· 'Flair 嵌入’是Flair庫(kù)提供的簽名嵌入。它由上下文字符串嵌入提供支持
https://zhuanlan.zhihu.com/p/52747663

Ulmfit(2018)
Universal Language Model Fine-Tuning，用于實(shí)現(xiàn)像CV（計(jì)算機(jī)視覺）領(lǐng)域的遷移學(xué)習(xí)，并可以用于任意NLP任務(wù)
https://humboldt-wi.github.io/blog/research/information_systems_1819/group4_ulmfit/

ALBERT(2019)
ALBERT利用了參數(shù)共享、矩陣分解等技術(shù)大大減少了模型參數(shù)，用SOP（Sentence Order Prediction） Loss取代NSP（Next Sentence Prediction） Loss提升了下游任務(wù)的表現(xiàn)。但是ALBERT的層數(shù)并未減少，因此推理時(shí)間（Inference Time）還是沒有得到改進(jìn)。不過參數(shù)減少的確使得訓(xùn)練變快，同時(shí)ALBERT可以擴(kuò)展到比BERT更大的模型（ALBERT-xxlarge），因此能得到更好的表現(xiàn)
https://blog.csdn.net/renyuanfang/article/details/104249767
https://github.com/brightmart/albert_zh

GPT-2(2020)
GPT2的創(chuàng)新點(diǎn)在于驗(yàn)證了無監(jiān)督的語言建模能夠?qū)W習(xí)到有監(jiān)督任務(wù)所需的特征
https://github.com/huggingface/transformers/issues/1458
https://github.com/nshepperd/gpt-2

總結(jié)

以上是生活随笔為你收集整理的常见的nlp 自然语言处理模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：分享CFA考试必须杜绝的违规行为！
下一篇： Class文件结构介绍[访问标志,类索引