日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

常见的nlp 自然语言处理模型

發(fā)布時(shí)間:2023/12/29 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 常见的nlp 自然语言处理模型 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近需要處理有關(guān)語言的模型,因此整理了一份語言處理相關(guān)的方法鏈接

LSA、PLSA
Language sense analyse, potential Language sense analyse
潛在語義分析–文本稀疏表示–>文本相似度度量、主題模型
https://blog.csdn.net/TiffanyRabbit/article/details/72650606

Word2vec(2013)
Word2Vec是Google在2013年開源的一款詞向量計(jì)算工具,它的特點(diǎn)是將所有的詞向量化,這樣詞與詞之間就可以定量的去度量他們之間的關(guān)系,挖掘詞之間的聯(lián)系
https://blog.csdn.net/asialee_bird/article/details/100124565

GLOVE(2014)
現(xiàn)有詞向量模型中,第一種是全局的詞-文本矩陣分解(LSA),該方法能有效收集每一個(gè)詞的統(tǒng)計(jì)信息,但他們卻不能捕捉到詞的上下文信息(語義的表達(dá)能力不夠);第二種就是基于局部窗口信息(Word2Vec),這種方法雖然能在詞的語義上有更豐富的表達(dá),但是他們卻不能很好的捕捉詞的全局統(tǒng)計(jì)信息。
GloVe詞向量模型融合了全局矩陣分解方法(Matrix Factorization)和局部文本框捕捉方法(word2vec),是一種用于獲得單詞矢量表示的無監(jiān)督學(xué)習(xí)算法。
https://blog.csdn.net/asialee_bird/article/details/100124565

DOC2VEC(2014)
Word2Vec表示的詞向量不僅考慮了詞之間的語義信息,還壓縮了維度。但是,有時(shí)候當(dāng)我們需要得到Sentence/Document的向量表示,雖然可以直接將Sentence/Document中所有詞的向量取均值作為Sentence/Document的向量表示,但是這樣會(huì)忽略單詞之間的排列順序?qū)渥踊蛭谋拘畔⒌挠绊憽?br /> Doc2vec是在Word2vec的基礎(chǔ)上做出的改進(jìn),它不僅考慮了詞和詞之間的語義,也考慮了詞序。
https://blog.csdn.net/asialee_bird/article/details/100124565

Fastext(約2016)
Fasttext可以實(shí)現(xiàn)高效學(xué)習(xí)單詞表示和句子分類;Fasttext是一個(gè)快速文本分類算法,與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點(diǎn)。
Fasttext在保持高精度的情況下加快了訓(xùn)練速度和測(cè)試速度
Fasttext不需要預(yù)訓(xùn)練好的詞向量,Fasttext會(huì)自己訓(xùn)練詞向量
https://blog.csdn.net/asialee_bird/article/details/100124565

ELMO(2018):
作者認(rèn)為好的詞表征模型應(yīng)該同時(shí)兼顧兩個(gè)問題:一是詞語用法在語義和語法上的復(fù)雜特點(diǎn);二是隨著語言環(huán)境的改變,這些用法也應(yīng)該隨之改變。作者提出了deep contextualized word representation 方法來解決以上兩個(gè)問題。
這種算法的特點(diǎn)是:每一個(gè)詞語的表征都是整個(gè)輸入語句的函數(shù)。具體做法就是先在大語料上以language model為目標(biāo)訓(xùn)練出bidirectional LSTM模型,然后利用LSTM產(chǎn)生詞語的表征。ELMo故而得名(Embeddings from Language Models)。為了應(yīng)用在下游的NLP任務(wù)中,一般先利用下游任務(wù)的語料庫(kù)(注意這里忽略掉label)進(jìn)行l(wèi)anguage model的微調(diào),這種微調(diào)相當(dāng)于一種domain transfer; 然后才利用label的信息進(jìn)行supervised learning。
ELMo表征是“深”的,就是說它們是biLM的所有層的內(nèi)部表征的函數(shù)。這樣做的好處是能夠產(chǎn)生豐富的詞語表征。高層的LSTM的狀態(tài)可以捕捉詞語意義中和語境相關(guān)的那方面的特征(比如可以用來做語義的消歧),而低層的LSTM可以找到語法方面的特征(比如可以做詞性標(biāo)注)。如果把它們結(jié)合在一起,在下游的NLP任務(wù)中會(huì)體現(xiàn)優(yōu)勢(shì)。
https://cloud.tencent.com/developer/article/1458629

Bert(2018)
BERT的全稱為Bidirectional Encoder Representation from Transformers,是一個(gè)預(yù)訓(xùn)練的語言表征模型。它強(qiáng)調(diào)了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個(gè)單向語言模型進(jìn)行淺層拼接的方法進(jìn)行預(yù)訓(xùn)練,而是采用新的masked language model(MLM),以致能生成深度的雙向語言表征。
https://blog.csdn.net/hufei_neo/article/details/99434690

Flair(2018)
Flair庫(kù)中包含了許多強(qiáng)大的功能,以下是最突出的一些方面:
· 它包括了最通用和最先進(jìn)的單詞嵌入方式,如GloVe,BERT,ELMo,字符嵌入等。憑借Flair API技術(shù),使用起來非常容易。
· Flair的界面允許我們組合不同的單詞嵌入并嵌入文檔,顯著優(yōu)化了結(jié)果。
· 'Flair 嵌入’是Flair庫(kù)提供的簽名嵌入。它由上下文字符串嵌入提供支持
https://zhuanlan.zhihu.com/p/52747663

Ulmfit(2018)
Universal Language Model Fine-Tuning,用于實(shí)現(xiàn)像CV(計(jì)算機(jī)視覺)領(lǐng)域的遷移學(xué)習(xí),并可以用于任意NLP任務(wù)
https://humboldt-wi.github.io/blog/research/information_systems_1819/group4_ulmfit/

ALBERT(2019)
ALBERT利用了參數(shù)共享、矩陣分解等技術(shù)大大減少了模型參數(shù),用SOP(Sentence Order Prediction) Loss取代NSP(Next Sentence Prediction) Loss提升了下游任務(wù)的表現(xiàn)。但是ALBERT的層數(shù)并未減少,因此推理時(shí)間(Inference Time)還是沒有得到改進(jìn)。不過參數(shù)減少的確使得訓(xùn)練變快,同時(shí)ALBERT可以擴(kuò)展到比BERT更大的模型(ALBERT-xxlarge),因此能得到更好的表現(xiàn)
https://blog.csdn.net/renyuanfang/article/details/104249767
https://github.com/brightmart/albert_zh

GPT-2(2020)
GPT2的創(chuàng)新點(diǎn)在于驗(yàn)證了無監(jiān)督的語言建模能夠?qū)W習(xí)到有監(jiān)督任務(wù)所需的特征
https://github.com/huggingface/transformers/issues/1458
https://github.com/nshepperd/gpt-2

總結(jié)

以上是生活随笔為你收集整理的常见的nlp 自然语言处理模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。