當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

NLP(自然语言处理) - Tricks Dataset 集合

發(fā)布時間：2023/12/4 综合教程 81 生活家

生活随笔收集整理的這篇文章主要介紹了 NLP(自然语言处理) - Tricks Dataset 集合小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

這是一篇NLP tricks的集合，在自然語言處理的模型中，有很多優(yōu)化模型效果的技巧，其中很多技巧已經(jīng)稱為默認(rèn)設(shè)置，不再文章中額外說明。

技巧列表

前言
Weight Average
Adaptive Embedding
Variational Dropout
Sampled Softmax
GLUE

Weight Average

Weight Average是一種自動集成方式，指的是在最終進(jìn)行模型測試前，取前面每個checkpoint模型權(quán)重的平均值作為最終的測試模型。

Adaptive Embedding

Adaptive embedding 是一種自適應(yīng)詞頻的詞嵌構(gòu)建方法，通常用于詞表較大的數(shù)據(jù)集（PTB這種小集就不用了）。這種方法的出發(fā)點是詞頻越高的詞往往越容易出現(xiàn)一詞多義的現(xiàn)象，同時其本身的含義也越豐富。
同時伴隨的一般是一組Cut-off值，這個值將詞頻分為了幾個區(qū)間，比如[300000, 60000, 2000]。這時，在不同區(qū)間的詞有不一樣大小的詞嵌矩陣。對任意一個詞進(jìn)行詞嵌操作，會首先根據(jù)不同詞頻映射為不同大小的詞嵌向量，再通過線性映射，統(tǒng)一投影為規(guī)定維度大小。如下圖所示：

高頻詞The和little通過高頻詞表轉(zhuǎn)化為維度為d的詞向量，而低頻詞dog轉(zhuǎn)化為維度為dkn?1\fracozvdkddzhkzd{k^{n-1}}kn?1d?的詞向量，而后再將這些向量映射到d維的向量作為輸入的token。

Variational Dropout

依據(jù)AWD-LSTM給出的解釋，Variational Dropout不同于標(biāo)準(zhǔn)的Dropout，在每層，每次傳遞信息時使用Dropout都會隨機(jī)生成一個Dropout mask。Variational Dropout會在第一次執(zhí)行時就確定一個固定的Dropout mask。這個mask只會在下一個mini-batch時改變。

Sampled Softmax

當(dāng)我們在做語言模型或其他NLP任務(wù)時，每一步的輸出很有可能是一個詞。一般來說，我們輸出這個詞的策略是在最后一層輸出一個詞表大小的向量，然后使用softmax函數(shù)對這個向量的每一個元素打分，根據(jù)打分（或概率）的結(jié)果輸出這個詞。而這樣做有一個很大的弊端，就是當(dāng)詞表非常大的時候，我們每一次進(jìn)行輸出都要遍歷一遍詞表。
Bengio（原文章）提出我們可以針對每個mini-batch匯總一次詞表，以減小每次輸出時遍歷造成的高額運算，這就是Sampled Softmax。

GLUE

GLUE全稱為General Language Understanding Evaluation，可以訪問其benchmark官網(wǎng)。其中分為了多個任務(wù)，以下表格詳細(xì)說明：

Task name	中文翻譯	數(shù)據(jù)集說明	評估矩陣
CoLA (The Corpus of Linguistic Acceptability)	評估數(shù)據(jù)集語法接受程度	單句的二分類問題, 判斷一個英文句子在語法上是不是可接受的	Matthew’s Corr
SST-2 (The Stanford Sentiment Treebank)	標(biāo)準(zhǔn)情感數(shù)據(jù)集	單句的二分類問題, 句子的來源于人們對一部電影的評價判斷這個句子的情感傾向為 Positive/Negative	Accuracy
MRPC (Microsoft Research Paraphrase Corpus)	微軟復(fù)述語料庫	句子對來源于對同一條新聞的評論判斷這一對句子在語義上是否相同	F1/Accuracy
STS-B (Semantic Textual Similarity Benchmark)	語義文本相似度數(shù)據(jù)	類似回歸問題,給出一對句子使用1~5的評分評價兩者在語義上的相似程度	Pearson-Spearman Corr
QQP (Quora Question Pairs)	Quara問題對	Quora 上的問題答案數(shù)據(jù)集, 目的是判斷兩個來自于Quora的問題句子在語義上是否是等價的	F1 / Accuracy
MNLI (MultiNL - matched/mismached)	多自然語言句型/跨句型匹配	推斷兩個句子是意思相近, 矛盾, 還是無關(guān)	Accuracy
QNLI (Question NLI)	自然語言問題推斷	二分類問題, 兩個句子是一個QA對正樣本為Answer是對應(yīng)Question的答案, 負(fù)樣本為不是	Accuracy
RTE (Recognizing Textual Entailment)	文本蘊含識別	二分類問題, 判斷兩個句子是否意思相近, 但是數(shù)據(jù)量較少	Accuracy
WNLI (Winograd NLI)	自然語言推理數(shù)據(jù)集	推斷兩個句子是意思相近, 矛盾, 還是無關(guān)	Accuracy

總結(jié)

以上是生活随笔為你收集整理的NLP(自然语言处理) - Tricks Dataset 集合的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ImportError: No modu
下一篇：【扫盲】小白基础-SDN详解