日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

NLP(自然语言处理) - Tricks Dataset 集合

發布時間:2023/12/4 综合教程 51 生活家
生活随笔 收集整理的這篇文章主要介紹了 NLP(自然语言处理) - Tricks Dataset 集合 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

這是一篇NLP tricks的集合,在自然語言處理的模型中,有很多優化模型效果的技巧,其中很多技巧已經稱為默認設置,不再文章中額外說明。

技巧列表

  • 前言
  • Weight Average
  • Adaptive Embedding
  • Variational Dropout
  • Sampled Softmax
  • GLUE

Weight Average

Weight Average是一種自動集成方式,指的是在最終進行模型測試前,取前面每個checkpoint模型權重的平均值作為最終的測試模型。

Adaptive Embedding

Adaptive embedding 是一種自適應詞頻的詞嵌構建方法,通常用于詞表較大的數據集(PTB這種小集就不用了)。這種方法的出發點是詞頻越高的詞往往越容易出現一詞多義的現象,同時其本身的含義也越豐富。
同時伴隨的一般是一組Cut-off值,這個值將詞頻分為了幾個區間,比如[300000, 60000, 2000]。這時,在不同區間的詞有不一樣大小的詞嵌矩陣。對任意一個詞進行詞嵌操作,會首先根據不同詞頻映射為不同大小的詞嵌向量,再通過線性映射,統一投影為規定維度大小。如下圖所示:

高頻詞Thelittle通過高頻詞表轉化為維度為d的詞向量,而低頻詞dog轉化為維度為dkn?1\fracozvdkddzhkzd{k^{n-1}}kn?1d?的詞向量,而后再將這些向量映射到d維的向量作為輸入的token。

Variational Dropout

依據AWD-LSTM給出的解釋,Variational Dropout不同于標準的Dropout,在每層,每次傳遞信息時使用Dropout都會隨機生成一個Dropout mask。Variational Dropout會在第一次執行時就確定一個固定的Dropout mask。這個mask只會在下一個mini-batch時改變。

Sampled Softmax

當我們在做語言模型或其他NLP任務時,每一步的輸出很有可能是一個詞。一般來說,我們輸出這個詞的策略是在最后一層輸出一個詞表大小的向量,然后使用softmax函數對這個向量的每一個元素打分,根據打分(或概率)的結果輸出這個詞。而這樣做有一個很大的弊端,就是當詞表非常大的時候,我們每一次進行輸出都要遍歷一遍詞表。
Bengio(原文章)提出我們可以針對每個mini-batch匯總一次詞表,以減小每次輸出時遍歷造成的高額運算,這就是Sampled Softmax。

GLUE

GLUE全稱為General Language Understanding Evaluation,可以訪問其benchmark官網。 其中分為了多個任務,以下表格詳細說明:

Task name 中文翻譯 數據集說明 評估矩陣
CoLA
(The Corpus of Linguistic Acceptability)
評估數據集語法接受程度 單句的二分類問題, 判斷一個英文句子在語法上是不是可接受的 Matthew’s Corr
SST-2
(The Stanford Sentiment Treebank)
標準情感數據集 單句的二分類問題, 句子的來源于人們對一部電影的評價
判斷這個句子的情感傾向為 Positive/Negative
Accuracy
MRPC
(Microsoft Research Paraphrase Corpus)
微軟復述語料庫 句子對來源于對同一條新聞的評論
判斷這一對句子在語義上是否相同
F1/Accuracy
STS-B
(Semantic Textual Similarity Benchmark)
語義文本相似度數據 類似回歸問題,給出一對句子
使用1~5的評分評價兩者在語義上的相似程度
Pearson-Spearman Corr
QQP
(Quora Question Pairs)
Quara問題對 Quora 上的問題答案數據集, 目的是判斷兩個來自于Quora的問題句子在語義上是否是等價的 F1 / Accuracy
MNLI
(MultiNL - matched/mismached)
多自然語言句型/跨句型匹配 推斷兩個句子是意思相近, 矛盾, 還是無關 Accuracy
QNLI
(Question NLI)
自然語言問題推斷 二分類問題, 兩個句子是一個QA對
正樣本為Answer是對應Question的答案, 負樣本為不是
Accuracy
RTE
(Recognizing Textual Entailment)
文本蘊含識別 二分類問題, 判斷兩個句子是否意思相近, 但是數據量較少 Accuracy
WNLI
(Winograd NLI)
自然語言推理數據集 推斷兩個句子是意思相近, 矛盾, 還是無關 Accuracy

總結

以上是生活随笔為你收集整理的NLP(自然语言处理) - Tricks Dataset 集合的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 成人免费黄色大片 | 亚洲免费成人在线 | 黑丝啪啪| 91蜜桃网站 | 亚洲三区在线播放 | 久久人人看 | 免费a级大片 | 亚洲一区二区免费在线观看 | 熊出没之冬日乐翻天免费高清观看 | 欧美双性人妖o0 | av导航在线观看 | 色先锋资源网 | 一级片黑人| 国产女人精品 | 欧美人与禽zozzo性之恋的特点 | 9色在线| 日日噜噜噜噜久久久精品毛片 | 国产精品国产一区 | 欧美三级不卡 | 亚洲另类图区 | 欧美日韩亚洲精品一区二区 | www三级| 少妇被躁爽到高潮 | 成人在线观看av | 天天碰视频| 国产h视频在线 | 蜜桃av在线 | 少妇一级片| 一级 黄 色 片69 | 一区二区三区精品国产 | 制服丝袜快播 | 国产麻豆一精品一av一免费 | av青草 | 一起草在线视频 | 日韩精品在线观看一区二区三区 | 人妻丰满熟妇av无码区免 | 欧美激情黄色 | 亚洲性视频在线 | 国语av在线| www.射.com| 国产精品一区二区免费 | 国产男女猛烈无遮挡免费观看网站 | 一级特级毛片 | 香蕉视频在线观看免费 | 色午夜| 精品黑人一区二区三区观看时间 | 日韩美女视频在线观看 | 国产成人精品二区三区亚瑟 | 在线观看无码精品 | 真实偷拍激情啪啪对白 | 97精品| 在线一区av| 精产国品一区二区 | 麻豆美女视频 | 亚洲性免费| 99精品久久久久久 | 中文无码熟妇人妻av在线 | 按摩害羞主妇中文字幕 | 国产高清一区在线 | 黑森林av凹凸导航 | 色无极影院亚洲 | 日韩精品一区二区三区中文在线 | 久久九| 热久久免费视频 | 啪啪啪毛片 | 日本护士╳╳╳hd少妇 | 免费国产小视频 | 国产精品入口66mio | 我的公把我弄高潮了视频 | 成人黄色在线网站 | 一区二区三区四区五区在线视频 | 亚洲AV无码精品色 | 最近中文字幕 | 国产女人高潮的av毛片 | 日韩高清在线一区 | 国产精品福利在线播放 | 免费国产网站 | 日本特黄一级大片 | 欧美做受 | 国产成人av一区二区三区在线观看 | 69免费 | 农村偷人一级超爽毛片 | 中文字幕一区二区三区乱码 | 欧美三级少妇高潮 | av观看在线免费 | 日本公与丰满熄 | 国产欧美日韩综合精品 | 欧美多p | 国产乱子伦精品视频 | 在线观看免费国产视频 | 天天综合天天添夜夜添狠狠添 | 激情综合五月天 | 电影91久久久 | 欧美大片大全 | 久久久久夜 | 久久视频在线看 | 91黄色在线视频 | 人人爽视频 | 欧美激情自拍 |