日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

NLPCC:预训练在小米的推理优化落地

發(fā)布時(shí)間:2025/4/5 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLPCC:预训练在小米的推理优化落地 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

本文主要分享小米AI實(shí)驗(yàn)室NLP團(tuán)隊(duì)NLPCC輕量級(jí)語(yǔ)言模型比賽上的經(jīng)驗(yàn)。此次分享的目的是幫助大家快速進(jìn)入比賽,以及了解工業(yè)界中使用BERT之類(lèi)的大型預(yù)訓(xùn)練模型時(shí)進(jìn)行推理的相關(guān)優(yōu)化手段。

01背景介紹

首先和大家說(shuō)一下比賽的背景和預(yù)訓(xùn)練模型中存在的問(wèn)題。

1. NLP中的預(yù)訓(xùn)練

隨著B(niǎo)ERT的推出和發(fā)展,預(yù)訓(xùn)練模型成為目前工業(yè)界和比賽使用最廣泛的模型。目前在各大NLP任務(wù)SOTA榜單上排前幾名都是大型的預(yù)訓(xùn)練模型,比如原生BERT或者它的一些變體。

預(yù)訓(xùn)練模型的應(yīng)用分為兩個(gè)階段,先進(jìn)行預(yù)訓(xùn)練階段 ( pre-training ),然后進(jìn)行微調(diào)階段 ( fine-tuning )。預(yù)訓(xùn)練階段利用大規(guī)模的無(wú)監(jiān)督預(yù)料,通常大于100g的量級(jí),加上特定的無(wú)監(jiān)督任務(wù)進(jìn)行訓(xùn)練。用來(lái)預(yù)訓(xùn)練的任務(wù)有,經(jīng)典的NSP ( next sentence predict )、MLM ( masked language model )、以及一些變體,如阿里發(fā)布的Structural language model。另外在預(yù)訓(xùn)練階段時(shí),embedding層的使用方式也有很多,比如NEZHA以及XLNET使用的相對(duì)位置編碼。Pretrain階段一般比較消耗計(jì)算資源,一般都是在大量的GPU集群上進(jìn)行運(yùn)算,并且計(jì)算很長(zhǎng)的時(shí)間才能得到一個(gè)比較好的結(jié)果。

相對(duì)于復(fù)雜預(yù)訓(xùn)練任務(wù),下游的微調(diào)任務(wù)就比較簡(jiǎn)單了。在預(yù)訓(xùn)練好的模型的基礎(chǔ)上,只需要添加較少的網(wǎng)絡(luò)參數(shù),并在在下游有監(jiān)督數(shù)據(jù)上進(jìn)行少量的訓(xùn)練,就可以得到很不錯(cuò)的成果,這也是預(yù)訓(xùn)練技術(shù)能夠被大量使用的基礎(chǔ)條件。

2. 效率問(wèn)題

總結(jié)

以上是生活随笔為你收集整理的NLPCC:预训练在小米的推理优化落地的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。