日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

發(fā)布時(shí)間:2024/7/5 ChatGpt 96 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 背景及下載地址

為了促進(jìn)自然語言處理技術(shù)在金融科技領(lǐng)域的應(yīng)用和發(fā)展,熵簡科技 AI Lab 近期開源了基于 BERT 架構(gòu)的金融領(lǐng)域預(yù)訓(xùn)練語言模型 FinBERT 1.0。相對于Google發(fā)布的原生中文BERT、哈工大訊飛實(shí)驗(yàn)室開源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型,本次開源的 FinBERT 1.0 預(yù)訓(xùn)練模型在多個(gè)金融領(lǐng)域的下游任務(wù)中獲得了顯著的性能提升,在不加任何額外調(diào)整的情況下,F1-score 直接提升至少 2~5.7 個(gè)百分點(diǎn)。

對于深度學(xué)習(xí)時(shí)代的自然語言處理技術(shù),我們一般認(rèn)為存在兩大里程碑式的工作。第一個(gè)里程碑是在2013年逐漸興起,以 Word2Vec 為代表的的詞向量技術(shù);第二個(gè)里程碑則是在 2018 年以 BERT 為代表的深度預(yù)訓(xùn)練語言模型(Pre-trained Language Models)。一方面,以 BERT 為代表的深度預(yù)訓(xùn)練模型在包括文本分類、命名實(shí)體識(shí)別、問答等幾乎所有的子領(lǐng)域達(dá)到了新的 state of the art;另一方面,作為通用的預(yù)訓(xùn)練模型,BERT 的出現(xiàn)也顯著地減輕了NLP算法工程師在具體應(yīng)用中的繁重工作,由以往的魔改網(wǎng)絡(luò)轉(zhuǎn)變?yōu)?Fine tune BERT,即可快速獲得性能優(yōu)秀的基線模型。因此,深度預(yù)訓(xùn)練模型已成為各個(gè) AI 團(tuán)隊(duì)必備的基礎(chǔ)技術(shù)。

但是,當(dāng)前開源的各類中文領(lǐng)域的深度預(yù)訓(xùn)練模型,多是面向通用領(lǐng)域的應(yīng)用需求,在包括金融在內(nèi)的多個(gè)垂直領(lǐng)域均沒有看到相關(guān)開源模型。熵簡科技希望通過本次開源,推動(dòng) NLP技術(shù)在金融領(lǐng)域的應(yīng)用發(fā)展,歡迎學(xué)術(shù)界和工業(yè)界各位同仁下載使用,我們也將在時(shí)機(jī)合適的時(shí)候推出性能更好的 FinBERT 2.0 & 3.0。

項(xiàng)目地址:

https://github.com/valuesimplex/FinBERT


2 模型及預(yù)訓(xùn)練方式

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

熵簡 FinBERT 在網(wǎng)絡(luò)結(jié)構(gòu)上采用與 Google 發(fā)布的原生BERT 相同的架構(gòu),包含了 FinBERT-Base 和 FinBERT-Large 兩個(gè)版本,其中前者采用了 12 層 Transformer 結(jié)構(gòu),后者采用了 24 層 Transformer 結(jié)構(gòu)。考慮到在實(shí)際使用中的便利性和普遍性,本次發(fā)布的模型是 FinBERT-Base 版本,本文后面部分統(tǒng)一以 FinBERT 代指 FinBERT-Base。

2.2 訓(xùn)練語料

FinBERT 1.0 所采用的預(yù)訓(xùn)練語料主要包含三大類金融領(lǐng)域的語料,分別如下:

  • 金融財(cái)經(jīng)類新聞:從公開渠道采集的最近十年的金融財(cái)經(jīng)類新聞資訊,約 100 萬篇;

  • 研報(bào)/上市公司公告:從公開渠道收集的各類研報(bào)和公司公告,來自 500 多家境內(nèi)外研究機(jī)構(gòu),涉及 9000 家上市公司,包含 150 多種不同類型的研報(bào),共約 200 萬篇;

  • 金融類百科詞條:從 Wiki 等渠道收集的金融類中文百科詞條,約 100 萬條。

對于上述三類語料,在金融業(yè)務(wù)專家的指導(dǎo)下,我們對于各類語料的重要部分進(jìn)行篩選、預(yù)處理之后得到最終用于模型訓(xùn)練的語料,共包含 30億 Tokens,這一數(shù)量超過了原生中文BERT的訓(xùn)練規(guī)模。

2.3 預(yù)訓(xùn)練方式

FinBERT 預(yù)訓(xùn)練框架圖

如上圖所示,FinBERT 采用了兩大類預(yù)訓(xùn)練任務(wù),分別是字詞級(jí)別的預(yù)訓(xùn)練和任務(wù)級(jí)別的預(yù)訓(xùn)練。兩類預(yù)訓(xùn)練任務(wù)的細(xì)節(jié)詳述如下:

(1)字詞級(jí)別的預(yù)訓(xùn)練

字詞級(jí)別的預(yù)訓(xùn)練首先包含兩類子任務(wù),分別是 Finnacial Whole Word MASK(FWWM)、Next Sentence Prediction(NSP)。同時(shí),在訓(xùn)練中,為了節(jié)省資源,我們采用了與 Google 類似的兩階段預(yù)訓(xùn)練方式,第一階段預(yù)訓(xùn)練最大句子長度為128,第二階段預(yù)訓(xùn)練最大句子長度為 512。兩類任務(wù)具體形式如下:

Finnacial Whole Word MASK(FWWM)

Whole Word Masking (wwm),一般翻譯為全詞 Mask 或整詞 Mask,出是 Google 在2019年5月發(fā)布的一項(xiàng)升級(jí)版的BERT中,主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡單來說,原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)子詞,在生成訓(xùn)練樣本時(shí),這些被分開的子詞會(huì)隨機(jī)被mask。在全詞Mask中,如果一個(gè)完整的詞的部分WordPiece子詞被 Mask,則同屬該詞的其他部分也會(huì)被 Mask,即全詞Mask。

在谷歌原生的中文 BERT 中,輸入是以字為粒度進(jìn)行切分,沒有考慮到領(lǐng)域內(nèi)共現(xiàn)單詞或詞組之間的關(guān)系,從而無法學(xué)習(xí)到領(lǐng)域內(nèi)隱含的先驗(yàn)知識(shí),降低了模型的學(xué)習(xí)效果。我們將全詞Mask的方法應(yīng)用在金融領(lǐng)域語料預(yù)訓(xùn)練中,即對組成的同一個(gè)詞的漢字全部進(jìn)行Mask。首先我們從金融詞典、金融類學(xué)術(shù)文章中,通過自動(dòng)挖掘結(jié)合人工核驗(yàn)的方式,構(gòu)建出金融領(lǐng)域內(nèi)的詞典,約有10萬詞。然后抽取預(yù)語料和金融詞典中共現(xiàn)的單詞或詞組進(jìn)行全詞 Mask預(yù)訓(xùn)練,從而使模型學(xué)習(xí)到領(lǐng)域內(nèi)的先驗(yàn)知識(shí),如金融學(xué)概念、金融概念之間的相關(guān)性等,從而增強(qiáng)模型的學(xué)習(xí)效果。

Next Sentence Prediction(NSP)

為了訓(xùn)練一個(gè)理解句子間關(guān)系的模型,引入一個(gè)下一句預(yù)測任務(wù)。具體方式可參考BERT原始文獻(xiàn),Google的論文結(jié)果表明,這個(gè)簡單的任務(wù)對問答和自然語言推理任務(wù)十分有益,我們在預(yù)訓(xùn)練過程中也發(fā)現(xiàn)去掉NSP任務(wù)之后對模型效果略有降低,因此我們保留了NSP的預(yù)訓(xùn)練任務(wù),學(xué)習(xí)率采用 Google 官方推薦的 2e-5,warmup-steps 為 10000 steps。

(2)任務(wù)級(jí)別的預(yù)訓(xùn)練

為了讓模型更好地學(xué)習(xí)到語義層的金融領(lǐng)域知識(shí),更全面地學(xué)習(xí)到金融領(lǐng)域詞句的特征分布,我們同時(shí)引入了兩類有監(jiān)督學(xué)習(xí)任務(wù),分別是研報(bào)行業(yè)分類和財(cái)經(jīng)新聞的金融實(shí)體識(shí)別任務(wù),具體如下:

研報(bào)行業(yè)分類

對于公司點(diǎn)評(píng)、行業(yè)點(diǎn)評(píng)類的研報(bào),天然具有很好的行業(yè)屬性,因此我們利用這類研報(bào)自動(dòng)生成了大量帶有行業(yè)標(biāo)簽的語料。并據(jù)此構(gòu)建了行業(yè)分類的文檔級(jí)有監(jiān)督任務(wù),各行業(yè)類別語料在 5k~20k 之間,共計(jì)約40萬條文檔級(jí)語料。

財(cái)經(jīng)新聞的金融實(shí)體識(shí)別

與研報(bào)行業(yè)分類任務(wù)類似,我們利用已有的企業(yè)工商信息庫以及公開可查的上市公司董監(jiān)高信息,基于金融財(cái)經(jīng)新聞構(gòu)建了命名實(shí)體識(shí)別類的任務(wù)語料,共包含有 50 萬條的有監(jiān)督語料。

整體而言,為使 FinBERT 1.0 模型可以更充分學(xué)習(xí)到金融領(lǐng)域內(nèi)的語義知識(shí),我們在原生 BERT 模型預(yù)訓(xùn)練基礎(chǔ)上做了如下改進(jìn):

1、訓(xùn)練時(shí)間更長,訓(xùn)練過程更充分。為了取得更好的模型學(xué)習(xí)效果,我們延長模型第二階段預(yù)訓(xùn)練時(shí)間至與第一階段的tokens總量一致;

2、融合金融領(lǐng)域內(nèi)知識(shí)。引入詞組和語義級(jí)別任務(wù),并提取領(lǐng)域內(nèi)的專有名詞或詞組,采用全詞 Mask的掩蓋方式以及兩類有監(jiān)督任務(wù)進(jìn)行預(yù)訓(xùn)練;

3、為了更充分的利用預(yù)訓(xùn)練語料,采用類似Roberta模型的動(dòng)態(tài)掩蓋mask機(jī)制,將dupe-factor參數(shù)設(shè)置為10;

2.4 預(yù)訓(xùn)練加速

當(dāng)前,對于所提供的一整套軟硬件深度學(xué)習(xí)煉丹系統(tǒng),英偉達(dá)提供了豐富的技術(shù)支持和框架優(yōu)化,其中很重要的一點(diǎn)就是如何在訓(xùn)練中進(jìn)行加速。在 FinBERT 的訓(xùn)練中,我們主要采用了 Tensorflow XLA 和 Automatic Mixed Precision 這兩類技術(shù)進(jìn)行預(yù)訓(xùn)練加速。

Tensorflow XLA 進(jìn)行訓(xùn)練加速

XLA 全稱為加速線性運(yùn)算,如果在 Tensorflow 中開啟了 XLA,那么編譯器會(huì)對 Tensorflow 計(jì)算圖在執(zhí)行階段進(jìn)行優(yōu)化,通過生成特定的 GPU 內(nèi)核序列來節(jié)省計(jì)算過程對于硬件資源的消耗。一般而言,XLA 可以提供 40% 的加速。

Automatic Mixed Precision

一般深度學(xué)習(xí)模型訓(xùn)練過程采用單精度(Float 32)和雙精度(Double)數(shù)據(jù)類型,導(dǎo)致預(yù)訓(xùn)練模型對于機(jī)器顯存具有很高的要求。為了進(jìn)一步減少顯存開銷、加快FinBERT預(yù)訓(xùn)練和推理速度, 我們實(shí)驗(yàn)采用當(dāng)前最新的Tesla V100GPU進(jìn)行混合精度訓(xùn)練。混合精度訓(xùn)練是指FP32和FP16混合的訓(xùn)練方式,使用混合精度訓(xùn)練可以加速訓(xùn)練過程同時(shí)減少顯存開銷,兼顧FP32的穩(wěn)定性和FP16的速度。在保證模型準(zhǔn)確率不下降的情況下,降低模型的顯存占用約一半,提高模型的訓(xùn)練速度約 3 倍。


3 下游任務(wù)實(shí)驗(yàn)結(jié)果

為了對比基線效果,我們從熵簡科技實(shí)際業(yè)務(wù)中抽象出了四類典型的金融領(lǐng)域典型數(shù)據(jù)集,包括句子級(jí)和篇章級(jí)任務(wù)。在此基礎(chǔ)上,我們將 FinBERT 與 Google 原生中文 BERT、哈工大訊飛實(shí)驗(yàn)室開源的 BERT-wwm 和 RoBERTa-wwm-ext 這三類在中文領(lǐng)域應(yīng)用廣泛的模型進(jìn)行了下游任務(wù)的對比測試。在實(shí)驗(yàn)中,為了保持測試的公平性,我們沒有進(jìn)一步優(yōu)化最佳學(xué)習(xí)率,對于四個(gè)模型均直接使用了 BERT-wwm 的最佳學(xué)習(xí)率:2e-5。

所有實(shí)驗(yàn)結(jié)果均為五次實(shí)驗(yàn)測試結(jié)果的平均值,括號(hào)內(nèi)為五次測試結(jié)果的最大值,評(píng)價(jià)指標(biāo)為 F1-score。

3.1 實(shí)驗(yàn)一:金融短訊類型分類

(1)實(shí)驗(yàn)任務(wù)

此任務(wù)來自于熵簡科技信息流相關(guān)的產(chǎn)品,其核心任務(wù)是對金融類短文本按照文本內(nèi)容進(jìn)行類型分類,打上標(biāo)簽,從而方便用戶更及時(shí)、更精準(zhǔn)地觸達(dá)感興趣的內(nèi)容。我們對原任務(wù)進(jìn)行了簡化,從原始的 15 個(gè)類別中抽離出難度最大的 6 個(gè)類別進(jìn)行實(shí)驗(yàn)。

(2)數(shù)據(jù)集

該任務(wù)的數(shù)據(jù)集共包含 3000 條樣本,其中訓(xùn)練集數(shù)據(jù)約 1100 條,測試集數(shù)據(jù)約 1900條,各類別分布情況如下:

(3)實(shí)驗(yàn)結(jié)果

3.2 實(shí)驗(yàn)二:金融短訊行業(yè)分類

(1)實(shí)驗(yàn)任務(wù)

此任務(wù)核心任務(wù)是對金融類短文本按照文本內(nèi)容進(jìn)行行業(yè)分類,以中信一級(jí)行業(yè)分類作為分類基準(zhǔn),包括餐飲旅游、商貿(mào)零售、紡織服裝、農(nóng)林牧漁、建筑、石油石化、通信、計(jì)算機(jī)等 28 個(gè)行業(yè)類別,可以用在金融輿情監(jiān)控、研報(bào)/公告智能搜索等多個(gè)下游應(yīng)用中。

(2)數(shù)據(jù)集

該任務(wù)的數(shù)據(jù)集共包含 1200 條樣本,其中訓(xùn)練集數(shù)據(jù)約 400 條,測試集數(shù)據(jù)約 800條。訓(xùn)練集中的各類別數(shù)目在 5~15 條之間,屬于典型的小樣本任務(wù)。

各類別分布情況如下:

(3)實(shí)驗(yàn)結(jié)果

?

3.3 實(shí)驗(yàn)三:金融情緒分類

(1)實(shí)驗(yàn)任務(wù)

此任務(wù)來自于熵簡科技金融質(zhì)控類相關(guān)產(chǎn)品,其核心任務(wù)是針對金融事件或標(biāo)的的評(píng)述性文本按照文本內(nèi)容進(jìn)行金融情感分類,并用在后續(xù)的市場情緒觀察和個(gè)股相關(guān)性分析中。該任務(wù)共有 4個(gè)類別,對應(yīng)不同的情緒極性和強(qiáng)度。

(2)數(shù)據(jù)集

該任務(wù)的數(shù)據(jù)集共包含 2000 條樣本,其中訓(xùn)練集數(shù)據(jù)約 1300 條,測試集數(shù)據(jù)約 700條,各類別分布情況如下:

(3)實(shí)驗(yàn)結(jié)果

?

3.4 實(shí)驗(yàn)四:金融領(lǐng)域的命名實(shí)體識(shí)別

(1)實(shí)驗(yàn)任務(wù)

此任務(wù)來自于熵簡科技知識(shí)圖譜相關(guān)的產(chǎn)品,其核心任務(wù)是對金融類文本中出現(xiàn)的實(shí)體(公司或人名)進(jìn)行實(shí)體識(shí)別和提取,主要用在知識(shí)圖譜的實(shí)體提取和實(shí)體鏈接環(huán)節(jié)。

(2)數(shù)據(jù)集

數(shù)據(jù)集共包含 24000 條樣本,其中訓(xùn)練集數(shù)據(jù)共3000條,測試集數(shù)據(jù)共21000條。

(3)結(jié)果展示

?

3.5 總結(jié)

在本次基線測試中,我們以金融場景中所遇到的四類實(shí)際業(yè)務(wù)問題和數(shù)據(jù)入手進(jìn)行對比實(shí)驗(yàn),包括金融類短訊類型分類任務(wù)、金融文本行業(yè)分類、金融情緒分析任務(wù)以及金融類實(shí)體識(shí)別任務(wù)。對比 FinBERT 和 Google 原生中文BERT、 BERT-wwm、RoBERTa-wwm-ext 這三種通用領(lǐng)域的預(yù)訓(xùn)練模型可知,FinBERT 效果提升顯著,在 F1-score 上平均可以提升 2~5.7 個(gè)百分點(diǎn)。


4 結(jié)語

本文詳細(xì)介紹了 FinBERT 的開源背景、訓(xùn)練細(xì)節(jié)和四類對比實(shí)驗(yàn)結(jié)果,歡迎其他從相關(guān)領(lǐng)域的團(tuán)隊(duì)提供更多、更豐富的對比實(shí)驗(yàn)和應(yīng)用案例,讓我們共同推進(jìn)自然語言處理技術(shù)在金融領(lǐng)域的應(yīng)用和發(fā)展。接下來,熵簡 AI 團(tuán)隊(duì)會(huì)從預(yù)料規(guī)模、訓(xùn)練時(shí)間、預(yù)訓(xùn)練方式上進(jìn)行更多的創(chuàng)新和探索,以期發(fā)展出更懂金融領(lǐng)域的預(yù)訓(xùn)練模型,并在合適時(shí)機(jī)發(fā)布 FinBERT 2.0、FinBERT 3.0,敬請期待。

任何問題,歡迎與團(tuán)隊(duì)負(fù)責(zé)人聯(lián)系,郵箱:liyu@entropyreduce.com


參考文獻(xiàn)

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018). https://doi.org/arXiv:1811.03600v2 arXiv:1810.04805

[2] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 2019. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics

[3] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. 2019. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv:1904.05342.

[4] Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. Scibert: Pretrained language model for scientific text. In Proceedings ofEMNLP.

[5] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101, 2019.

[6] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT pre-training approach. arXiv preprint arXiv:1907.11692, 2019.

[7] Micikevicius, Paulius, et al. “Mixed precision training.” arXiv preprint arXiv:1710.03740 (2017).

[8] https://github.com/ymcui/Chinese-BERT-wwm/

[9] https://github.com/huggingface/transformers

?

?


?

OpenKG

開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。