腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用
今日,騰訊AI Lab 宣布開源大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)。該數(shù)據(jù)包含800多萬中文詞匯,相比現(xiàn)有的公開數(shù)據(jù),在覆蓋率、新鮮度及準(zhǔn)確性上大幅提高,為對話回復(fù)質(zhì)量預(yù)測和醫(yī)療實(shí)體識別等自然語言處理方向的業(yè)務(wù)應(yīng)用帶來顯著的效能提升。針對業(yè)界現(xiàn)有的中文詞向量公開數(shù)據(jù)的稀缺和不足,騰訊 AI Lab此次開源,可為中文環(huán)境下基于深度學(xué)習(xí)的自然語言處理(NLP)模型訓(xùn)練提供高質(zhì)量的底層支持,推動學(xué)術(shù)研究和工業(yè)應(yīng)用環(huán)境下中文NLP任務(wù)效果的提升。
數(shù)據(jù)下載地址:https://ai.tencent.com/ailab/nlp/embedding.html
近年來,深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域中得到了廣泛應(yīng)用。基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)在詞性標(biāo)注、命名實(shí)體識別、情感分類等諸多任務(wù)上顯著超越了傳統(tǒng)模型。用深度學(xué)習(xí)技術(shù)來處理自然語言文本,離不開文本的向量化,即把一段文本轉(zhuǎn)化成一個n維的向量。在大量任務(wù)中,作為千變?nèi)f化的文本向量化網(wǎng)絡(luò)架構(gòu)的共同底層,嵌入層(Embedding Layer)負(fù)責(zé)詞匯(文本的基本單元)到向量(神經(jīng)網(wǎng)絡(luò)計算的核心對象)的轉(zhuǎn)換,是自然語言通向深度神經(jīng)網(wǎng)絡(luò)的入口。大量的學(xué)界研究和業(yè)界實(shí)踐證明,使用大規(guī)模高質(zhì)量的詞向量初始化嵌入層,可以在更少的訓(xùn)練代價下得到性能更優(yōu)的深度學(xué)習(xí)模型。
目前,針對英語環(huán)境,工業(yè)界和學(xué)術(shù)界已發(fā)布了一些高質(zhì)量的詞向量數(shù)據(jù),并得到了廣泛的使用和驗(yàn)證。其中較為知名的有谷歌公司基于word2vec算法[1]、斯坦福大學(xué)基于GloVe算法[2]、Facebook基于fastText項(xiàng)目[3]發(fā)布的數(shù)據(jù)等。然而,目前公開可下載的中文詞向量數(shù)據(jù)[3,4]還比較少,并且數(shù)據(jù)的詞匯覆蓋率有所不足,特別是缺乏很多短語和網(wǎng)絡(luò)新詞。
騰訊AI Lab詞向量的特點(diǎn)
騰訊AI Lab此次公開的中文詞向量數(shù)據(jù)包含800多萬中文詞匯,其中每個詞對應(yīng)一個200維的向量。相比現(xiàn)有的中文詞向量數(shù)據(jù),騰訊AI Lab的中文詞向量著重提升了以下3個方面,相比已有各類中文詞向量大大改善了其質(zhì)量和可用性:
⒈ 覆蓋率(Coverage):
該詞向量數(shù)據(jù)包含很多現(xiàn)有公開的詞向量數(shù)據(jù)所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河
⒉ 新鮮度(Freshness):
該數(shù)據(jù)包含一些最近一兩年出現(xiàn)的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側(cè)改革”、“因吹斯汀”等。以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了
⒊ 準(zhǔn)確性(Accuracy):
由于采用了更大規(guī)模的訓(xùn)練數(shù)據(jù)和更好的訓(xùn)練算法,所生成的詞向量能夠更好地表達(dá)詞之間的語義關(guān)系,如下列相似詞檢索結(jié)果所示:
輸入
劉德華
興高采烈
狂奔
自然語言處理
相似詞
劉天王
興高彩烈
飛奔
自然語言理解
周潤發(fā)
興沖沖
一路狂奔
計算機(jī)視覺
華仔
歡天喜地
奔跑
自然語言處理技術(shù)
梁朝偉
興致勃勃
狂跑
深度學(xué)習(xí)
張學(xué)友
眉飛色舞
疾馳
機(jī)器學(xué)習(xí)
古天樂
得意洋洋
飛馳
圖像識別
張家輝
喜笑顏開
疾奔
語義理解
張國榮
歡呼雀躍
奔去
語音識別
得益于覆蓋率、新鮮度、準(zhǔn)確性的提升,在內(nèi)部評測中,騰訊AI Lab提供的中文詞向量數(shù)據(jù)相比于現(xiàn)有的公開數(shù)據(jù),在相似度和相關(guān)度指標(biāo)上均達(dá)到了更高的分值。在騰訊公司內(nèi)部的對話回復(fù)質(zhì)量預(yù)測和醫(yī)療實(shí)體識別等業(yè)務(wù)場景中,騰訊AI Lab提供的中文詞向量數(shù)據(jù)都帶來了顯著的性能提升。
騰訊AI Lab詞向量的構(gòu)建
為了生成高覆蓋率、高新鮮度、高準(zhǔn)確性的詞向量數(shù)據(jù),騰訊AI Lab主要從以下3個方面對詞向量的構(gòu)建過程進(jìn)行了優(yōu)化:
⒈ 語料采集:
訓(xùn)練詞向量的語料來自騰訊新聞和天天快報的新聞?wù)Z料,以及自行抓取的互聯(lián)網(wǎng)網(wǎng)頁和小說語料。大規(guī)模多來源語料的組合,使得所生成的詞向量數(shù)據(jù)能夠涵蓋多種類型的詞匯。而采用新聞數(shù)據(jù)和最新網(wǎng)頁數(shù)據(jù)對新詞建模,也使得詞向量數(shù)據(jù)的新鮮度大為提升。
⒉ 詞庫構(gòu)建:
除了引入維基百科和百度百科的部分詞條之外,還實(shí)現(xiàn)了Shi等人于2010年提出的語義擴(kuò)展算法 [5],可從海量的網(wǎng)頁數(shù)據(jù)中自動發(fā)現(xiàn)新詞——根據(jù)詞匯模式和超文本標(biāo)記模式,在發(fā)現(xiàn)新詞的同時計算新詞之間的語義相似度。
⒊?訓(xùn)練算法:
騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作為詞向量的訓(xùn)練算法。DSG算法基于廣泛采用的詞向量訓(xùn)練算法Skip-Gram (SG),在文本窗口中詞對共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準(zhǔn)確性。
此份中文詞向量數(shù)據(jù)的開源,是騰訊AI Lab依托公司數(shù)據(jù)源優(yōu)勢,對自身基礎(chǔ)AI能力的一次展示,將為中文環(huán)境下基于深度學(xué)習(xí)的NLP模型訓(xùn)練提供高質(zhì)量的底層支持,推動學(xué)術(shù)研究和工業(yè)應(yīng)用環(huán)境下中文NLP任務(wù)效果的提升。
除發(fā)布此份中文詞向量數(shù)據(jù)外,騰訊AI Lab長期以來在文本表示學(xué)習(xí)方面有著持續(xù)的投入,相關(guān)研究成果近期在ACL、EMNLP、IJCAI等自然語言處理及人工智能頂級會議上發(fā)表[7,8,9,10],并被應(yīng)用于多個落地場景。未來,騰訊AI Lab將著眼于常規(guī)文本與社交媒體文本兩種不同的文本類型,繼續(xù)探索詞匯、詞組/實(shí)體、句子/消息、篇章/對話等各粒度文本對象的語義建模和理解,為自然語言處理領(lǐng)域的重要應(yīng)用提供基礎(chǔ)支持。
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.
[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.
[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov,?Enriching Word Vectors with Subword Information. TACL 2017 (5).
[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.
[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.
[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.
[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.
[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.
[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.
[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.
總結(jié)
以上是生活随笔為你收集整理的腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯AI Lab正式开源业内最大规模多标
- 下一篇: 腾讯 AI Lab 正式开源Pocket