當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word Embedding News | 词嵌入新鲜事：COVID-19特刊

發(fā)布時間：2024/10/8 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 Word Embedding News | 词嵌入新鲜事：COVID-19特刊小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這里是 WEN（Word Embedding News）｜詞嵌入新鮮事。

作為起步，它將基于 Sebastian Ruder NLP News 的每月篩選，聚焦詞嵌入領(lǐng)域。對涉及內(nèi)容在個人閱讀后的基礎(chǔ)上進行總結(jié)、評論。不簡單復(fù)制，力求做到小而精。

關(guān)于作者：張正，坐標(biāo)巴黎，上班NLP，下班詞嵌入。

本期關(guān)注 word embedding 在 COVID-19 中的應(yīng)用：

機器翻譯：如何將“Wash your hands”翻譯成 500 多種語言
問答系統(tǒng)：多語言 COVID-19 智能問答助手?
預(yù)訓(xùn)練模型：基于 COVID-Bert 的又一個智能問答助手?
COVID-QA 關(guān)系抽取：基于 CORD-19 (COVID-19 Open Research Dataset) 數(shù)據(jù)集的無監(jiān)督關(guān)系嵌入（relation embeddings）訓(xùn)練

如何將“Wash your hands”翻譯成500多種語言

關(guān)鍵詞：cross-lingual word embeddings，機器翻譯，MUSE

原文鏈接：https://datadan.io/blog/wash-your-hands

不要以為 Google Translate 已經(jīng)解決所有問題了，稀有語種一直是令 NLP 頭疼的大問題。世界上現(xiàn)存 7117 種語言，而 Google Translate 僅能覆蓋常見的約 100 種語言。而 COVID-19 是無國界、不分語言的，因此把“Wash your hands”翻譯成 500 多種語言，在我看來是小問題、大貢獻。

語料

語料庫是跨語言詞嵌入訓(xùn)練中第一個需要考慮的問題。對于訓(xùn)練，通常來說平行語料庫好于可比語料庫好于相互獨立的單語語料庫。當(dāng)然，它們的獲取難度是越來越小的。要應(yīng)付 500 多種語言，意味著絕大多數(shù)只能是各自的單語語料庫。這樣的前提又會造成監(jiān)督信息獲取的困難，因此作者選擇無監(jiān)督學(xué)習(xí)的解決方案。

映射

跨語言詞嵌入無監(jiān)督學(xué)習(xí)，第一個應(yīng)當(dāng)想到什么？對，MUSE [1]（又是 Facebook，他們在跨語言詞嵌入方面是真的強）。

找尋

回歸到“wash your hands”這個具體問題，它是一個 phrase 不是一個單詞，因此下一個棘手問題就是怎么找到這個 phrase 的對應(yīng)。作者決定除了找“wash your hands”本身，還找它的組成部分如“wash your”和“your hands”等。在 MUSE 訓(xùn)練（映射）后的目標(biāo)語言 embeddings 空間中找離這些詞組位置最近的 n-grams 作為它們的翻譯。注意！是 n-grams 而不是單詞，因為作者的假設(shè)是，phrase 的翻譯一般還是個 phrase。

組合

最后一步就是組合出“wash your hands”的正確翻譯，比如通過上一步找尋，在目標(biāo)語言中找到了“wash your feet”的對應(yīng) n-gram，那這里就需要再次利用跨語言詞嵌入，找出“feet”的對應(yīng)翻譯并作替換。

效果評價

畢竟有 500 多種語言，很難去說翻譯是否完全正確、地道。對于 Google Translate 支持的語言，可以反翻譯回英語做對比。其他語言至少可以借助詞典看關(guān)鍵詞是否翻對。畢竟人對語言的理解是基于 context 的，在實際應(yīng)用中，大致翻出來總比沒有好。

[1]?https://github.com/facebookresearch/MUSE

多語言 COVID-19 問答助手

關(guān)鍵詞：多語言，問答系統(tǒng)

原文鏈接：https://blog.ml6.eu/how-ml6-built-a-multilingual-covid-19-assistant-powered-by-nlp-9c75bc4ea0c1

僅用 3 天就做成的支持 16 種語言的線上問答系統(tǒng)：

https://corona.ml6.eu

信息源

畢竟是事關(guān) COVID-19 的問答系統(tǒng)，信息源的選擇非常重要，這樣才能從根本上杜絕假新聞。下一步，爬內(nèi)容，作者選擇 scrapy [1] 從可靠信息源的 FAQs 爬取了約 500 個問答對。

句嵌入

如果是簡單的基于關(guān)鍵詞的搜索，作者推薦用 elasticsearch [2]。不過這樣就沒什么 word embedding 什么事了，為了讓搜索更寬泛（基于語義），作者決定訓(xùn)練 embedding。

畢竟是 2020 年，別再什么 word2vec 了，直接基于上下文的詞嵌入；再想想又是問答系統(tǒng)，直接訓(xùn)練句嵌入好了。因此，作者選擇 Google 的 The Universal Sentence Encoder [3]。

正好上述模型支持 16 種語言，那就順帶支持多語言搜索好了。反正都在一個跨語言嵌入空間里。模型什么的直接用 TF Hub [4] 上現(xiàn)成的，一行搞定。

搜索

因為應(yīng)用場景是用戶提問題，因此句嵌入空間只需要計算所有問題的句子的就行了。當(dāng)用戶輸入問題時，只需要在句嵌入空間中找到最接近的句子，返回相應(yīng)答案。

因為只有約 500 句，因此計算相似度直接遍歷并計算就行了，如果 embeddings 多，作者推薦可以用：

faiss [5]（來自Facebook）
annoy [6]（來自Spotify）
elastic [7]

工程

工程方面我了解有限，先列出來，以后多學(xué)習(xí)。

API 基于 Zalando 的 connexion [8] 框架。
部署到 Google Cloud Platform（GCP），因為就一個 container，所以選擇 Cloud Run [9]。
用 Cloud Functions [10] 和 Cloud Scheduler?[11] 每天早上自動更新問答庫。

ML6公司

這個工作來自一家叫 ML6 的比利時 AI 公司，在歐洲多地有辦公室。瀏覽了下公司網(wǎng)頁覺得很酷，有種 Deepmind 等尚未被巨頭收購，但已不是小 startup 的感覺，值得關(guān)注。

ML6公司官網(wǎng)：https://ml6.eu

[1] https://scrapy.org

[2] https://www.elastic.co/cn/

[3] https://research.google/pubs/pub46808/

[4] https://tfhub.dev

[5] https://github.com/facebookresearch/faiss

[6] https://github.com/spotify/annoy

[7] https://www.elastic.co/cn/

[8] https://github.com/zalando/connexion

[9] https://cloud.google.com/run

[10] https://cloud.google.com/functions

[11] https://cloud.google.com/scheduler

COVID-BERT 及 COVID-QA

這個時候肯定少不了 BERT 出一分力。

德國 startup deepset [1] 基于 COVID-19 相關(guān)文章 fine-tune 了一個 COVID-BERT 預(yù)訓(xùn)練模型，該模型在 HUGGING FACE?[2] 的 Transformers 中可以直接用：

https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

基于 COVID-BERT，作者搭建了 COVID-QA：

https://covid.deepset.ai/home

這是個非常標(biāo)準(zhǔn)的從 BERT 到 QA 系統(tǒng)的實例，想了解一整套代碼的看這里：

https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help

[1] https://deepset.ai

[2] https://huggingface.co

CORD-19-SeVeN：基于CORD-19數(shù)據(jù)集的無監(jiān)督關(guān)系嵌入訓(xùn)練

原文鏈接：https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

關(guān)系嵌入對于醫(yī)學(xué)相關(guān)的文本分析、應(yīng)用尤其重要，比如可以提取（癥狀，藥品）等關(guān)系。

此工作基于 COVID-19 研究的數(shù)據(jù)集 CORD-19 [1] 訓(xùn)練關(guān)系嵌入。

雖然詞嵌入空間中，詞與詞的語義關(guān)系也可以被其相對空間位置表示，但并不是每種關(guān)系都在空間中井然有序的：

SeVeN（Semantic Vector Networks）通過詞對的來建立關(guān)系嵌入的模型。該模型來自 COLING 2018 的文章 SeVeN: Augmenting Word Embeddings with Unsupervised Relation Vectors [2]。

（這篇文章可能會對無監(jiān)督的“文本 -> 詞嵌入 -> 知識網(wǎng)絡(luò)”的思路有些啟發(fā)，因此將會在詞嵌入雜談專欄中做單獨介紹。）嫌讀論文累的可以先看作者的 Blog：

https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78

[1] https://www.semanticscholar.org/cord19

[2] https://www.aclweb.org/anthology/C18-1225.pdf

以上就是詞嵌入新鮮事的第一期。祝大家身體健康！力所能及的前提下用 NLP 讓世界多美好一點點。

Stay Hungry. Stay Foolish.

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的Word Embedding News | 词嵌入新鲜事：COVID-19特刊的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一般在公司干多久会升职入职前
下一篇： CVPR 2020最新热点：物体位姿估计