日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word Embedding News | 词嵌入新鲜事:COVID-19特刊

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word Embedding News | 词嵌入新鲜事:COVID-19特刊 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這里是 WEN(Word Embedding News)|詞嵌入新鮮事。

作為起步,它將基于 Sebastian Ruder NLP News 的每月篩選,聚焦詞嵌入領域。對涉及內容在個人閱讀后的基礎上進行總結、評論。不簡單復制,力求做到小而精。

關于作者:張正,坐標巴黎,上班NLP,下班詞嵌入。

本期關注 word embedding 在 COVID-19 中的應用:

  • 機器翻譯:如何將“Wash your hands”翻譯成 500 多種語言

  • 問答系統:多語言 COVID-19 智能問答助手?

  • 預訓練模型:基于 COVID-Bert 的又一個智能問答助手?

  • COVID-QA 關系抽取:基于 CORD-19 (COVID-19 Open Research Dataset) 數據集的無監督關系嵌入(relation embeddings)訓練

如何將“Wash your hands”翻譯成500多種語言

關鍵詞:cross-lingual word embeddings,機器翻譯,MUSE

原文鏈接:https://datadan.io/blog/wash-your-hands

不要以為 Google Translate 已經解決所有問題了,稀有語種一直是令 NLP 頭疼的大問題。世界上現存 7117 種語言,而 Google Translate 僅能覆蓋常見的約 100 種語言。而 COVID-19 是無國界、不分語言的,因此把“Wash your hands”翻譯成 500 多種語言,在我看來是小問題、大貢獻。


語料

語料庫是跨語言詞嵌入訓練中第一個需要考慮的問題。對于訓練,通常來說平行語料庫好于可比語料庫好于相互獨立的單語語料庫。當然,它們的獲取難度是越來越小的。要應付 500 多種語言,意味著絕大多數只能是各自的單語語料庫。這樣的前提又會造成監督信息獲取的困難,因此作者選擇無監督學習的解決方案。

映射

跨語言詞嵌入無監督學習,第一個應當想到什么?對,MUSE [1](又是 Facebook,他們在跨語言詞嵌入方面是真的強)。

找尋

回歸到“wash your hands”這個具體問題,它是一個 phrase 不是一個單詞,因此下一個棘手問題就是怎么找到這個 phrase 的對應。作者決定除了找“wash your hands”本身,還找它的組成部分如“wash your”和“your hands”等。在 MUSE 訓練(映射)后的目標語言 embeddings 空間中找離這些詞組位置最近的 n-grams 作為它們的翻譯。注意!是 n-grams 而不是單詞,因為作者的假設是,phrase 的翻譯一般還是個 phrase。

組合

最后一步就是組合出“wash your hands”的正確翻譯,比如通過上一步找尋,在目標語言中找到了“wash your feet”的對應 n-gram,那這里就需要再次利用跨語言詞嵌入,找出“feet”的對應翻譯并作替換。

效果評價

畢竟有 500 多種語言,很難去說翻譯是否完全正確、地道。對于 Google Translate 支持的語言,可以反翻譯回英語做對比。其他語言至少可以借助詞典看關鍵詞是否翻對。畢竟人對語言的理解是基于 context 的,在實際應用中,大致翻出來總比沒有好。

[1]?https://github.com/facebookresearch/MUSE

多語言 COVID-19 問答助手

關鍵詞:多語言,問答系統

原文鏈接:https://blog.ml6.eu/how-ml6-built-a-multilingual-covid-19-assistant-powered-by-nlp-9c75bc4ea0c1

僅用 3 天就做成的支持 16 種語言的線上問答系統:

https://corona.ml6.eu

信息源

畢竟是事關 COVID-19 的問答系統,信息源的選擇非常重要,這樣才能從根本上杜絕假新聞。下一步,爬內容,作者選擇 scrapy [1] 從可靠信息源的 FAQs 爬取了約 500 個問答對。

句嵌入

如果是簡單的基于關鍵詞的搜索,作者推薦用 elasticsearch [2]。不過這樣就沒什么 word embedding 什么事了,為了讓搜索更寬泛(基于語義),作者決定訓練 embedding。

畢竟是 2020 年,別再什么 word2vec 了,直接基于上下文的詞嵌入;再想想又是問答系統,直接訓練句嵌入好了。因此,作者選擇 Google 的 The Universal Sentence Encoder [3]。

正好上述模型支持 16 種語言,那就順帶支持多語言搜索好了。反正都在一個跨語言嵌入空間里。模型什么的直接用 TF Hub [4] 上現成的,一行搞定。


搜索

因為應用場景是用戶提問題,因此句嵌入空間只需要計算所有問題的句子的就行了。當用戶輸入問題時,只需要在句嵌入空間中找到最接近的句子,返回相應答案。

因為只有約 500 句,因此計算相似度直接遍歷并計算就行了,如果 embeddings 多,作者推薦可以用:

  • faiss [5](來自Facebook)

  • annoy [6](來自Spotify)

  • elastic [7]


工程

工程方面我了解有限,先列出來,以后多學習。

  • API 基于 Zalando 的 connexion [8] 框架。

  • 部署到 Google Cloud Platform(GCP),因為就一個 container,所以選擇 Cloud Run [9]。

  • 用 Cloud Functions [10] 和 Cloud Scheduler?[11] 每天早上自動更新問答庫。


ML6公司

這個工作來自一家叫 ML6 的比利時 AI 公司,在歐洲多地有辦公室。瀏覽了下公司網頁覺得很酷,有種 Deepmind 等尚未被巨頭收購,但已不是小 startup 的感覺,值得關注。

ML6公司官網:https://ml6.eu

[1] https://scrapy.org

[2] https://www.elastic.co/cn/

[3] https://research.google/pubs/pub46808/

[4] https://tfhub.dev

[5] https://github.com/facebookresearch/faiss

[6] https://github.com/spotify/annoy

[7] https://www.elastic.co/cn/

[8] https://github.com/zalando/connexion

[9] https://cloud.google.com/run

[10] https://cloud.google.com/functions

[11] https://cloud.google.com/scheduler

COVID-BERT 及 COVID-QA

這個時候肯定少不了 BERT 出一分力。

德國 startup deepset [1] 基于 COVID-19 相關文章 fine-tune 了一個 COVID-BERT 預訓練模型,該模型在 HUGGING FACE?[2] 的 Transformers 中可以直接用:

https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

基于 COVID-BERT,作者搭建了 COVID-QA:

https://covid.deepset.ai/home

這是個非常標準的從 BERT 到 QA 系統的實例,想了解一整套代碼的看這里:

https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help

[1] https://deepset.ai

[2] https://huggingface.co

CORD-19-SeVeN:基于CORD-19數據集的無監督關系嵌入訓練

原文鏈接:https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

關系嵌入對于醫學相關的文本分析、應用尤其重要,比如可以提取(癥狀,藥品)等關系。

此工作基于 COVID-19 研究的數據集 CORD-19 [1] 訓練關系嵌入。

雖然詞嵌入空間中,詞與詞的語義關系也可以被其相對空間位置表示,但并不是每種關系都在空間中井然有序的:

SeVeN(Semantic Vector Networks)通過詞對的來建立關系嵌入的模型。該模型來自 COLING 2018 的文章 SeVeN: Augmenting Word Embeddings with Unsupervised Relation Vectors [2]。

(這篇文章可能會對無監督的“文本 -> 詞嵌入 -> 知識網絡”的思路有些啟發,因此將會在詞嵌入雜談專欄中做單獨介紹。)嫌讀論文累的可以先看作者的 Blog:

https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78

[1] https://www.semanticscholar.org/cord19

[2] https://www.aclweb.org/anthology/C18-1225.pdf

以上就是詞嵌入新鮮事的第一期。祝大家身體健康!力所能及的前提下用 NLP 讓世界多美好一點點。

Stay Hungry. Stay Foolish.

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的Word Embedding News | 词嵌入新鲜事:COVID-19特刊的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。