日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

發布時間:2024/7/5 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


筆記整理:譚亦鳴, 東南大學博士生

來源:NAACL'21

鏈接:https://aclanthology.org/2021.naacl-main.465/

概述

為了擴展多語言知識圖譜問答的應用,Zero-shot方法成為一個研究趨勢。在Zero-shot的設定下,通過高資源語言的訓練數據構建模型,解決無標注的多語言問題。一個直觀的方法是使用多語言的預訓練模型(例如m-BERT)來做跨語言的轉換,但目前優勢語言與其他語言的問答性能之間仍然存在明顯的差異。在這篇論文中,作者提出了一種無監督雙語詞歸納方法(BLI)將優勢語言的問題(論文中的原語言)映射到其他語言上,作為擴展訓練集。從而解決訓練和推理之間的語言不一致問題。進一步的,通過一個對抗學習策略來解決擴展集存在的語法障礙問題,使得到的模型具有語言和語法的獨立性。在一個具有11種Zero-shot數據集上實驗驗證的該方法的有效性。

動機

對于多語言圖譜問答任務, 現有的benchmark廣泛使用了翻譯方法, 即利用機器翻譯將優勢語言資源的訓練數據翻譯為其他語言, 從而擴充為多語言訓練集. 但是這類方法嚴重依賴于翻譯方法的性能, 顯然高性能翻譯器并不是滿地都是.

為了使方法能夠適用于更多的語言, 作者假設這個任務場景里不具備人工譯者和平行語料的資源. 對應的, 為了解決訓練數據擴充, 作者引入了一個基于BLI的完全無監督機器翻譯方法. 作者判斷BLI方法有效的依據在于KGQA面對的往往是短句, 對于長距離依賴的影響不大, 而語言一致性能夠帶來更大收益.

為了緩解BLI引起的句法障礙問題, 作者使用了一個對抗學習策略, 即在編碼器頂層設置一個分類器用于區分輸入的是源語言句子還是BLI翻譯得到的句子, 通過這種做法使編碼器對于語言的敏感性減少, 從而適用于多語言任務.

方法

作者首先建立了一個面向單語問題的基礎框架, 包含三個主要模塊, 如圖1:

1.推理鏈排序: 對于鏈接到的問題實體, 首先找到其潛在的候選鏈(來自鏈接實體+兩跳之內的另據), 而后與將鏈與問題計算相關性, 取Top-1作為目標推理鏈2.類型約束排序: 對于1中給出的推理鏈, 枚舉出已知變量和lambda變量的類型候選,因為這兩個變量之間幾乎沒有黃金類型約束的重疊,一個的語義匹配模型對兩者都是足夠的,從而確定了推理鏈上的節點(變量)的類型.3.聚合分類器: 針對問題中涉及的聚合操作如: 布爾, 計數和事實, 構建分類器判斷聚合類型, 而后將聚合操作約束也添加到生成的查詢圖中

圖2是作者提出的基于BLI的多語言問題語義匹配模型.

首先, BLI方法實際上是通過找到一個線性轉換矩陣, 使得不同語言的預訓練單語詞向量之間差異最小, 即如公式6:

基于BLI作者建立了一個字對字翻譯器

考慮到圖譜問答主要是詞或短語級別的匹配, 通過字對字翻譯得到的序列可以滿足這個需要, 另一方面, 關于翻譯錯誤帶來的影響, 作者描述為, 直觀上, 他們的詞向量在空間上接近, 錯誤的詞級別翻譯可以視作微量的噪聲, 對于具備魯棒性的Transformer-based編碼器來說, 不會造成什么影響.

在多語言問答場景中, 基礎模型主要又以下一些變化:

1.推理鏈排序: 對于每個推理鏈, 通過三種方式豐富它的謂詞: a. 將camel表示的短語轉換為序列格式的詞; b. 增加或減少方向信息的前綴; c. 在局部封閉假設下鏈接高頻類型;2.類型約束排序: 待匹配的問題和符號候選通過[CLS],[SEP]的標記連接起來, 輸入預訓練編碼器后在經過Pool(.), 后者表示使用[CLS]的上下問來表示整個輸入. 這里的預訓練編碼器使用的是m-BERT

3.聚合分類器: 由多語言預訓練編碼器+MLP-based的預測層構成.

實驗:

數據集:

作者主要使用了兩個知識圖譜問答數據集:

LC-QuAD(單語) 包含5000個英語問題-SPARQL對, 其中1000用作測試集

QALD-multilingual(多語言), 包含12種語言, 429個問題全部作為測試集, 使用LC-QuAD作為訓練集.

實驗結果:

主要結果(評價指標為ICA與F1)

消融分析:


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。