日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

發布時間:2024/7/5 105 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識圖譜問答。


來源:Knowledge Based System

鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0950705118301412?via%3Dihub

?

雙語word embedding將兩種語言表示與同一個空間中,使之不依賴機器翻譯的情況下,實現知識從某一語言到另一語言的轉換。實現這一方法的主要流程包括:1.訓練單語embedding;2. 利用雙語詞典構建雙語映射關系。不同于這一做法,本文提出基于多語言知識庫(例如wordnet)的雙語embedding方法,基本思路是通過在多語言wordnet上隨機游走抽取出雙語信息,而后學習到聯合embedding空間中。

?

動機

現有的方法主要基于雙語詞典構建不同語言之間的橋梁,作者認為雙語詞典雖然給出了基本的對齊信息,但是以wordnet為代表的多語言知識庫則可以在基本對齊的基礎上增加同義,上下位關系等等更多的語義信息,這些可以用于構建更高質量的雙語embedding。

?

貢獻

  • 提出了一種基于多語言知識庫上隨機游走的雙語embedding方法

  • 探究了從wordnet中抽取雙語約束改進Skipgram的loss-function的方法

  • 利用wordnet構建雙語人工語料,并與單語數據集結合用于改進embedding方法

  • ?

    方法

    帶有約束的雙語embedding

    關于Skipgram

    Skipgram是一種利用當前詞w預測其上下文文本c的模型,目標為通過文本語料學習參數θ,使得概率P(c|w;θ)最大化。本文主要關注Skipgram中負樣本在損失函數中的表現形式如下所示:

    其中,(w, c)表示語料中的詞w及其共現文本中的詞c(共現文本由設定為K的窗口參數確定),cn表示負樣本文本的詞,P(c)表示噪聲分布(負樣本集)

    ?

    引入雙語約束

    對于不同語言的單語語料,獲得雙語embedding的直接方式就是從句子級別對他們進行融合,而后利用其中的公用詞,比如數字,專有名詞等等作為橋梁找尋雙語文本中的共現成分。但是顯然這種公用詞的數量是不足以構建高質量embedding的。

    一種強化聯合embedding空間的方式是對于上述loss-function添加約束,這種約束一般來自于外部數據,提供諸如句法,相關詞等等信息。作者在這里使用基于雙語詞典的對等翻譯,強制規范原始詞與其另一種語言的對等詞之間的距離,從而得到如下改進loss-function:

    知識庫隨機游走

    隨機游走的目的是從知識庫中獲取能夠反映結構信息的共現數據,從而用于構建wordrepresentations。

    單語隨機游走

    首先,文章給出了單語圖譜上的隨機游走算法,對于給定圖譜G=(C, E),其中C表示概念集,E表示概念之間的邊集合。N(c)表示c在圖譜上的鄰居節點集,D(c)表示c可能的詞匯化表達,SC表示游走結果集,S表示每一輪循環游走得到的節點路徑集。

    算法過程描述如下:

  • 初始化SC為空集

  • 根據預先定義的概率分布從C中選擇一個c

  • 根據預先定義的概率分布從c的鄰居中隨機選擇N(c),及c的詞匯化表達D(c)

  • 重復2,3步直到達到游走步數I

  • 從而得到圖譜隨機游走生成的文本,該文本帶有語義結構信息(從語法上不一定成句子)。

    利用生成文本(或者說詞序列)從自然語言語料中抽取成分共現的句子,從而得到帶有結構信息的自然語言語料

    ?

    雙語隨機游走

    為了實現多語言知識庫上的隨機游走,作者在算法1的基礎上進行以下改進:

    將單語詞匯化表達D(c)變為雙語集,即對于某concept由兩種語言的表達可選(當知識庫沒有相關對齊時,某一語言的表達可以為空),修改效果如算法2,添加了一個隨機選擇D(c)的語言步驟,其他與單語算法基本一致。

    這樣得到的輸出序列可能同時包含兩種語言的詞匯,同樣,利用單語文本共現抽取,可以構建該序列的自然語言句子。

    ?

    實驗

    數據方面使用到了Wikipedia corpora以及wordnets

    語言方面包含Basque,English,Spanish等版本(具體見原文)

    一些統計信息如下:

    這篇文章的實驗做的比較細,部分實驗結果如下:

    添加雙語約束實驗

    ?

    隨機游走實驗



    推薦閱讀:

    論文淺嘗 | 基于屬性嵌入的知識圖譜實體對齊
    論文淺嘗 | 基于圖匹配神經網絡的跨語言知識圖對齊 (ACL 2019)


    ?

    OpenKG

    開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

    點擊閱讀原文,進入 OpenKG 博客。

    總結

    以上是生活随笔為你收集整理的论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。