日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 动态词嵌入

發布時間:2024/7/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 动态词嵌入 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).

URL:http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf


動機


語言隨著時間在不斷演化,詞語的意思也由于文化的轉變而變化。本文欲在一個時間跨度上的文本數據中,發現詞語的意思和用法的變化。詞嵌入模型,通過發掘詞的上下文信息,將詞的意思編碼到向量中,本文把詞嵌入模型進行推廣到序列數據中(即歷史文本和社交媒體上的流文本),提出了動態詞嵌入模型,來挖掘單個詞隨著時間變化時的語義變化。


貢獻


  • ?本文得出一種概率狀態空間模型,使得詞和其上下文詞的嵌入向量都能夠根據傳播過程及時的發展。其泛化了skip-gram模型;動態的組織方式,使得能夠進行端到端的訓練,這樣就可以得到連續的嵌入軌跡,而且將噪音從word-context的統計中,平滑出去,使得我們能夠共享各個時間的信息。

  • ?本文還提出了兩個用來過濾和平滑的黑箱可擴展推理算法。

  • 本文還分析三個時間跨度很長的大規模文本語料,本文的方法能夠自動的尋找意義變化最大的詞,而且平滑的詞嵌入軌跡使得我們能夠評估和可視化這些動態變化,并證明本文的方法比靜態的模型效果好。


  • 模型


    本文提出的 dynamic skip-gram 模型是一種結合了潛在時間序列的貝葉斯版本的 skip-gram 模型,用來發掘詞嵌入向量隨時間發生的改變。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基礎,bayesian 模型把所有的序列(句子)都認為和時間不相關,而在 dynamic 模型中,會將這些序列(句子)關聯起相應的時間戳信息。最終都是計算出每個詞在上下文中能夠概率最大化的向量表示。

    ?

    算法


    本文討論了兩個可擴展的近似推理算法,Filtering:只使用過去的信息,在數據流形式的應用中,只能以這種方式進行。Smoothing:具有所有時間的文檔序列,可以學習到更好的嵌入向量。


    • Skip-Gram Filtering:在很多應用中,數據都是流形數據,這些數據以序列的方式到達,因此,只能通過已經觀測的數據序列進行建模。

    • Skip-Gram Smoothing: Filtering 的情況不同,這里的推斷會基于所有時間的觀測序列,而不只是對過去的觀測,所以該方法擁有更平滑的軌跡和更高的概率。 由于有了所有時間的數值,變分分布就可以不在受限于時刻。通過在所有時間步上訓練模型,使用黑盒變分推斷和再參數化技巧,來得到所有的變分參數。


    實驗


    本文使用了無貝葉斯估計的 skip-gram 模型(SGI),預處理初始化的 skip-gram(SGP)和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型,進行了比對實驗。以三個具有時間線的語料作為實驗數據:

    分別是 Google Books 語料,“State of theUnion”語料,以及 Twitter 短文。

    下圖展示了 Google books 中,從1850到2008年中,余弦距離變化最大的10個詞的演化過程。??

    不同方法的詞向量軌跡的平滑性,圖中所示的是兩個詞的余弦距離和時間的關系圖,函數值越大說明詞越相似,能夠直觀的看出詞義的演化:

    本文也對模型的泛化效果進行了評估測試,證明其在未看到的數據上表現的更好,通過分析給定時刻的(中心詞,上下文詞)二元組的預測概率來評估:

    結果如下,(值越高表示效果越好):

    實驗表明,本文的模型(dynamic skip-gram filter,dynamicskip-gram smoothing)都能夠隨著時間,平滑的改變嵌入向量,并且能夠更好對(詞,上下文)二元組有一個較好的預測效果。本文提出的方法可以對社交媒體上數據流形式的數據進行數據挖掘,異常檢測,也可以供對語言演化感興趣的歷史和社會學家使用。


    論文筆記整理:李林,東南大學碩士,研究方向為知識圖譜構建及更新。




    OpenKG.CN


    中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

    轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。


    點擊閱讀原文,進入 OpenKG 博客。

    總結

    以上是生活随笔為你收集整理的论文浅尝 | 动态词嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。