當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 动态词嵌入

發布時間：2024/7/5 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 动态词嵌入小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).

URL：http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf

動機

語言隨著時間在不斷演化，詞語的意思也由于文化的轉變而變化。本文欲在一個時間跨度上的文本數據中，發現詞語的意思和用法的變化。詞嵌入模型，通過發掘詞的上下文信息，將詞的意思編碼到向量中，本文把詞嵌入模型進行推廣到序列數據中（即歷史文本和社交媒體上的流文本），提出了動態詞嵌入模型，來挖掘單個詞隨著時間變化時的語義變化。

貢獻

?本文得出一種概率狀態空間模型，使得詞和其上下文詞的嵌入向量都能夠根據傳播過程及時的發展。其泛化了skip-gram模型；動態的組織方式，使得能夠進行端到端的訓練，這樣就可以得到連續的嵌入軌跡，而且將噪音從word-context的統計中，平滑出去，使得我們能夠共享各個時間的信息。

?本文還提出了兩個用來過濾和平滑的黑箱可擴展推理算法。

本文還分析三個時間跨度很長的大規模文本語料，本文的方法能夠自動的尋找意義變化最大的詞，而且平滑的詞嵌入軌跡使得我們能夠評估和可視化這些動態變化，并證明本文的方法比靜態的模型效果好。

模型

本文提出的 dynamic skip-gram 模型是一種結合了潛在時間序列的貝葉斯版本的 skip-gram 模型，用來發掘詞嵌入向量隨時間發生的改變。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基礎，bayesian 模型把所有的序列（句子）都認為和時間不相關，而在 dynamic 模型中，會將這些序列（句子）關聯起相應的時間戳信息。最終都是計算出每個詞在上下文中能夠概率最大化的向量表示。

算法

本文討論了兩個可擴展的近似推理算法，Filtering：只使用過去的信息，在數據流形式的應用中，只能以這種方式進行。Smoothing：具有所有時間的文檔序列，可以學習到更好的嵌入向量。

Skip-Gram Filtering：在很多應用中，數據都是流形數據，這些數據以序列的方式到達，因此，只能通過已經觀測的數據序列進行建模。
Skip-Gram Smoothing：和 Filtering 的情況不同，這里的推斷會基于所有時間的觀測序列，而不只是對過去的觀測，所以該方法擁有更平滑的軌跡和更高的概率。由于有了所有時間的數值，變分分布就可以不在受限于時刻。通過在所有時間步上訓練模型，使用黑盒變分推斷和再參數化技巧，來得到所有的變分參數。

實驗

本文使用了無貝葉斯估計的 skip-gram 模型(SGI)，預處理初始化的 skip-gram（SGP）和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型，進行了比對實驗。以三個具有時間線的語料作為實驗數據：

分別是 Google Books 語料，“State of theUnion”語料，以及 Twitter 短文。

下圖展示了 Google books 中，從1850到2008年中，余弦距離變化最大的10個詞的演化過程。??

不同方法的詞向量軌跡的平滑性，圖中所示的是兩個詞的余弦距離和時間的關系圖，函數值越大說明詞越相似，能夠直觀的看出詞義的演化：

本文也對模型的泛化效果進行了評估測試，證明其在未看到的數據上表現的更好，通過分析給定時刻的（中心詞，上下文詞）二元組的預測概率來評估：

結果如下，（值越高表示效果越好）：

實驗表明，本文的模型（dynamic skip-gram filter，dynamicskip-gram smoothing）都能夠隨著時間，平滑的改變嵌入向量，并且能夠更好對（詞，上下文）二元組有一個較好的預測效果。本文提出的方法可以對社交媒體上數據流形式的數據進行數據挖掘，異常檢測，也可以供對語言演化感興趣的歷史和社會學家使用。

論文筆記整理：李林，東南大學碩士，研究方向為知識圖譜構建及更新。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

轉載須知：轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題，請注明原標題。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 动态词嵌入的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 在生成式多跳机器阅读任务中
下一篇：玩转算法面试-第三章