论文浅尝 | 动态词嵌入
Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).
URL:http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf
動機
語言隨著時間在不斷演化,詞語的意思也由于文化的轉變而變化。本文欲在一個時間跨度上的文本數據中,發現詞語的意思和用法的變化。詞嵌入模型,通過發掘詞的上下文信息,將詞的意思編碼到向量中,本文把詞嵌入模型進行推廣到序列數據中(即歷史文本和社交媒體上的流文本),提出了動態詞嵌入模型,來挖掘單個詞隨著時間變化時的語義變化。
貢獻
?本文得出一種概率狀態空間模型,使得詞和其上下文詞的嵌入向量都能夠根據傳播過程及時的發展。其泛化了skip-gram模型;動態的組織方式,使得能夠進行端到端的訓練,這樣就可以得到連續的嵌入軌跡,而且將噪音從word-context的統計中,平滑出去,使得我們能夠共享各個時間的信息。
?本文還提出了兩個用來過濾和平滑的黑箱可擴展推理算法。
本文還分析三個時間跨度很長的大規模文本語料,本文的方法能夠自動的尋找意義變化最大的詞,而且平滑的詞嵌入軌跡使得我們能夠評估和可視化這些動態變化,并證明本文的方法比靜態的模型效果好。
模型
本文提出的 dynamic skip-gram 模型是一種結合了潛在時間序列的貝葉斯版本的 skip-gram 模型,用來發掘詞嵌入向量隨時間發生的改變。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基礎,bayesian 模型把所有的序列(句子)都認為和時間不相關,而在 dynamic 模型中,會將這些序列(句子)關聯起相應的時間戳信息。最終都是計算出每個詞在上下文中能夠概率最大化的向量表示。
?
算法
本文討論了兩個可擴展的近似推理算法,Filtering:只使用過去的信息,在數據流形式的應用中,只能以這種方式進行。Smoothing:具有所有時間的文檔序列,可以學習到更好的嵌入向量。
Skip-Gram Filtering:在很多應用中,數據都是流形數據,這些數據以序列的方式到達,因此,只能通過已經觀測的數據序列進行建模。
Skip-Gram Smoothing:和 Filtering 的情況不同,這里的推斷會基于所有時間的觀測序列,而不只是對過去的觀測,所以該方法擁有更平滑的軌跡和更高的概率。 由于有了所有時間的數值,變分分布就可以不在受限于時刻。通過在所有時間步上訓練模型,使用黑盒變分推斷和再參數化技巧,來得到所有的變分參數。
實驗
本文使用了無貝葉斯估計的 skip-gram 模型(SGI),預處理初始化的 skip-gram(SGP)和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型,進行了比對實驗。以三個具有時間線的語料作為實驗數據:
分別是 Google Books 語料,“State of theUnion”語料,以及 Twitter 短文。
下圖展示了 Google books 中,從1850到2008年中,余弦距離變化最大的10個詞的演化過程。??
不同方法的詞向量軌跡的平滑性,圖中所示的是兩個詞的余弦距離和時間的關系圖,函數值越大說明詞越相似,能夠直觀的看出詞義的演化:
本文也對模型的泛化效果進行了評估測試,證明其在未看到的數據上表現的更好,通過分析給定時刻的(中心詞,上下文詞)二元組的預測概率來評估:
結果如下,(值越高表示效果越好):
實驗表明,本文的模型(dynamic skip-gram filter,dynamicskip-gram smoothing)都能夠隨著時間,平滑的改變嵌入向量,并且能夠更好對(詞,上下文)二元組有一個較好的預測效果。本文提出的方法可以對社交媒體上數據流形式的數據進行數據挖掘,異常檢測,也可以供對語言演化感興趣的歷史和社會學家使用。
論文筆記整理:李林,東南大學碩士,研究方向為知識圖譜構建及更新。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 动态词嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 在生成式多跳机器阅读任务中
- 下一篇: 玩转算法面试-第三章