词共现矩阵
通過統計一個事先指定大小的窗口內的word共現次數,以word周邊的共現詞的次數做為當前word的vector。具體來說,我們通過從大量的語料文本中構建一個共現矩陣來定義word representation。
例子
有語料如下:
I like deep learning. I like NLP. I enjoy flying.則其共現矩陣如下:
此時選的窗口大小為3,選擇在該窗口內詞匯的共現頻率作為vector。
將共現矩陣行(列)作為詞向量表示后,可以知道like,enjoy都是在I附近且統計數目大約相等,他們意思相近。
矩陣定義的詞向量在一定程度上緩解了one-hot向量相似度為0的問題,但沒有解決數據稀疏性和維度災難的問題。
總結
- 上一篇: LANGUAGE MODELS ARE
- 下一篇: 5.2 部分依赖图 (Partial D