十、词向量基础
1.計算機中如何表示一個詞語
- 和frog最接近的前7個單詞有哪些
1.1 向量空間分布的相似性
計算機中表示的詞語需要滿足向量空間分布的相似性,向量空間模型(VSM:Vector space model)是最常用的相似度計算模型,在自然語言處理中有著廣泛的應用.
1.3 向量空間分布子結構
計算機中表示的詞語同樣需要滿足向量空間子結構,學習的詞向量模型最終目標是將詞向量作為機器學習,特別是深度學習的輸入和表示空間。
2. 詞向量的概念及問題
2.1 詞向量的概念
- 在自然語言處理的任務中,詞向量(word2vec)是表示自然語言中單詞的一種方法,即把每個詞都表示為一個N維空間內的點,即一個高維空間內的向量。通過這種方法,實現把自然語言轉換為向量計算。
- 詞向量表示時會有哪些問題?詞的關系如何表示?
- 不能分辨細節的差別
- 需要大量的人為勞動
- 主觀
- 無法發現新詞
- 難以精確計算詞之間的相似度
- 實現詞向量的兩大挑戰
3 詞向量的使用
3.1 詞向量的查詢
- 自然語言是離散信號,比如“我”、“愛”、“人工智能。通常情況下,可以維護一個詞向量查詢表,實現單詞轉換為向量的目的,這個查詢過程稱之為Embeding Lookup。
3.2 詞向量的張量計算
- 通過One-hot編碼存儲詞向量的索引,并通過Embedding Matrix和GPU的張量計算獲得單詞的詞向量表示:
總結
- 上一篇: 九、N-gram语言模型
- 下一篇: 十四、中文词向量训练一