通俗易懂之词袋模型
- 簡單實例:
假設有兩句話:
第一句:I?love HongKong.
第二句:I love China.
根據這兩句話,構建一個詞典:{I:1,love:2,HongKong:3,China:4}
根據句子中的單詞在字典中是否出現用1/0表示(出現用1,不出現則用0表示),出現了的,還要看出現了多少次。
所以,上面兩句話的二進制向量表示為:
第一句:1,1,1,0(因為在第一句話中,沒有China,所以第四位是0)
第二句:1,1,0,1(因為在第二句話中,沒有出現HongKong,所以第三位是0)
- 復雜一點實例:
假設有兩句話:
第一句:I?love HongKong and China.
第二句:I love China, so I love HongKong
現在構建的詞典:{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}
所以,上面兩句話的二進制向量表示為:
第一句:1,1,1,1,1,0(第一句話沒有出現so這個單詞,所以最后一位是0)
第二句:2,2,1,0,1,1(第二句話中I和love都出現了2次,且沒有出現and這個單詞,所以前兩位是2,第四位是0)
- 結語:
主要是要抓住是如何把詞語轉換為數字的,因為傳入到神經網絡進行訓練的時候,只能是數值,所以很多時候會把文本向量化。這是其中的一種方式,目前最流行的是Word2Vec,也就是把詞語轉換為詞向量。但是有時候閱讀論文的時候,還是會碰到這個詞袋模型,了解一下還是很有必要的。
總結
- 上一篇: div超出部分滚动并且隐藏滚动条
- 下一篇: 摘要写作技巧