通俗易懂之词袋模型
- 簡(jiǎn)單實(shí)例:
假設(shè)有兩句話:
第一句:I?love HongKong.
第二句:I love China.
根據(jù)這兩句話,構(gòu)建一個(gè)詞典:{I:1,love:2,HongKong:3,China:4}
根據(jù)句子中的單詞在字典中是否出現(xiàn)用1/0表示(出現(xiàn)用1,不出現(xiàn)則用0表示),出現(xiàn)了的,還要看出現(xiàn)了多少次。
所以,上面兩句話的二進(jìn)制向量表示為:
第一句:1,1,1,0(因?yàn)樵诘谝痪湓捴?#xff0c;沒(méi)有China,所以第四位是0)
第二句:1,1,0,1(因?yàn)樵诘诙湓捴?#xff0c;沒(méi)有出現(xiàn)HongKong,所以第三位是0)
- 復(fù)雜一點(diǎn)實(shí)例:
假設(shè)有兩句話:
第一句:I?love HongKong and China.
第二句:I love China, so I love HongKong
現(xiàn)在構(gòu)建的詞典:{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}
所以,上面兩句話的二進(jìn)制向量表示為:
第一句:1,1,1,1,1,0(第一句話沒(méi)有出現(xiàn)so這個(gè)單詞,所以最后一位是0)
第二句:2,2,1,0,1,1(第二句話中I和love都出現(xiàn)了2次,且沒(méi)有出現(xiàn)and這個(gè)單詞,所以前兩位是2,第四位是0)
- 結(jié)語(yǔ):
主要是要抓住是如何把詞語(yǔ)轉(zhuǎn)換為數(shù)字的,因?yàn)閭魅氲缴窠?jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的時(shí)候,只能是數(shù)值,所以很多時(shí)候會(huì)把文本向量化。這是其中的一種方式,目前最流行的是Word2Vec,也就是把詞語(yǔ)轉(zhuǎn)換為詞向量。但是有時(shí)候閱讀論文的時(shí)候,還是會(huì)碰到這個(gè)詞袋模型,了解一下還是很有必要的。
總結(jié)
- 上一篇: div超出部分滚动并且隐藏滚动条
- 下一篇: 摘要写作技巧