日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

浅谈文本词向量转换的机制embedding

發(fā)布時間:2025/4/5 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈文本词向量转换的机制embedding 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

首先感謝大家對上一篇文章的關(guān)注吧,建議看這篇文章前先看下上一篇我推送的《20行代碼實現(xiàn)電影評論情感分析》,上篇文章其實留了個坑,不過不一定坑到大家,因為可能90%的同學(xué)可能不會去認(rèn)真讀一遍代碼,或者去跑一下程序。上文說道關(guān)于文本詞向量轉(zhuǎn)換的embedding相關(guān)的內(nèi)容,其實是沒有詳細(xì)說明的,那這一篇我嘗試著去解釋一些,說的不對的還望各位大神指正,我也是自學(xué)的,沒人一起討論,可能有理解不到位的地方。


其實機(jī)器學(xué)習(xí)算法,無非是矩陣的加減乘除,對于文本string型的數(shù)據(jù),必然需要把這類數(shù)據(jù)轉(zhuǎn)成數(shù)值型的向量,才能方便計算。文本轉(zhuǎn)詞向量就是起到這樣的作用,當(dāng)然,方法有很多,這里我們提到的機(jī)制有點(diǎn)類似于算法word2vector,它會把文本轉(zhuǎn)成帶有語意的向量。


什么是帶有語意的向量?就拿上一篇推送里出現(xiàn)的tflearn.embedding它起到的作用說起。它其實是通過大量的語句分析挖掘出詞語之間的相似度,舉個簡單的例子,假設(shè)有大量的語句中都出現(xiàn)“美女喜歡帥哥”、“美女喜歡好看的男人”,那么算法會挖掘出“帥哥”和“好看的男人”可能是相似的語意,于是可以通過向量表示,以下向量純屬yy,為了舉例:

美女=[3,5,7]

帥哥=[5,3,9]

好看的男人=[5.1,2.9,9]


“帥哥”和“好看的男人”會被用距離更近的向量表示起來。另外,向量間的距離也可能會建立聯(lián)系,比方說“北京”是“中國”的首都,“巴黎”是“法國”的首都,那么向量:|中國|-|北京|=|法國|-|巴黎|


通過embedding函數(shù)把所有詞向量距離計算出來后,其實每句話就可以通過詞向量組裝成矩陣,簡單的方式是第一行是第一個詞向量,第二行是第二個。那么兩句話的語意相似度就可以通過簡單的矩陣減法計算啦,感謝收看。


上一篇《20行代碼實現(xiàn)電影評論情感分析》代碼地址,我只放了一點(diǎn)點(diǎn)測試數(shù)據(jù),完整的數(shù)據(jù)大家自己去IMDB下吧:https://github.com/jimenbian/sentiment-analysis

總結(jié)

以上是生活随笔為你收集整理的浅谈文本词向量转换的机制embedding的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。