日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

推荐:腾讯开源的词向量精简版本下载

發布時間:2025/3/8 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐:腾讯开源的词向量精简版本下载 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

騰訊AI Lab 宣布開源大規模、高質量的中文詞向量數據,該數據包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,為對話回復質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。但是有一個很大問題,就是詞向量過大,約16g,用普通服務器讀取詞向量需要半小時。一般用戶并不需要太大的詞向量,為方便用戶,本文搜集了騰訊原版詞向量精簡版本,并提供各種大小版本的詞向量下載。

有關詞向量和嵌入技術請看這篇文章(圖解word2vec(原文翻譯))

騰訊AI Lab開源大規模高質量中文詞向量數據簡介:

https://cloud.tencent.com/developer/article/1356164

原版騰訊詞向量下載:

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解壓約16g,文末提供百度云下載)

如何使用

很多模型需要測試,建議初次測試的時候使用稍小的詞向量版本,比如70000個詞的版本(133mb),最后再使用原版800萬個詞的版本,這樣可以節省很多實驗時間。很多時候,70000個詞的詞向量已經可以滿足要求了。

讀取模型

from gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format("50-small.txt")

使用模型

model.most_similar(positive=['女', '國王'], negative=['男'], topn=1)model.doesnt_match("上海 成都 廣州 北京".split(" "))model.similarity('女人', '男人')model.most_similar('特朗普',topn=10)

深度學習模式示例

使用LSTM模型,根據豆瓣評論,預測打分。

  • 首先下載豆瓣的數據

豆瓣評論數據149M (文末提供下載)

  • 然后下載庫對應的分詞包。(文末提供下載)

  • 使用效果

加載70000字典前

?加載70000字典后?

  • 代碼文件見?

Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下載)

參考:

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL?(這位小哥搜集的,希望star下)

https://cloud.tencent.com/developer/article/1356164

? ??總結和下載

騰訊AI Lab 開源的中文詞向量數據,包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,但是有一個很大問題,就是詞向量過大,約15g,用普通服務器讀取詞向量需要半小時。一般用戶并不需要太大的詞向量,為方便用戶,本文搜集了騰訊原版詞向量精簡版本,并提供各種大小版本的詞向量下載。并提供各種大小版本的詞向量下載。

詞向量及相關資料下載:

根目錄:

  • 5000-small.txt 這個有5000詞,可以下下來玩玩

  • 45000-small.txt 這個有4.5w的詞,已經能解決很多問題了

  • 70000-small.txt 7w詞 ?133MB

  • 100000-small.txt 10w詞 190MB

  • 500000-small.txt 50w詞 953MB

  • 1000000-small.txt 100w詞 1.9GB

  • 2000000-small.txt 200w詞 3.8GB

  • Tencent_AILab_ChineseEmbedding.tar.gz 原版詞向量(6.31g),解壓后16g

code文件夾

  • doubanmovieshortcomments.zip豆瓣評論數據149M

  • 分詞文件(如:8000000-dict.txt等)

  • Use Tencent Word Embeddings with douban datasets.ipynb(測試代碼)

下載鏈接:

https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw

提取碼:bpai

若被和諧,請回復“騰訊詞向量”獲取最新地址。

本站簡介↓↓↓?

“機器學習初學者”是幫助人工智能愛好者入門的個人公眾號(創始人:黃海廣)

初學者入門的道路上,最需要的是“雪中送炭”,而不是“錦上添花”。

本站的知識星球(黃博的機器學習圈子)ID:92416895

目前在機器學習方向的知識星球排名第一(上圖二維碼)

往期精彩回顧

  • 良心推薦:機器學習入門資料匯總及學習建議(2018版)

  • 黃海廣博士的github鏡像下載(機器學習及深度學習資源)

  • 吳恩達老師的機器學習和深度學習課程筆記打印版

  • 機器學習小抄-(像背托福單詞一樣理解機器學習)

  • 首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書

  • 機器學習的數學基礎

  • 機器學習必備寶典-《統計學習方法》的python代碼實現、電子書及課件

  • 吐血推薦收藏的學位論文排版教程(完整版)

  • Python代碼寫得丑怎么辦?推薦幾個神器拯救你

  • 重磅 | 完備的 AI 學習路線,最詳細的資源整理!

  • 圖解word2vec(原文翻譯)

備注:本站qq群:865189078(共8個群,不用重復加)。

加入本站微信群,請加黃博的助理微信,說明:公眾號用戶加群。

總結

以上是生活随笔為你收集整理的推荐:腾讯开源的词向量精简版本下载的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。