日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec中文语料实战

發布時間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word2Vec中文语料实战 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄(?)[-]

  • Word2Vec中文語料實戰

  • Word2Vec中文語料實戰

    ? ? ? ??

    ? ? ? ? 雖然Word2Vec在NLP領域很火,但網上關于Word2Vec中文語料訓練的入門級資料比較少,所以本人整理了一份,希望對感興趣的朋友有所幫助!本文使用的語料由作者親自收集,代碼由作者親自編寫,親測有效!

    ? ? ? ? 如有問題可聯系作者:QQ:771966081 ? ? ??微信:Bryce_cvprml

    1、環境配置

    ? ? ? ? 本人使用的是MacBook + Python2.7.11

    ? ? ? ??首先,安裝NLP工具包gensim,這里包含了今天的主角:Word2Vec

    ? ? ? ??? ? ? ??pip install --upgrade gensim

    ? ? ? ??其次,安裝中文分詞工具包jieba

    ? ? ? ??? ? ? ??pip install jieba

    2、語料庫說明

    ? ? ? ??從網上下載TXT版的《倚天屠龍記》,作為基本語料,還需要作進一步處理

    3、詳細實驗步驟

    3.1 文件編解碼(非必需)

    ? ? ? ??滿心歡喜地打開“倚天屠龍記.txt”,竟然是這樣的,難道是火星文?瞬間滿臉黑線,一臉懵逼。弱弱地問一句,有人能看懂嗎,膜拜一下。


    ? ? ? ??很顯然,這是由編解碼不一致引起的問題,即寫文件時的編碼類型和讀文件時的解碼類型不同。但本人沒有安裝可以自定義解碼方式的文本編輯器,所以只好小米加步槍,直接上代碼:

    [python] view plaincopy
  • #coding:utf8??
  • #讀取倚天屠龍記文本,轉碼后存在新的文件里??
  • fin?=?open('倚天屠龍記.txt',?'r')??
  • fou?=?open('倚天屠龍記_uft8.txt',?'w')??
  • line?=?fin.readline()??
  • while?line:??
  • ????newline?=?line.decode('GB18030').encode('utf-8')??#用GBK、GB2312都會出錯??
  • ????print?newline,??
  • ????print?>>?fou,?newline,??
  • ????line?=?fin.readline()??
  • fin.close()??
  • fou.close()??
  • ? ? ? ??其實很簡單,從原始文件“倚天屠龍記.txt”里逐行讀取文本內容,先解碼再編碼,然后輸出到新的文件“倚天屠龍記_uft8.txt”里。新的文件長這個樣子,是不是一下子能看懂了,很開心有木有^_^?

    3.2 中文分詞

    ? ? ? ??接下來,還要分詞、去掉標點符號。廢話不多說,直接上代碼。其實也很簡單,從“倚天屠龍記_uft8.txt”里逐行讀取文本,先分詞,再去掉標點符號,最后保存到文件“倚天屠龍記_segmented.txt”。分詞用到了jieba,本文刪除標點符號的方式有點粗暴,不許笑出聲來!(細心的讀者可能會問,為什么這里不直接給出代碼而只是代碼截圖呢,哈哈。。。因為這里直接貼上代碼格式會很亂,為了使代碼看起來清晰,只好這樣了)

    ? ? ? ??分詞后的結果如下,內心里一陣狂喜對不對?!


    3.3 模型訓練

    [python] view plaincopy
  • #coding:utf8??
  • import?gensim.models.word2vec?as?w2v??
  • model_file_name?=?'倚天屠龍記_model.txt'??
  • #模型訓練,生成詞向量??
  • sentences?=?w2v.LineSentence('倚天屠龍記_segmented.txt')??
  • model?=?w2v.Word2Vec(sentences,?size=20,?window=5,?min_count=5,?workers=4)???
  • model.save(model_file_name)??
  • 3.4 模型測試

    ? ? ? ??到了最激動人心的時刻,這里打印出了測試代碼和結果,看起來還真有點意思啊!趙敏和自己的相似度為1;趙敏和周芷若的相似度0.98277,比較接近;趙敏和韋一笑的相似度為0.80652,遠不如趙敏和周芷若相似;最后,查找與張三豐最相似的詞,直覺上來看,排前6的都有一定道理,滅絕師太和他都是一代掌門,也是宗師,最相似;排到2到6的都是他的徒弟和徒孫。


    4、參考文獻

    1)中文分詞工具包jieba:http://www.oschina.net/p/jieba/?fromerr=s7MN6pKB

    2)NLP工具包gensim:https://radimrehurek.com/gensim/models/word2vec.html


    總結

    以上是生活随笔為你收集整理的Word2Vec中文语料实战的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: heyzo在线播放 | 久久噜噜噜精品国产亚洲综合 | 北条麻妃av在线 | 狠狠操天天操 | 国产色秀 | 欧美性理论片在线观看片免费 | 欧亚av| 亚洲精品国产精品乱码在线观看 | 在线免费成人 | 深夜国产在线 | 五月婷婷小说 | 伊人免费在线观看高清版 | 欧日韩不卡在线视频 | 嫩草视频网站 | 色婷婷久久综合中文久久蜜桃av | 人妻内射一区二区在线视频 | 四色成人av永久网址 | 女人床技48动态图 | 波多野结衣乳巨码无在线 | 东北高大丰满bbbbzbbb | 亚洲激情自拍偷拍 | 欧美高清久久 | 中文字幕在线观看网站 | 久久在线观看 | 一区二区三区爱爱 | 99精品一区二区 | 午夜成年视频 | 久久特黄 | 国产网址在线 | 波多一区二区 | 亚洲影音先锋 | 奇米影视在线观看 | 国产欧洲亚洲 | 97精品视频在线 | 成人一区三区 | 欧美精品一级二级 | 久久亚洲综合网 | 朝桐光av在线 | 偷拍久久久 | 三上悠亚ssⅰn939无码播放 | 国产成人av一区二区三区 | 在线免费一级片 | 久久亚洲日本 | 国产精品丝袜在线观看 | 亚洲精品a| 亚洲精品一级二级 | 亚洲一级伦理 | 亚洲成av人片在线观看无 | 日韩激情视频一区二区 | 黄色亚洲精品 | 九七久久| 久久亚洲天堂 | 国产成人8x视频一区二区 | av地址在线观看 | 黄瓜视频在线播放 | 夜夜草网站 | 日日干天天爽 | 欧美日韩视频在线 | 少妇又紧又爽视频 | 成年人www| 亚洲美女黄色片 | 欧美视频1区 | 69久久精品无码一区二区 | 亚洲人妖在线 | www日本xxx| 国产成人精品在线观看 | 欲求不满的岳中文字幕 | av毛片在线看| 看片一区 | 茄子香蕉视频 | 精品丝袜一区 | 欧美另类在线播放 | 日本一区二区视频在线播放 | 国产精品永久免费观看 | www视频在线观看 | 精品少妇人妻av一区二区 | 日韩免费视频一区二区视频在线观看 | 激情综合婷婷 | 欧美激情视频一区二区三区不卡 | 亚洲最大福利网 | 久操亚洲 | 中午字幕在线观看 | 91久久一区| 波多野结衣视频免费在线观看 | 色播日韩 | 日本少妇一区二区 | 激情爱爱网 | 欧美成人做爰大片免费看黄石 | 美梦视频大全在线观看高清 | 里番acg★同人里番本子大全 | 日韩精品第二页 | 999久久久免费精品国产 | 久久艹久久| 国产一区二区黄色 | 婷婷99 | 加勒比不卡视频 | 大地资源二中文在线影视观看 | 国产又大又黑又粗免费视频 | 人妻少妇偷人精品视频 |