日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python 求连线相似度_Python分析《都挺好》中的人物关系,苏大强与蔡根花是真爱?...

發(fā)布時(shí)間:2025/3/20 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 求连线相似度_Python分析《都挺好》中的人物关系,苏大强与蔡根花是真爱?... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

如今大火的電視劇《都挺好》源于阿耐的同名小說(shuō),今天我們來(lái)對(duì)這部小說(shuō)使用python分析一下人物關(guān)系。本文主要使用google推出的word2vec進(jìn)行分析。使用的庫(kù)主要有jieba、gensim。

一、文本準(zhǔn)備

從網(wǎng)上下載《都挺好》小說(shuō)txt。打開(kāi)查看如下所示:

?

可以看出,文本中有分段以及大量的換行符,所以在讀取文本時(shí)需要先去除這些符號(hào)。讀取文本函數(shù)如下:

二、文本分詞

在使用word2vec進(jìn)行模型訓(xùn)練之前,首先需要將文本處理成word2vec可以操作的格式,即分詞后使用空格分隔的文本。本文使用jieba進(jìn)行分詞,為了提高分詞效果,加入了用戶(hù)字典和停用詞設(shè)置。

用戶(hù)字典格式為:

停用詞格式為:

以下是添加用戶(hù)字典的代碼:

以下是添加停用詞設(shè)置:

下面開(kāi)始分詞,一開(kāi)始直接使用jieba分詞,但是后面做相似度分析的時(shí)候效果不好,因?yàn)楹枚酂o(wú)關(guān)詞性的詞也跑出來(lái),如下圖:

所以為了提高效果,在分詞的時(shí)候加入了詞性,分詞的代碼如下:

調(diào)用函數(shù)之后會(huì)產(chǎn)生兩個(gè)文件,一個(gè)文件是分詞的文件,用來(lái)進(jìn)行word2vec訓(xùn)練,另一個(gè)文件存儲(chǔ)分詞相應(yīng)的詞性。此時(shí),我們還需要一個(gè)能根據(jù)詞來(lái)查詢(xún)其詞性的方法,代碼如下:

?

三、模型訓(xùn)練

經(jīng)過(guò)第二步的分詞之后,就可以進(jìn)行訓(xùn)練了。訓(xùn)練主要是調(diào)用word2vec相關(guān)的函數(shù)將詞向量化,主要代碼如下:

模型已經(jīng)生成,我們可以調(diào)用模型來(lái)看一下具體某個(gè)詞的詞向量

是一個(gè)200維的向量。維度可以由我們定義。至此,模型已經(jīng)訓(xùn)練好。下面進(jìn)行測(cè)試

四、模型測(cè)試

如果此時(shí)直接使用模型,效果和之前一樣,我們可以利用已生成好的詞性文件來(lái)進(jìn)行優(yōu)化。主要思路是當(dāng)查找到與目標(biāo)相似度較高的詞時(shí),查詢(xún)其詞性,如果是想要的詞性,就輸出,不是就拋棄。具體代碼如下:

本次求與“蘇大強(qiáng)”相似度最高的10個(gè)詞,運(yùn)行結(jié)果如下

效果確實(shí)好多了。但是發(fā)現(xiàn)這些詞沒(méi)有文章中的主人公。查看蘇大強(qiáng)與蔡根花的相似度:

運(yùn)行結(jié)果如下:

蘇大強(qiáng)與蔡根花的相似度明明很高,為什么求相似度top10時(shí)沒(méi)有她。

還有其他主人公的相似度比上面的詞相似度低一些,但是要更加的有用。如何能顯示出更多有效的詞呢。

后來(lái)經(jīng)過(guò)排查,發(fā)現(xiàn)是因?yàn)椤安谈ā痹~性為空,所以在進(jìn)行優(yōu)化時(shí),就把本文的人名優(yōu)化去了,原因是jieba沒(méi)有把這些詞當(dāng)做人名(nr)。

五、模型優(yōu)化

針對(duì)這種情況,我們有兩種解決方式,第一種是將這些人名的詞性加入到詞性文件,這樣在查找時(shí),就可以找到。第二種方式是直接尋找指定詞與目標(biāo)詞的相似度。第二種目標(biāo)性更強(qiáng),下面我們直接用用戶(hù)字典里的詞作為與目標(biāo)“蘇大強(qiáng)”的相似度比較。

還是不太好看,排序輸出后為:

從結(jié)果中可以看出,蘇大強(qiáng)與蔡根花的相似度最高,蔡根花是蘇大強(qiáng)的保姆,也是他的 “寶貝”,也挺符合故事情節(jié)的。

來(lái)源:Python中文社區(qū)

作者:KingShine

總結(jié)

以上是生活随笔為你收集整理的python 求连线相似度_Python分析《都挺好》中的人物关系,苏大强与蔡根花是真爱?...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。