日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

小型动漫知识图谱的构建 (Python+Neo4j) (纯实践内容,基于bilibili所有正版番剧的动漫、声优、角色、类型)

發(fā)布時(shí)間:2025/3/15 python 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 小型动漫知识图谱的构建 (Python+Neo4j) (纯实践内容,基于bilibili所有正版番剧的动漫、声优、角色、类型) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)源:bilibili所有番劇的詳情頁面的信息,共計(jì)3000+的番劇

(已經(jīng)整理好的數(shù)據(jù)和代碼下文有鏈接)

?

步驟1:抽取信息

從各個(gè)詳情頁面中抽取信息,比如動(dòng)漫這個(gè)節(jié)點(diǎn)的文件,大概內(nèi)容如下

這一步稍微有些麻煩的地方就是爬蟲的時(shí)候數(shù)據(jù)可能會(huì)出現(xiàn)清理不干凈的情況,比如某個(gè)name的前面或者后面有空格、換行符等奇怪的字符,會(huì)對后面建立relation的表產(chǎn)生很多麻煩,注意數(shù)據(jù)要清理干凈。

?

?

?

步驟2:關(guān)系分類

先理清所有節(jié)點(diǎn)和關(guān)系,比如相對本文的動(dòng)漫信息而言,關(guān)系如下

雖然這里的關(guān)系是有箭頭的,但是本文所用的NOSQL數(shù)據(jù)庫為neo4j,neo4j中的關(guān)系都是雙向的關(guān)系,可以自行將start_id和end_id進(jìn)行調(diào)換測試。

?

?

?

步驟3:生成所有關(guān)系和節(jié)點(diǎn)CSV文件

neo4j最方便的地方在于可以在CSV文件中保留好對應(yīng)關(guān)系,然后直接導(dǎo)入數(shù)據(jù)庫,所以要把我們當(dāng)前需要的四個(gè)節(jié)點(diǎn)以及四個(gè)關(guān)系,一共八個(gè)CSV文件生成完畢。

下面是細(xì)節(jié)性的一些關(guān)鍵問題:

?

1.所有的節(jié)點(diǎn)文件,第一列都要為“index:ID”,最后一列都要為":LABEL" , 中間所有列即為這個(gè)實(shí)體的屬性。注意實(shí)體屬性最好不要用中文,label即為這個(gè)實(shí)體的對應(yīng)標(biāo)簽。

?

2.所有的關(guān)系文件,第一列都要為“:START_ID”,第二列都要為":END_ID",第三列要為"relation",第四列要為":TYPE" , start_id對應(yīng)一個(gè)節(jié)點(diǎn)的index_id,end_id對應(yīng)另一個(gè)節(jié)點(diǎn)的end_id,relation即為兩者的關(guān)系,type即為標(biāo)簽,一般type和relation內(nèi)容相同

?

3.不管是實(shí)體還是關(guān)系文件里的index_id還是end_id,請一開始設(shè)一個(gè)比你數(shù)據(jù)規(guī)模大出兩個(gè)數(shù)量級(jí)的初始值,比如本文的所有id都是100000+i,因?yàn)橹麈I設(shè)的太小容易造成不同文件的主鍵混淆,巨坑注意。

?

4.不推薦實(shí)體和關(guān)系文件同時(shí)生成,一開始我想省力一個(gè)函數(shù)試圖解決兩個(gè)實(shí)體三個(gè)關(guān)系,后來中途出了各種意想不到的問題,比如實(shí)體主鍵重復(fù),實(shí)體數(shù)據(jù)清洗不夠完全等等問題,而且當(dāng)數(shù)據(jù)量巨大的時(shí)候,有些網(wǎng)站反爬蟲機(jī)制很強(qiáng)經(jīng)常出現(xiàn)IP被封或者服務(wù)器主動(dòng)斷開連接問題的時(shí)候,自身的異常處理沒有做到位,斷點(diǎn)續(xù)爬也沒做好,一切都要重來。所以,建議先把所有必要數(shù)據(jù)先收集完畢,混亂也無所謂,然后再進(jìn)行數(shù)據(jù)處理。

?

?

?

步驟4:導(dǎo)入neo4j數(shù)據(jù)庫

導(dǎo)入數(shù)據(jù)庫的語法很簡單,相對于本文而言,只需打開neo4j的bin目錄,輸入以下內(nèi)容即可

neo4j-admin import --mode=csv --database=anime.db --nodes importdata\anime\animes.csv --nodes importdata\anime\catagorys.csv --nodes importdata\anime\characters.csv --nodes importdata\anime\voice_actors.csv --relationships importdata\anime\anime_and_character_releation.csv --relationships importdata\anime\anime_and_voice_actor_releation.csv --relationships importdata\anime\anime_type.csv --relationships importdata\anime\character_and_voice_releation.csv

?

--mode=csv,指定為csv模式

?

--database=anime.db ,指定數(shù)據(jù)庫,這里又是一個(gè)坑,neo4j不方便直接在頁面上切換數(shù)據(jù)庫,要生成新的數(shù)據(jù)庫你必須要去conf文件修改默認(rèn)配置,而這里指定的數(shù)據(jù)庫如果導(dǎo)入失敗的話有時(shí)候也會(huì)自動(dòng)生成,你需要親手去data文件里把生成的數(shù)據(jù)庫文件刪除然后再次進(jìn)行導(dǎo)入,不然會(huì)報(bào)數(shù)據(jù)庫已經(jīng)存在的錯(cuò)誤。

?

--nodes + 文件 ,為導(dǎo)入節(jié)點(diǎn),文件路徑的根目錄默認(rèn)為neo4j/bin,請把csv文件放在你指定的目錄下。

?

-- relationship + 文件 ,同理

?

?

?

步驟5:cypher語句的編寫

cypher語句作為neo4j的查詢語句,極其人性化便于使用,入門中文文檔鏈接如下

http://neo4j.com.cn/public/cypher/default.html

?

下面將對動(dòng)漫知識(shí)圖譜來做一下實(shí)際的查詢

?

1.刀劍神域第二季出演的所有聲優(yōu)

?

Cypher語句:MATCH p = (a:Anime)-[r:`出演聲優(yōu)`]->() where a.name=~"刀劍神域.+" return p

?

?

2.我的英雄學(xué)院三季中所有的角色

?

Cypher語句:MATCH p=(a:Anime)-[r:`擁有角色`]->() where a.name=~"我的英雄學(xué)院.+" RETURN p

?

?

?

3.花澤香菜出演的所有動(dòng)漫角色

?

Cypher語句:match (p:voice_actor{name:'花澤香菜'})--(b:character) return p,b

?

?

4.查詢跟一部動(dòng)漫相關(guān)的所有關(guān)系:

《我的英雄學(xué)院》三季+OAD 所有關(guān)系

Cypher語句:match p=(a:Anime)-[r]->() where a.name=~"我的英雄.+" return p

?

5.《刀劍神域第二季》所有關(guān)系

?

Cypher語句:match p=(a:Anime)-[r]->() where a.name=~"刀劍神域.+" return p

?

6.兩個(gè)節(jié)點(diǎn)之間的最短路徑

?

阿良良木歷君和折原臨也的關(guān)系,最短關(guān)系就是同時(shí)都是神谷浩史配音

Cypher語句:match (a:character{name:"折原臨也"}),(b:character{name:"阿良良木歷"}),r=shortestPath((a)-[*..3]-(b)) return r

?

?

?

7.兩個(gè)節(jié)點(diǎn)間的關(guān)聯(lián)深度增加

?

Cypher語句:match r = (a:character{name:"折原臨也"})-[*..3]-(b:character{name:"阿良良木歷"}) return r

3為關(guān)聯(lián)的深度

折原臨也是無頭騎士異聞錄中的人物

阿良良木歷是物語系列中的人物

而神谷浩史同時(shí)參與了兩部作品的配音工作

所以關(guān)聯(lián)的深度為3!

?

實(shí)現(xiàn)過程中的踩過的部分坑如下(僅供參考):

??? 1.多線程運(yùn)作時(shí),務(wù)必不要將寫入操作和爬蟲請求寫在一起,死鎖可能造成error,然后全部GG
??? ?
??? 2.四核電腦(相對于本機(jī)而言)線程數(shù)最好不要超過32,不然容易死鎖效率也無法提升,有的時(shí)候根本沒必要多線程的時(shí)候就別用,先自己測試一下效率再考慮是否用多線程
??? ?
??? 3.先將爬蟲數(shù)據(jù)保存csv,然后通過csv再建立關(guān)系,原因同上
??? ?
??? 4.ThreadPool務(wù)必注意將map的key函數(shù)改成傳參模式,將寫入操作把列表加上全局變量聲明,寫在key的函數(shù)內(nèi)
??? ?
??? 5.前端數(shù)據(jù)注意先測試幾組數(shù)據(jù)再總體爬蟲,防止前端內(nèi)容不一致的錯(cuò)誤導(dǎo)致正則出錯(cuò),比如':'和':'和多余的"\\t" "\n"等等
??? ?
??? 6.相對于bilibili而言,要注意爬取的是json中的media_id而不是播放頁面的play參數(shù),兩者差異巨大容易混淆
??? ?
??? 7.相對于bilibili而言,反爬蟲機(jī)制弱到幾乎沒有(但用一),但還是要注意異常處理和請求超時(shí)、請求間隔
??? ?
??? 8.Http_header可有可無(限bilibili,但長期請求過多頻率過快也會(huì)被封IP),看心情
??? ?
??? 9.neo4j的中文默認(rèn)編碼為utf8無bom模式,程序內(nèi)無法解決編碼問題就去文檔修改編碼
??? ?
??? 10.python編碼出現(xiàn)問題必要時(shí)候可以轉(zhuǎn)換成raw_unicode_escape編碼再進(jìn)行encode
??? ?
??? 11.關(guān)系和節(jié)點(diǎn)最好不要一起建,因?yàn)楣?jié)點(diǎn)如果屬性只有一個(gè)的話可能會(huì)重復(fù),MD

?

相關(guān)文件和代碼的鏈接如下:

代碼風(fēng)格混亂內(nèi)容辣雞僅供參考,文件經(jīng)過測試可以使用

https://download.csdn.net/download/shr903988854/10729235

https://blog.csdn.net/shr903988854/article/details/83145088

總結(jié)

以上是生活随笔為你收集整理的小型动漫知识图谱的构建 (Python+Neo4j) (纯实践内容,基于bilibili所有正版番剧的动漫、声优、角色、类型)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。