日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 中国近代历史人物知识图谱

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 中国近代历史人物知识图谱 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

OpenKG地址:http://openkg.cn/dataset/zgjdlsrw

項目地址:http://www.zjuwtx.work/project/kg

開放許可協議:CC BY-SA 4.0 (署名相似共享)

貢獻者:浙江大學(王天笑)


1、引言

中國近代歷史涌現了?量的杰出?物和事跡,史料文獻豐富,構成了一個龐?的知識體系。本項?旨在收集挖掘中國近代歷史?物信息,構建?物及其相關實體的知識圖譜,為歷史資料的檢索和研究?作提供幫助。

2、知識圖譜構建

2.1?數據來源

中國近現代歷史?物信息主要來源于百度百科和歷史記兩個?站。通過 python scrapy 爬?獲取了 近1300位?物的結構化數據,半結構化數據和?本數據。其中,結構化數據主要包含?物的姓名、字號、出?地、?卒年?等信息;半結構化數據包括?物間的關系、歷史成就等;?本數據主要是?物的生平介紹、評論等,有?站負責編輯維護,語?描述和記錄的史料不?定完全準確。

2.2?數據處理

2.2.1 半結構化數據處理

  • 數據變換:從半結構化數據中提取信息,轉化匯總成相同的格式,例如?

  • 數據清理:將明顯不正確的信息刪除,例如?

  • 數據集成:整合兩個數據源的數據,如果有不一致,直接刪除

2.2.2?文本數據處理

項目嘗試了基于語義??標注和基于深度學習的實體關系抽取?法。

(1)基于LTP語義角色標注的實體關系抽取

LTP(Language Technology Platform)是由哈爾濱工業?學開源的中??然語?處理?具,用戶可以使?這些?具對于中??本進?分詞、詞性標注、句法分析等等?作。Github:https://github.com/HIT-SCIR/ltp?

使?LTP提供的語義??標注分解句?:

上述例句被分解為了中?語(動詞:加?),主語A0(王俊昌),賓語A1(中國共產黨)和時間狀 語ARGM-TMP(1943年2?)。通過構建基于語義??標注的規則,可以從?本數據中提取符合規則的關系,準確度較?。但規則構建依賴??。

(2)基于OpenUE的實體關系抽取

OpenUE 是?個輕量級知識圖譜抽取?具,?于基于預訓練語言模型的知識圖譜抽取任務。Github:https://github.com/zjunlp/OpenUE?

使?OpenUE?具包和默認ske數據集訓練并執?抽取。在簡單句?中準確率較?,但是在所有?本 數據中的表現并不理想。原因可能是?本語句通常?較復雜,且句?間存在上下?關聯的情況。例如主 語缺失等。

(3)基于OpenNRE的人物關系抽取

OpenNRE 是?個開源且可擴展的工具包,它提供了一個統?的框架來實現關系提取模型。項?嘗 試使?基于OpenNRE的中?人物關系抽取,Github:https://github.com/taorui-plus/OpenNRE

按照上述Github項?的描述訓練模型并執?關系提取任務,結果同樣在簡單句型中表現良好,但在 多數復雜句型中出現了遺漏和錯誤。綜上所述,出于準確度、史實正確性優先的考慮,項目最終使?了基于語義??標注的實體關系抽取?法。

3、知識圖譜存儲

項目基于neo4j圖數據庫存儲實體關系數據。實體對象共3類:?物,組織(學校),成就(作品)。其中人物包含屬性:名稱、附加名稱、出?地、出??期、死亡?期、?作職責、名族、國籍(在華外籍?物)。實體關系共3個?類:相關?物、畢業于、創作。相關?物可細分為7個?類,21個具體關系,如下圖所示:

4、知識圖譜應用

項目最終成果使?BS形式部署上云。后端打包為Docker鏡像部署到阿?云ECI,前端部署到阿?云CDN??梢栽L問 http://www.zjuwtx.work/project/kg 查看。

4.1 人物檢索

基本的?物檢索功能,查看?物屬性以及與其他實體間的關系。

4.2?圖譜推理

基于規則的圖譜推理,通過?定義Cypher腳本實現。包括關系推理和屬性補全。

4.3?知識眾包

考慮到數據來源有限,同時數據內容以及數據處理過程不可避免地會存在?些問題,導致了圖譜知識的缺失和錯誤。項目提供了知識眾包功能,所有?戶可以快速提交新增、修改數據的請求,在審核通過后會合并到現有的知識圖譜中。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的开源开放 | 中国近代历史人物知识图谱的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。