日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

發布時間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

知識結構化問答是知識圖譜的一個重要的應用方向,雖然現在許多真實的使用體驗上,會被評價為“雞肋且智障”,并且在落地上還沒有太多的付費場景,但也不乏有不少學生、公司、機構在嘗試花時間去做這個事情。當前,醫療知識圖譜QAonMilitaryKG,成為了不少朋友都會參考的一個問答快速實現demo的案例,網上也有不少的復現和踩坑記錄總結。本文則圍繞著醫療知識圖譜QAonMilitaryKG和軍事武器知識圖譜問答兩個項目進行簡要介紹,希望可以作為大家的一個指引。

一、軍事武器知識圖譜構建與自動問答項目QAonMilitaryKG
QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存儲的軍事領域知識圖譜問答項目,包括飛行器、太空裝備等8大類,100余小類,共計5800項的軍事武器知識庫,該項目不使用圖數據庫進行存儲,通過jieba進行問句解析,問句實體項識別,基于查詢模板完成多類問題的查詢,主要是提供一種工業界的問答思想demo。
項目地址:
https://github.com/liuhuanyong/QAonMilitaryKG
1、項目背景
基于知識圖譜或知識庫的問答KBQA是目前垂直領域或百科領域問答中使用較多的一種問答方式,本質上是在做結構化數據的匹配查詢任務。筆者之前利用neo4g圖數據庫上基于醫療領域結構化知識庫,闡述了基于圖數據庫的醫療知識圖譜構建與問答方案,并實現了一個簡單的demo。項目見:(https://github.com/liuhuanyong/QASystemOnMedicalKG)
技術選型是實現自動問答系統的一個重要環節,這項工作與數據樣式關系尤為密切。經驗上來說,對于實體類型較多以及實體關系種類較多的知識庫,使用圖數據進行知識存儲是個較好的選擇。而對應實體類型較少,實體關系較少,實體屬性較多以及帶有時序性的數據時,選用文檔型數據庫mongodb是個不錯的選擇。
軍事領域是敏感度、機密系數較高的一個領域,其數據價值很高,獲取相關軍事數據并提供一個便捷的人機交互方式具有重要的戰略意義。軍事中的裝備信息,軍事基地信息,軍事作戰部隊之間的關聯信息,以圖譜的形式組織,能夠在作戰策略推薦,軍事人員培訓上起到重要作用。目前,公開的軍事資料不多,收錄較全的有環球軍事網,其中的人物,戰役,兵器庫,術語庫等為軍事提供了一個很好的信息平臺。其中,武器庫是其中結構化程度較高的一項數據,其中包括了飛行器、艦艇等8大類武器,轟炸機等100余小類,共計5800項武器結構化數據。這為結構化知識問答提供了一個的數據,因此,本項目選擇該數據集作為知識庫,使用mongodb進行自動問答的實驗。
2、項目目標
本項目目的在于采集并解析軍事武器庫網站,進行字段信息的標準化,形成一定規范、規模的軍事武器裝備結構化知識庫。 實現基于mongodb的軍事領域知識庫的自動問答。
1)項目框架

2)項目構成
1.數據集類型及統計信息

2.數據樣式

3.問句類型

3)項目運行
主要文件構成如下:

3)項目運行
1.執行insert_data.py,將輸入倒入至mongodb當中。
2.執行military_qa.py,開始進行問答測試。
3.若需要進行自我重新構建數據,可運行collect_data.py。
4)項目結果

二、醫藥領域知識圖譜快速及醫藥問答項目QAonMilitaryKG

本項目立足醫藥領域,以垂直型醫藥網站為數據來源,以疾病為核心,構建起一個包含7類規模為4.4萬的知識實體,11類規模約30萬實體關系的知識圖譜,并以此作為實驗數據底座,實現一個基于規則的快速知識圖譜問答。

項目地址:
https://github.com/liuhuanyong/QASystemOnMedicalKG
1、數據來源
該項目的數據來自垂直類醫療網站尋醫問藥,使用爬蟲腳本data_spider.py,以結構化數據為主,構建了以疾病為中心的醫療知識圖譜,實體規模4.4萬,實體關系規模30萬。schema的設計根據所采集的結構化數據生成,對網頁的結構化數據進行xpath解析。項目的數據存儲采用Neo4j圖數據庫,問答系統采用了規則匹配方式完成,數據操作采用neo4j聲明的cypher。
1)實體類型及統計信息

2)關系類型及統計信息

3)屬性類型及統計信息

2、實現框架

3、支持的問題類型

4、項目構成
1.question_classifier.py:問句類型分類腳本
2.question_parser.py:問句解析腳本
3.chatbot_graph.py:問答程序腳本
5、項目效果

三、實踐總結
以上兩個項目分別以基于mongodb、neo4j作為數據存儲方式,給出了兩個實現方法。分別以軍事武器庫網站、醫療網站進行字段信息的標準化,形成一定規范、規模的結構化知識庫。在一定程度上還原了入門級的問答范式,該架構圖樸實且如實地介紹了面相結構化文本的知識構建以及結構化查詢流程以及粗略實現細節。
面向具有數字型數據的結構化知識的問句的形式有多種,主要有純屬性值查詢如:單實體單屬性,單實體多屬性,多實體單屬性,多實體多屬性等問題。帶篩選條件查詢,如如單屬性值與多屬性值區間查詢。最值條件查詢共三種,本項目初步實現了對這三種主要問句類型問答。
在實體識別,屬性值識別,數值識別上,主要采用的方式是領域詞及擴展詞,配合正則表達式的方式來實現,沒有使用學習模型。作為軍事領域,學習模型在武器類實體識別上效果可能不會太好,在識別后進行實體鏈接映射會遇到一定困難。
實體與查詢屬性項之間的對應和成對是整個問答查詢的最核心所在,以上兩個項目使用基于關系模板窮舉的方式、基于問題關鍵詞分類的方式完成該目標,準確率較高,但缺點是窮舉可能性不大,構造成本較高。而既然是結構化知識問答,那么業務場景下的問答應該是簡單的,多實體多屬性混雜出現的情況應該要少一些,即問題的問答可以很多樣,但問題的內部結構不應太復雜,否則就丟失了自動問答解放信息雜糅的本意了。
知識圖譜是結構化知識的一種方式,存儲方式可以用關系型,可以用nosql,也可以用圖數據庫,不同的方式的區別在于sql的轉化上。在關系級聯程度不高的情況下,使用非圖數據庫可能會是更好的方式。深度學習在工業界問答中,在基于qa對檢索中用的比較多,在結構化知識圖譜查詢中較難大顯身手,集中應用點在實體論元識別上,個人認為在實體屬性關系的識別上不會很驚艷,很有可能沒有規則來的快,來的準確。

關于作者
劉煥勇,liuhuanyong,現任360人工智能研究院算法專家,前中科院軟件所工程師,主要研究方向為知識圖譜、事件圖譜在實際業務中的落地應用。
得語言者得天下,得語言資源者,分得天下,得語言邏輯者,爭得天下。
1、個人主頁:https://liuhuanyong.github.io。
2、個人博客:https://blog.csdn.net/lhy2014/。
歡迎對自然語言處理、知識圖譜、事件圖譜理論技術、技術實踐等落地應用的朋友一同交流。

總結

以上是生活随笔為你收集整理的工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。