日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱入门视频(三)

發布時間:2024/7/5 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱入门视频(三) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習內容

小象學院 b站 第三章
【其實后面的方法學習只是一個框架式的學習,并不明白具體的操作】
鏈接

問題:

  • 知識圖譜究竟是什么?
    可以看看開放知識圖譜
    其實就是將我們的語言拆分轉換為符號表達,之后經過機器學習來將離散式的數據轉化為可分布式的表達。
    而知識圖譜的構建,是可以不同的,根據需要來定!比如只是關于人際關系的,再比如關于某個人的所有的新聞,再比如全部是關于政府部門的或者是事故的,所以也就有了知識的融合
  • 企業構建知識圖譜需要根據需求來的
  • 自然語言轉化為sql(知識圖譜),后面會講
  • 開放數據是不能直接用的
  • schema和本體關系 :schema是輕量級本體;
  • 圖數據庫是用來存儲知識圖譜;
    多庫存儲的難點:是在于存儲的問題還有查詢問題,本體需要不需要切分,消除歧義等;
  • 知識庫和知識圖譜有什么區別?
    知識圖譜是一個大的系統; 知識圖譜里面關于知識構建、知識融合之后就產生了知識庫,而知識庫我們就需要對它進行存儲,就會產生圖數據庫。
  • 怎么確保數據的準確性
    對于開放數據庫等進行領域建模、領域知識進行篩選
  • 第三部分: 知識圖譜技術概覽

    1. 簡介

    由于數據源的不同,比如眾包、傳感器、多媒體等流,我們又可以分別使用不同的方法來得到更加規范的數據表示、更強的數據關聯,并存儲到Hbase等數據庫中,之后根據具體的需要再利用這些知識進行知識表示、知識抽取、知識問答等應用。
    而知識表示是根本

    2. 知識表示

    知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣通過符號之間的運算來模擬人腦的推理過程。
    現在一般基于數理邏輯的知識表示–》基于向量空間學習的分布式知識表示。
    語義網知識表示框架

    w3C可以看到最新的語義網知識表示框架。

    2.1 知識表示的離散分布

    2.1.1 RDF:Triplet-based Assertion model (基于三元組的斷言模型)

    鏈接
    RDF: (資源描述框架,Resource Description Framework)是描述網絡資源的 W3C 標準, ,比如網頁的標題、作者、修改日期、內容以及版權信息等。
    RDF的含義就是描述資源的框架(Framework for Describing Resources),下面我們逐個來看這三個詞的意思。
    資源(Resource):所有在Web上被命名、具有URI(Unified Resource Identifier 統一資源描述符)的東西。如網頁、XML文檔中的元素等;
    描述(Decription):對資源屬性(Property)的一個陳述(Statement),以表明資源的特性或者資源之間的聯系;
    框架(Frameword):與被描述資源無關的通用模型,以包容和管理資源的多樣性、不一致性和重復性。
    綜合起來,RDF就是定義了一種通用的框架,即資源-屬性-值的三元組,一不變應萬變,來描述Web上的各種資源。
    下面我們來看一個簡單的RDF的例子:
    (指明被描述資源的URI)
    Tim Bray (被描述資源有一個叫Author即作者的屬性,其值是Tim Bray)
    (被描述資源有一叫Home-Page即主頁的屬性,其值指向另一資源)
    (結束標志)

    RDF Graph: Directed Labeled Graph(有向標記圖)

    2.1.2 RDFS:Simple Vocabulary and Schema(簡單的詞匯和模式)

    RDF的序列化格式
    schema: 和數據庫中表的設計類似!
    常用的格式: RDF/XML、RDFa
    具體實現

    下面是RDF語法的一個實例,用序列語法表示如下:
    就只是包含了title、creator、data三個屬性

    <?xml version=“1.0”?><RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#><Description about=http://www.dlib.org/dlib/may98/miller><DC:title>An introduction to the Resource Description Framework</DC:title><DC:creator>Eric Miller</DC:creator><DC:date>1998-0501</DC:date></Description></RDF>

    這個例子如果以RDF簡略語法來表示則為:

    <?xml version=“1.0”?><RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#><Description about=http://www.dlib.org/dlib/may98/miller>DC:title = “An introduction to the Resource Description Framework"DC:creator = "Eric Miller"DC:date = "1998-0501"</Description></RDF>

    2.1.3 OWL:Web Ontology Language

    本體 == 哲學的概念
    但是不能直接用。是描述語言。 多人進行描述
    OWL extends RDF schema

    OWL:OWL Web本體語言,W3C推薦標準
    這種本體描述語言,可以用來描述Web文檔和應用中內在的類和關系。
    為什么使用OWL語言?

    • 通過定義類以及類的屬性來形式化某個領域;
    • 定義個體并說明它們之間的屬性;
    • 在OWL語言的形式化語義允許的層次上,對類和個體進行推理。
      推理規則: 比如屬性鏈,姚明的父親的父親。

    SPARQL簡介
    上面做了知識庫,那么就會有知識庫的查詢;
    SPARQL(SPARQL Protocol and RDF Query Language),是為RDF開發的一種查詢語言和數據獲取協議,它是為W3C所開發的RDF數據模型所定義,但是可以用于任何可以用RDF來表示的信息資源。

    怎么去查詢和存儲在后面去講解。

    這里的 ?其實是可以被替代的,需要我們去填充它; 所以知識圖譜上的查詢更多的是主圖匹配,怎么快速的去完成主圖匹配,在圖中有同構的判斷其實是一個np hard問題。所以我們在nlp中要學會怎么去轉化為spaRQL問題
    這里的spaRQL也可以寫成圖的形
    JSON-LD:數據交換格式

    6. RDFa、HTML5 MicroData:在網頁中嵌入語義數據

    上面的一句話是對一個電影的描述, 我們可以將每句話的每個詞進行分類。
    做結構化信息,放到一些排序的函數當中,通過知識眾包去驗證這是一個高質量的知識之后,搜索引擎會幫你免費的優化,使得你可以根據關鍵詞進行排序搜索。

    2.2. 知識圖譜的分布式表示KG Embedding

    前面的都是分布式的表示,下面的是知識圖譜的分布式表示-KG Embedding

    在保留語義的同時,將知識圖譜中的實體和關系映射到連續的稠密的低維向量空間。 在這個過程中我們使用三種方法:張量分解、神經網絡、距離模型。


    張量分解: 多維的矩陣我們稱為張量,它不是一個二維的,因為二維指針是二維的;所以是用來刻畫我本身的entity和relation之間的關聯,并且選出它們之間低維的標注,這里的A其實就是entity,R則是relation,每個relation和各個entity之間的交互
    神經網絡:基于neural Tensor Layer的知識圖譜。使得一些正確的三元組勢能更高,錯誤的三元組勢能更低;
    距離模型: 是經常用到的方法,用在在低維的向量和原本的低維向量語義的距離; 是在翻譯中決定的。

    3. 知識抽取: NLP + KR


    從下往上看;

    3.1 主要方法

    模板的選取必須是準確的,有選擇的;

    4. 知識存儲

    5. 知識融合

    6. 知識問答

    6.1 KBQA例子:

    姚明的身高;
    誰是第三十五屆美國總統;

    6.2 KBQA基本實現流程:

    7. 知識推理

    簡單而言,推理是指基于已知事實推出未知的事實的計算過程;
    大部分搜索引擎目前都已經支持了一定的推理能力;
    百度輸入:姚明的女兒的媽媽的老公
    這就是屬性鏈,前面的本體的屬性

    7.1 基于描述邏輯的推理:本體推理

    7.2 基于規則挖掘的推理

    比如小明和小紅是小王和小李的孩子,那也可以說小王和小李是小明和小紅的父親;

    7.3 基于表示學習的推理

    8. 語義搜索

    9. 知識融合

    Data Linking、Knowledge Fusion、Record Linkage、Entity Alignment。。。
    主要目的是不同數據源中的實體信息進行整合,形成更加全面的實體信息。
    比如一個人改變了發型或者是戴上墨鏡等都是他本人。
    比如維基百科、百度百科、互動百科都有類似的表達,或者其它沒有的內容。

    9.1 知識融合:典型工具-Dedupe

    主要處理流程是對所有records進行clustering,然后在組內部通過計算相似度特征和機器學習分類模型對任意一對records進行預測是否為同一實體。
    要求兩個數據集有相似的結構

    9.2 知識融合:典型工具-LIMES

    不要求兩個數據集的實體具有相似的結構,
    可靈活配置匹配規則,自定義距離計算模型。

    10.知識眾包:Wikibase、Schema.ORG

    結構化數據協同編輯叫wikibase;

    總結

    以上是生活随笔為你收集整理的知识图谱入门视频(三)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。