知识图:从图和数据库中获取知识
知識圖:從圖和數據庫中獲取知識
知識圖到底是什么,以及關于它們的所有炒作是什么?如果想成為世界各地的Airbnbs,Amazon,Google和LinkedIn,那么學會區分真實的炒作,定義不同類型的圖以及為用例選擇合適的工具和數據庫至關重要。
知識圖被炒作。現在可以正式地說這句話,因為Gartner在2018年對新興技術的炒作周期中包括了知識圖。盡管不必等待Gartner-將其宣布為“圖表年”是在2018年的揭幕戰。像在該領域活躍的任何人一樣,看到了機遇和威脅:伴隨著炒作而來的是混亂。
知識圖是真實的。至少已經過去了20年。知識圖在其原始定義和化身中一直與知識表示和推理有關。諸如受控詞匯表,分類法,模式和本體之類的東西都是基于標準和實踐的語義Web基礎構建的。
Planet Analytics 1.0:從UN聯合實驗室到全球
為什么這樣的人制作的Airbnb,亞馬遜,谷歌,LinkedIn,尤伯杯和Zalando在其核心業務的運動知識圖?亞馬遜和微軟如何通過最新產品加入圖數據庫供應商的組織?以及如何運營這項工作?
知識圖很酷之前
知識圖聽起來很酷。但是到底是什么呢?這聽起來像是一個幼稚的問題,但實際上正確定義定義是如何構建知識圖。從分類法到本體-本質上是復雜性各異的方案和規則-多年來人們一直在這樣做。
RDF是用于編碼這些模式的標準,具有圖結構。因此,將編碼在圖結構頂部的知識稱為“知識圖”聽起來很自然。從事這種工作的人,即數據建模人員,被稱為知識工程師或本體專家。
此外:AWS Neptune即將release發布GA:圖形數據庫用戶和供應商的好,壞和丑陋。
Planet Analytics 1.0:從UN聯合實驗室到全球
那么,有什么變化?為什么這樣的人制作的Airbnb,亞馬遜,谷歌,LinkedIn,尤伯杯和Zalando在其核心業務的運動知識圖?亞馬遜和微軟如何通過最新產品加入圖數據庫供應商的人群?以及如何使這項工作?
通過基礎架構規劃避免5G部署陷阱
5G將對的數據基礎架構產生越來越多的新需求,因此現在是規劃部署的時候了。
由Vertiv贊助
這些知識圖可能有許多應用程序-從分類項目到數據集成和在Web上發布,再到復雜的推理。對于一些最著名的網站,可以查看schema.org,Airbnb,Amazon,Diffbot,Google,LinkedIn,Uber和Zalando。
因此,知識圖現在處于新興技術的炒作周期中。對于擁有20多年歷史的技術來說還不錯。
圖片:Gartner)
像任何數據建模一樣,這是艱巨而復雜的工作。它必須考慮到許多利益相關者和世界觀,管理出處和架構漂移等。加上混合推理和Web擴展,事情很容易失控,這也許可以解釋為什么直到最近,這種方法在現實世界中還不是最流行。
另一方面,無模式已經很流行了。無需模式即可快速入門。它至少在一定程度上更簡單,更靈活。不過,不使用模式的簡單性可能會讓人感到欺騙。因為最后,無論使用哪個域,都將存在一個架構。閱讀模式?精細。但是根本沒有架構嗎?
用于數據庫的GraphQL:通用數據庫訪問層嗎?
可能對先驗知識不夠了解。它可能很復雜,并且可能會演變。但是它將存在。因此,忽略或淡化架構并不能解決任何問題,只會使情況變得更糟。問題將潛伏,并浪費時間和金錢,因為它們將阻礙開發人員和分析人員,將嘗試開發應用程序并獲得對模糊數據塊的見解。
那時的重點不是拋棄模式,而是使其具有功能性,靈活性和可互換性。RDF非常擅長此操作,因為它也是數據交換的標準化格式(例如JSON-LD)的基礎。順便說一句,RDF還可以用于輕量級模式和無模式方法以及數據集成。
將知識納入圖表
那么,炒作是什么?已有20年歷史的技術如何在臭名昭著的炒作周期中嶄露頭角?炒作也是真實的,這就是原因。這與AI宣傳的飛速發展是同一回事:方法的變化并沒有太大變化,更多的是數據和計算能力可以使之大規模運行。
另外,AI本身也有幫助。或者,更確切地說,是這種自下而上的基于機器學習的AI,如今已經大肆宣傳。知識圖本質上也是AI。只是另一種。不是一些現在大肆宣傳的AI,而是象征性,自上而下,基于規則的AI。迄今為止不受歡迎的那種。
并不是說這種方法沒有局限性。很難以一種功能性的方式來編碼有關復雜域的知識,并很難對其進行大規模推理。因此,機器學習的工作方式就像無模式的方式一樣流行。而且也有很好的理由。
知識圖起初可能很難,但不要放棄。實踐使之完美。
隨著大數據爆炸和NoSQL的興起,其他事情也開始發生。非RDF圖的工具和數據庫出現在市場上,并開始獲得成功。這些具有標記屬性類型(LPG)的圖更簡單,更省力。與RDF相比,它們要么缺少架構,要么具有基本的架構功能。
而且它們通常在運營應用程序,圖形算法或圖形分析方面表現更好。最近,圖形也開始用于機器學習。這些都是非常有用的東西。
算法,分析和機器學習可以提供有關圖的見解,其中一些常見用例是欺詐檢測或建議。因此,可以說,這種技術和應用程序是自底向上地從圖形中獲取知識的。另一方面,RDF圖可以自上而下地將知識帶到圖中。
那么,自下而上的圖也是知識圖嗎?
此外:快速行動而又不會破壞數據:治理機器學習及其他領域風險的治理
正如知識工程師會說的那樣,這是語義問題。進行知識圖炒作很誘人。但最后,缺乏明確性證明服務很少。圖形算法,圖形分析以及基于圖形的機器學習和見解都是很好的,準確的術語。而且它們也不與“傳統”知識圖互斥。
前面提到的所有突出的用例都是基于多種方法的。例如,擁有知識圖并使用機器學習填充知識圖有助于構建有史以來最大的知識圖-至少在實例方面(如果不是實體的話)。這也是DeepMind等AI先驅正在研究的內容。
一些舊的東西,一些新的東西,還有一些用于圖數據庫的東西
像往常一樣,用于圖形的方法和工具的選擇取決于用例。這也適用于圖數據庫,隨著它們的發展,一直對其進行密切監控,并迅速增加了新的供應商和功能。
在Strata上,最具顛覆性創業獎的獲勝者和亞軍都是圖形數據庫:TigerGraph和Memgraph。如果需要更多證明該領域進展迅速的證據,則可以使用。順便說一下,兩家創業公司都只有不到兩年的歷史。
對于2017年9月隱身的TigerGraph來說,這是非常活躍的一年。今天,TigerGraph宣布了一個新版本。它有一些舊的東西,一些新的東西以及一些借來的東西-盡管無法真正發現任何藍色。
自上而下,還自下而上?掌握圖表知識?圖片:組織物理
大數據和數字化轉型:一個如何實現另一個
淹沒數據與大數據不同。這是大數據的真實定義,以及如何將其用于數字化轉型的有力例證。
新事物很少。都在解決TigerGraph的現有痛點。TigerGraph增加了與流行的數據庫和數據存儲系統的集成,這些數據庫和數據存儲系統包括:RDBMS,Kafka,Amazon S3,HDFS和Spark(即將推出)。TigerGraph說,github存儲庫將在TigerGraph推出時托管開源連接器。
當然,如果沒有社區,github存儲庫就不值錢了。TigerGraph正在為此進行努力,并宣布了新的開發人員門戶和電子書。該版本還帶來了更多的部署選項,為現有的Amazon AWS添加了對Microsoft Azure的支持。跟上容器化趨勢,還添加了對Docker和Kubernetes的支持。
之前提到了圖算法,這可能是該版本中最有趣的方面,它與查詢語言結合在一起。TigerGraph增加了對圖形算法的支持,例如PageRank,最短路徑,連接的組件和社區檢測。有趣的是,這些都是通過TigerGraph自己的查詢語言GSQL支持的。
MemSQL 6.5:具有自主工作負載優化,改進的數據提取和查詢執行速度的NewSQL
已經提到了查詢語言對于圖數據庫的重要性。最近,根據DB-Engines,在思維共享方面領先的圖形數據庫供應商Neo4j提出了為LPG圖形數據庫創建標準查詢語言的建議。與SPARQL的RDF相比,LPG領域中不存在此功能。
TigerGraph最初響應Neo4j。但是現在,情況正在發生變化。TigerGraph剛剛發布了Neo4j遷移工具包,該工具包主要基于將Neo4j的查詢語言Cypher轉換為GSQL。這是與TigerGraph討論的重點。
TigerGraph這樣做很有意義,因為必須遷移Neo4j的查詢語言Cypher中的現有查詢主體,這將是一個障礙。有趣的部分是TigerGraph如何選擇實現此目標:作為一次性的,成批的翻譯過程,而不是以交互方式進行。
這是一個戰略選擇。TigerGraph希望人們改用GSQL,而不是在TigerGraph之上使用Cypher。傳統上,開發人員不愿學習新的查詢語言。TigerGraph上有一些故事可以分享,這對于有多大的作用,但是如何發揮作用是任何人的要求。
TigerGraph公告中的早期部分是基準。這些基準實際上是新基準,但是TigerGraph自隱身以來便已成為基準。對于聲稱因其MPP架構而比其他任何方法都快的解決方案,這也很有意義。該基準測試將TigerGraph與Neo4j,Amazon Neptune,JanusGraph和ArangoDB進行了比較,毫不奇怪地發現它比所有這些都更快。
MemSQL 6.5:具有自主工作負載優化,改進的數據提取和查詢執行速度的NewSQL
借來的部分?為什么,當然是知識圖。TigerGraph的員工還證實了客戶對此表現出的極大興趣,例如,中國的知識圖譜事件吸引了1000多人。什么知識圖?好吧,現在你知道了。
總結
以上是生活随笔為你收集整理的知识图:从图和数据库中获取知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 适用于AMD ROC GPU的Numba
- 下一篇: 图形数据标准化