图形数据标准化
圖形數據標準化
AWS,Google,Neo4j,Oracle。這些只是在W3C關于圖形數據的Web標準化的W3C研討會上代表的一些供應商,內容必然會促進數據管理中最熱門的部分:Graph的采用。
讓許多供應商互相交談,更不用說團結一致,這并非易事。增加學者和研究人員并不一定會使事情變得容易。現在,嘗試將零散的社區和長期存在的未解決問題添加到組合中,將了解為什么到目前為止尚未實現圖形數據標準化的圖片。
即將徹底改變一切的AI獨角獸芯片在其核心具有計算圖
但是,這似乎即將改變,這對每個人來說都是個好消息。在過去的幾年中,一直密切關注圖數據庫的興起。恒星似乎終于對齊了圖表,世界的Gartners和Forresters也都在關注這一點。
納入Gartner的炒作周期之后,Gartner還將Graph列為2019年十大數據和分析技術趨勢中的第五名。圖在建模多個域方面大放異彩,并且是利用連接數據的最佳選擇。那么,為什么要花這么長時間才能成為主流呢?要引述研究員ZDNet的撰稿人,分析師Tony貝爾:
“我一直覺得圖形更適合嵌入到引擎,因為它是一個奇怪的新數據庫,沒有事實標準或其他標準。開始改變自己的看法-每個主要數據平臺提供商現在都有圖形數據庫或API /引擎。”
標準-該技術一直在進步,以至于現在可以大規模使用圖形。但是,要想在現有的市場中分得一杯without而又無法進行互操作,可能會充滿挑戰。NoSQL人群,最終主要采用SQL。這就是W3C進來的地方。
重新討論屬性圖和RDF
在W3C Web的標準化圖形數據,柏林舉辦了一次研討會,以獲得盡可能多的圖形社區,共同討論和匯聚在可能的標準化努力的目標。該研討會主要由Neo4j驅動和贊助。其他贊助商是Oracle,Ontotext和ArangoDB。
從大數據到AI:現在在哪里,前進的方向是什么?
根據DB-Engines索引,Neo4j是圖形數據庫的市場領導者。已經與Neo4j的首席執行官Emil Eifrem進行了多次對話,就在W3C研討會之前,Eifrem堅定地進行了一次對話:標準化是Neo4j的重中之重。
圖形數據庫格局已經分散了,屬性圖和RDF代表了建模,存儲和查詢數據的不同方法,沒有標準的互操作性方法。盡管RDF是標準化的,但特性圖卻不是。
這不利于Graph數據庫的采用,并且專家,標準組織和供應商都意識到了這一點。W3C圖形數據Web標準化研討會在柏林召集了圖形數據庫專家來解決此問題。
RDF已經存在了大約20年,最初是由研究和學術界推動的。RDF由WWW發明家Tim Berners Lee爵士提出的語義網構想發起,具有大量堆棧。該堆棧包含諸如推理和規則之類的東西,并且已經有穩定的標準存在一段時間了,其中包括用于序列化,模式和查詢的標準。
然而,問題是實用主義并不總是那里的核心問題。另外,用于RDF的工具很少而且并不總是易于使用。以JSON-LD為例。想出一種標準的方法來序列化基于JSON的RDF,這是Web開發人員最流行的格式,這似乎很容易。
JSON-LD和schema.org的結合可能在擴展RDF的使用方面做得更多。僅僅讓Google和其他搜索引擎采用它就導致了一系列用例。但是,在RDF社區中,JSON-LD當時引起了極大爭議。這不是RDF社區面臨的最后一個爭議,但似乎JSON-LD的成功可能有一些可借鑒之處。
屬性圖已經存在了大約10年,并且受到了行業的推動。因此,可以說它們是RDF的反面鏡像:實用主義規則,工具豐富且易于使用,擴展和社區建設是當務之急,但標準化只是此后的事。
大多數屬性圖解決方案沒有模式,或者具有非常基本的模式。只是將數據輸入和輸出屬性圖解決方案是一項耐心和即興的練習-以CSV格式表示圖形結構,并將其映射到解決方案之間。屬性圖沒有標準的查詢語言。此時,屬性圖也沒有抽象模型或語義之類的東西。
引力波矩
現在,這些都不是無法解決的。對于屬性圖世界,在某種常識序列化格式上達成共識,對現有查詢語言進行綜合,并研究將使模式和語義定義成為可能的所有屬性圖模型,似乎都是要采取的合理步驟。那么,好消息是:看來這正是議程中的內容,因此可以預期將執行這些步驟。
Confluent顯示開源,范式轉換,云和商業成功都可以共存
那么,對于所有已經存在的RDF世界來說,什么是緊要關頭?W3C講習班中用來描述狀態的一個明確指示的隱喻是一座橋。畢竟,搭建橋梁是這次活動的主題。在屬性圖之間建立橋梁是一回事,但是在屬性圖和RDF之間建立橋梁又如何呢?
盡管屬性圖在構建通往RDF世界的橋梁的支柱方面有工作要做,但在RDF中,支柱主要存在于其中,除了一件事:修正。如果不喜歡RDF,那么可能從來沒有聽說過Reification,也不是很在乎。但這是構建到屬性圖世界的橋梁的關鍵,而且似乎RDF終于接近解決這個問題了。
參加有關圖形標準化的W3C研討會是一個有趣的經歷。
修正是一種向RDF圖邊緣添加屬性的機制,從而使它們可以直接轉換為屬性圖。盡管這是可能的,但到目前為止,尚無統一的標準來達成此目的。RDF *是關于如何執行此操作的建議,在RDF世界中正受到關注。
W3C研討會的成果之一是幾乎一致的想法,使之成為W3C規范。這種技術性或某些人稱之為“紅鯡魚”,已經使RDF社區停滯了很長時間。
柯林斯(Collins)在他的《人工智能》一書中對人們在社會上建構意義的方式進行了描述。作為案例研究,他使用了他所嵌入的引力波實驗證據的趨同。
這只是一張圖,在現實世界中掀起波瀾
RDF *是否可以像RDF一樣具有關鍵性,以及像引力波對物理學一樣,可以大范圍繪制圖形。潛力和動力肯定存在,W3C研討會的人員似乎已經承諾繼續致力于這些支柱和橋梁。
開始重新技能革命:工作的未來趨勢和有關軟技能的軟數據
然而,與此同時,圖形在現實世界中正在風起云涌。最后,正如AWS Neptune的Brad Bebee在他的主題演講中所說的那樣,它只是一張圖表。用戶并不真正在乎底層的技術。他們正趕上“圖形讓瘋狂地集成數據”這一事實。
Neptune是來自AWS的基于云的圖形數據庫,它使用戶可以使用RDF和屬性圖,并將這些橋安裝在適當位置將極大地受益。正如Bebee指出的那樣,根據最近一次AWS re:Invent會議上的社交媒體調查,海王星已成為2018年最受歡迎的AWS新產品之一。這可以說明問題,但這并不是圖形數據庫世界中的所有新事物。
圖在現實世界中正在獲得引力,并在掀起波瀾。
Neo4j的一輪融資:8000萬美元。在與Eifrem討論如何實現此目標的路線圖時,強調了三個優先事項:標準化,云計算和擴展。已經詳細說明了標準化,因此只需要補充一點,那就是在ISO和正在進行的SQL工作方面還有其他橋梁。
但是云計算和擴大規模又如何呢?Neo4j目前不提供托管云版本。由于這將成為任何數據庫解決方案,Neo4j致力于此工作。Eifrem表示,基于Kubernetes的Neo4j托管云版本目前處于私有測試階段,反饋很好,并且即將release。
Neo4j將在未來一段時間內大量招聘員工。做這件事并擴大公司規模的過程雖然很平淡無奇,但卻非常需要努力,這正是Eifrem忙碌的原因。因此,暫時沒有那么多閃亮的新玩具可供展示,但Eifrem暗示不久將有更多這種新玩具出現。但是與此同時,其他供應商也在加緊規劃。
例如,RDF供應商增加了對屬性圖的支持。AWS已經有了它,Cambridge Semantics和Stardog也都添加了它。另外,多模型支持以及JSON的組成部分已成為許多供應商的關鍵功能。JSON-LD敞開了大門,在過去的幾個月中,AllegroGraph和Ontotext等供應商也增加了對JSON的支持。將很快對這個領域進行更深入的分析。
總結
- 上一篇: 知识图:从图和数据库中获取知识
- 下一篇: 部署可扩展的目标检测管道:推理过程(上)