日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CCKS-2017 行业知识图谱构建与应用-下篇

發布時間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CCKS-2017 行业知识图谱构建与应用-下篇 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://www.sohu.com/a/192557627_99934777

摘要:

這篇是PPT的下半部分,更加偏重于實戰中關鍵技術的難點剖析。

行業知識圖譜關鍵技術

上篇我們講行業知識圖譜生命周期劃分為6個階段,分為知識建模,知識獲取,知識融合,知識存儲,知識計算和知識應用。接下來我們詳細描述每個階段具體是如何完成的,有沒有現成可用的工具、工具的優缺點如何、沒有現成工具的話如何實現;同時,我們會以金融證券領域的創投知識圖譜為例來進行實戰描述。

知識建模

即為行業的知識和數據進行抽象建模。上篇描述了行業數據的特點和企業面臨的數據利用挑戰,也提到了使用行業知識圖譜來克服這些難題。具體而言,首先使用知識圖譜相關技術對行業知識和數據進行建模:

  • 以實體為主體目標,實現對不同來源的數據進行映射與合并。(實體抽取與合并)

  • 利用屬性來表示不同數據源中針對實體的描述,形成對實體的全方位描述。(屬性映射與歸并)

  • 利用關系來描述各類抽象建模成實體的數據之間的關聯關系,從而支持關聯分析。(關系抽取)

  • 通過實體鏈接技術,實現圍繞實體的多種類型數據的關聯存儲。(實體鏈接)

  • 使用事件機制描述客觀世界中動態發展,體現事件與實體間的關聯;并利用時序描述事件的發展狀況。(動態事件描述)

了解語義網或知識工程的朋友應該都使用過或者聽過Protégé,它是由斯坦福大學開發的一個本體編輯器軟件,基于RDF(S),OWL等語義網規范,并且還提供圖形化界面以及在線版本(WebProtégé)。

但是Protégé在使用過程中存在以下不足之處:

  • 基本只提供單人編輯,在線版本的并發功能支持也不完善;并發編輯時需要通過文件共享來實現;

  • 完全依靠人工,難以實現與知識圖譜構建(半)自動化過程的交互。

  • 不支持復雜事件及時態的建模;

  • 因為基于單機構建,因此對大數據量支持不夠,會出現內存溢出;因此,可以說Protégé適用于原型快速構建的場景,在生產環境下使用會遇到各種問題。

  • 通過我們在行業中的經驗積累,結合以上幾個問題,總結得出構建一個良好的知識建模工具應該具備如下一些特性:

    一)在線并發協作編輯

    支持在線并發協作編輯,能夠將編輯的知識實時保存,當其它用戶對當前用戶正在編輯的內容有更新時,系統自動提示加載最新版本,因此能夠有效地解決并發知識編輯沖突。

    這是我們所構建的知識建模的在線編輯界面

    這是上下位關系定義界面:

    這是屬性定義編輯界面:

    二)自動導入、集成

    同時它提供導入、集成功能,能夠把現有的知識通過導入功能進行集成,以存儲為橋梁,可以對自動算法的結果進行編輯。

    三)支持復雜動態事件建模

    在對動態事件數據的建模時,使用時態信息存儲實現事件時間的描述。

    該圖為融資事件的建模示例

    四)大數據量支持

    支持大數據量的知識圖譜編輯:編輯是基于底層的知識圖譜存儲的,每次編輯時加載到前端的僅為當前相關的數據,因此不會造成內存溢出等問題。

    知識獲取

    針對不同種類的數據,我們利用不同的技術進行獲取。利用D2R從結構化數據庫中獲取知識,利用包裝器Wrapper從半結構化數據中獲取知識,利用文本信息抽取技術從非結構化文本中獲取知識。

    一)D2R

    我們先看下目前主流的D2R工具—D2RQ,D2RQ是一個將關系數據庫轉換為虛擬的RDF數據庫的平臺,主要包括三個模塊

    1. D2R Server,HTTP Server,提供對 RDF數據的查詢訪問接口,以供上層的 RDF 瀏覽器、SPARQL查詢客戶端以及傳統的 HTML 瀏覽器調用;

    2. D2RQ Engine:利用一個可定制的 D2RQ Mapping 文件將關系型數據庫中的數據換成 RDF 格式;

    3. D2RQ Mapping Language:定義將關系型數據轉換成 RDF 格式的 Mapping 規則。

    D2RQ的主體架構如下:

    從其功能描述我們可知D2RQ是直接將關系型數據庫轉換成RDF的,因此難以與知識建模結果對應,同樣也難以同其他知識進行融合,在新數據的增量映射以及海量數據映射時會出現問題。

    因此我們的解決方案是將D2R映射與知識建模結合,在數據模式的基礎上進行映射;例如從數據庫中的“企業信息表”中把記錄映射成概念“企業”下的實體。

    同時通過設置合并條件,把D2R的結果與知識圖中的已有知識進行融合;例如對于企業,設置“如果企業名稱相同則進行合并”的規則。

    在實現數據的增量映射功能時,通過特定的關鍵詞及規則來設置數據更新的標記;例如,對于企業,設置“若成立時間為上次更新時間之后的企業為新的企業”。

    最終經過D2R映射的數據直接存儲成為知識圖譜中的知識,因而其數據量僅取決于存儲的支撐量,也就不存在海量數據映射會導致的性能問題。

    下面是D2R操作過程演示的視頻,從創投新聞數據庫中進行實體、實體屬性和關系知識的抽取。

    二)包裝器

    半結構化行業數據源解析一般采用包裝器的方式,由于這些行業的數據源網站大多通過模板生成。包裝器可以自動進行學習,但為了保證準確度,我們通常會使用人機結合的方法。

    在行業數據源解析實踐中,由于網站的高度可變性,因此目前尚沒有統一的包裝器工具,所以在實際應用中,通常針對不同結構的數據配置相應的包裝器,完成數據的解析。

    下圖為我們研發使用的包裝器配置工具,一般分為5個步驟,前兩步較為直觀,首先設置輸入源,可以是網頁的URL、網頁的源碼文件等,然后進行預處理,主要是過濾CSS、Java等與信息抽取無關的噪聲數據;第三步,配置抽取的目標,指定抽取的是知識圖譜中的何種元素;第四步中我們為抽取的目標設置了一系列的抽取規則,包括網頁標簽規則、前置規則、后置規則,正則表達式等;最后是對抽取結果的過濾等后處理操作

    下面我們來看幾個從半結構化數據中抽取專利知識的包裝器的示例

    示例1:抽取專利,設置抽取的目標為專利實體名稱及專利的屬性,然后依據網頁的特征設置相應的規則。

    示例2:另一個專利信息抽取的例子

    三)文本信息抽取

    行業知識圖譜構建過程中文本信息抽取的任務非常多,這里主要討論實體識別、概念抽取、關系抽取以及事件抽取。

    信息抽取的方法主要有CloseIE和OpenIE兩類,兩者的對比狀況如下:

    OpenIE 的典型代表工具有 ReVerb、TextRunner。由于OpenIE 工具準確率比較低,會增加知識融合的難度,因此在行業知識圖譜構建中實用性不高。通常被用于做第一輪的信息抽取探索,從它的結果中發現新的關系,然后在此基礎上應用其它的信息抽取方法。

    CloseIE的典型工具為DeepDive。

    Deepdive是由斯坦福大學InfoLab實驗室開發的一個開源知識抽取系統。它通過弱監督學習,從非結構化的文本中抽取結構化的關系數據,核心關鍵點是能夠在更短的時間內提供更高質量的數據。

    其基于聯合推理的算法,讓用戶只需要關心特征本身,要求用戶思考特征而不是算法,而其他機器學習系統則要求開發者思考聚類算法、分類算法的使用等;同時DeepDive允許用戶使用簡單的規則來影響學習過程以提升結果的質量,也會根據用戶反饋來提高預測的準確度;DeepDive使用機器學習算法訓練系統來減少各種形式的噪音和不確定性,并為每一個決斷進行復雜的可能性計算。

    下圖為Deep Dive進行關系抽取的基本過程,首先指定抽取任務;其次進行中文分詞、命名實體識別;再進行實體定位;生成候選實體關系對;接著使用DDlib為候選詞和候選關系自動生成特征;加載標注的數據源;然后基于規則的遠程監督自動標注;模型訓練;最終輸出結果。

    總結一下:DeepDive主要針對關系抽取,在指定的關系抽取中效果比較理想,在實體確定后可以很好地進行關系抽取。同時也支持中文關系抽取,僅需要引入中文相關的基礎處理工具即可。不足之處在于未提供專門的針對概念、實體和事件抽取的支持,同時需要大量的標注語料支持,并通過人工設置標注規則。

    對于文本信息抽取的方法,目前還沒有統一的實現各類信息抽取的現成工具。 我們采用的是把現有的工具進行集成,依據抽取任務使用不同的工具,包括

    • NLP分詞、命名實體識別工具:NLPIR、LTP、FudanNLP、Stanford NLP……

    • 關系抽取工具:DeepDive

    而對于行業抽取任務,需要針對性的方法來完成,通常采用的做法是基于已有的結構化知識進行遠程監督學習。

    接下來介紹事件抽取

    事件抽取可以分為預定義事件抽取和開放域事件抽取,行業知識圖譜中主要為預定義事件抽取。 我們通常會采用采用模式匹配方法,包括三個步驟:

  • 準備事件觸發詞表

  • 候選事件抽取:尋找含有觸發詞的句子

  • 事件元素識別:根據事件模版抽取相應的元素

  • 下圖為創投知識圖譜融資事件抽取的示例,事件元素識別的過程與包裝器模板配置過程基本相似

    知識抽取實踐過程中,我們采用的是一種稱為“多策略學習”的方法;“多策略”體現在多數據源、多目標類型、多抽取方法,總體原則是:利用不同數據源之間的冗余信息,使用較易抽取的信息(結構化數據庫)來輔助抽取那些不易抽取的信息。

    下圖是多策略學習方法的整體過程示意圖:

    以下為我們的多策略學習方法示例

    知識融合

    知識圖譜中的知識融合是一件非常復雜的工作,包括數據模式層(概念、概念的上下位關系、概念的屬性)的融合與數據層的融合。行業知識圖譜的數據模式通常采用自頂向下和自底向上結合的方式,因此基本都經過人工的校驗,保證了可靠性;所以知識融合的關鍵任務在數據層的融合。對于數據層的融合,為保證數據的質量,通常在知識抽取環節中進行控制,減少知識融合過程的難度。

    下面直接介紹我們的實踐方案

    數據模式層融合方法:

    行業知識圖譜的數據模式層通常是由專家人工構建或從可靠的結構化數據中映射得到的,通常在映射時會通過設置融合的規則來確保數據的統一。

    數據層的融合:

    實體合并,在構建行業知識圖譜時,實體優先從結構化的數據中獲取;

    對于結構化的數據,通常有對實體進行唯一標識的主鍵,因此在進行知識抽取時即可設定實體合并的依據;

    從非結構化數據中抽取的實體,同樣使用設置合并條件的規則來完成實體的合并;例如:企業合并可以通過企業名稱直接合并;企業高管合并可以采用人名相同+同一企業進行合并,因為同一家企業高管中同名的概率是極低的。

    實體屬性與關系的合并,具有時態特性的屬性,我們可以使用新的數據覆蓋老的數據;其次可依據數據源的可靠性進行選取,通常結構化數據源中的質量較高。

    以人物實體合并為例來看下數據層融合的方法過程:

    知識存儲

    針對知識存儲,其主要理念就是“使用不同的存儲來實現不同類型數據的存儲和使用”。

    知識圖譜是基于圖的數據結構,其存儲方式主要有兩種方式:RDF存儲和?圖數據庫(Graph Database)。Wikipedia對兩者的解釋分別如下:

    A triplestore or RDF store is a purpose-built database for the storage and retrieval of triples through semantic queries. A triple is a data entity composed of subject-predicate-object. [Wikipedia]

    A graph database has a more generalized structure than a triplestore, using graph structures with nodes, edges, and properties to represent and store data. [Wikipedia]

    下圖為db-engine中常見圖數據存儲的排名,里面的多個Graph DBMS我們都有介紹過。

    如何選用合適的圖數據存儲呢?下列指標是我們重點考量的:

    • 數據存儲支持

    • 數據操作和管理方式

    • 支持的圖結構

    • 實體和關系表示

    • 查詢機制

    針對主流圖數據存儲我們整理了如下表格,從數據存儲支持、數據操作和管理方式、支持的圖結構、實體和關系表示以及查詢機制角度來進行全面的比較(數據可能不全是最新的)。

    介紹一下Neo4j,它是當前圖數據存儲排名第一的圖數據庫,它具有支持原生圖存儲和處理、支持ACID事務處理的特點,同時neo4j不使用schema,因此在開始添加數據之前,你是不需要定義概念、屬性和關系的,但這樣帶來的不足之處在于,在企業數據管理場景下如不使用 Schema則難以從整體把握數據;同時neo4j也不支持時態信息的存儲,非企業版本會受到數據量、查詢速度等方面的限制。

    我們的大規模知識圖譜存儲解決方案如下:

  • 基礎存儲

  • 可按數據場景選擇使用關系數據庫、NoSQL數據庫及內存數據庫。

  • 基礎存儲保證可擴展、高可用

  • 數據分割

  • 屬性表:依據數據類型劃分

  • 基本類型:整數表、浮點數表、日期類型表、…

  • 集合類型:List型表、Range型表、Map型表、…

  • 大屬性單獨列表:例如數量超過10M的屬性單獨列表

  • 緩存與索引

  • 使用分布式Redis 作為緩存,按需對數據進行緩存。

  • 對三元組表按需進行索引,最多情況下可建立九重索引。

  • 善于使用現在成熟存儲

  • 使用ElasticSearch 實現數據的全文檢索

  • 結構固定型的數據可使用關系數據庫或NoSQL

  • 對于非關系型的數據盡量不入圖存儲,避免形成大節點

  • 非關系型的數據,使用適合的數據存儲機器進行存儲,通過實體鏈接的方式實現與圖譜數據的關聯。

  • 不直接在圖存儲中進行統計分析計算

  • 對于需要進行統計分析計算的數據,需要導出到合適的存儲中進行。

  • 前面還提到知識圖譜中的時態信息,時態信息的需求與技術一直是伴隨著數據庫技術的發展而產生和發展的,下圖為時態數據庫與其他類型數據庫相比的發展趨勢:

    可以發現時態數據庫的發展趨勢遠遠高于與其他數據存儲方式。

    知識圖譜中的時態信息包含事實的生成時間和某事實的有效時間段,比如融資事件的事件。

    因此在知識圖譜時態信息存儲的實踐應用中,我們使用了歷史數據庫,用于記錄事實的有效時間,用有限的數據冗余實現數據時態信息的應用。

    具體實踐原則如下:

    • 在基礎知識圖譜的基礎上,構建針對時態數據處理的中間件;

    • 對于特定類型的時序型數據,采用其它的存儲機制進行存儲。

    關于知識圖譜數據存儲的更詳細的內容,請參看之前公眾號發布的詳細專題文章。

    知識計算

    知識計算的范疇同樣非常廣,這里僅以圖挖掘計算、基于本體的推理以及基于規則的推理三個最常用的技術進行介紹。

    一)圖挖掘計算

    前面講到知識圖譜是一種基于圖的數據結構,因此它自然會集成實現基本圖算法。

    列舉一些我們常用的圖算法:

  • 圖遍歷:廣度優先遍歷、深度優先遍歷

  • 最短路徑查詢:Dijkstra(迪杰斯特拉算法)、Floyd(弗洛伊德算法)

  • 路徑探尋:給定兩個或多個節點,發現它們之間的關聯關系

  • 權威節點分析:PageRank算法

  • 族群發現:最大流算法

  • 相似節點發現:基于節點屬性、關系的相似度算法

  • 其中權威節點分析做過社交網絡分析的人應該都知道,可以用來做社交網絡里的權威人物分析,我們在創投知識圖譜中用來做權威投資機構的發現。

    族群發現算法一般用來在社交網絡中主題社區的發現,在這里我們同樣可以用來識別企業知識圖譜中的派系(阿里系、騰訊系)。

    相似節點發現應用就更加廣泛了,在企業知識圖譜中可以做相似企業的發現,這里有個很重要的實際應用場景,可以利用相似企業進行精準的獲客營銷。

    二)基于本體的推理

    本體推理基本方法包括:

    • 基于表運算及改進的方法:FaCT++、Racer、 Pellet Hermit等

    • 基于一階查詢重寫的方法(Ontology based data access,基于本體的數據訪問)

    • 基于產生式規則的算法(如rete):Jena 、Sesame、OWLIM等

    • 基于Datalog轉換的方法如KAON、RDFox等

    • 回答集程序Answer set programming

    這里我們介紹一個本體知識推理工具:RDFox,它的特點如下:

    • 支持共享內存并行OWL 2 RL推理

    • 三元組數據可以導出為Turtle文件,規則文件可以導出為RDF數據記錄文件;全部數據內容可以導出為二進制文件,可完全恢復數據存儲狀態

    • 支持Java、Python多語言APIs訪問,并且 RDFox 還支持一種簡單的腳本語言與系統的命令行交互

    由于RDFox是完全基于內存的,所以對硬件的要求較高。

    當然基于本體的知識推理應用也非常的多,比如我們在實際場景中的沖突檢測。因為不管是手動構建,還是自動構建知識圖譜,都會碰到這樣一個問題:或者數據來源不同,或者構建的人員不同、方法不同,這就會不可避免的導致一些沖突,這些沖突自身很難直觀的去發現,但是可以利用知識圖譜里面的沖突檢測去發現存在的有矛盾的、有沖突的知識。

    下圖為我們從不同渠道獲取花椒直播融資金額的沖突檢測示例

    三)基于規則的推理

    基于規則的推理是在知識圖譜基礎知識的基礎上,專家依據行業應用的業務特征進行規則的定義,這在業務應用中是非常常見的。

    介紹一下我們常用的Drools(因被JBOSS收購,現已更名為JBoss Rules),它是為Java量身定制的基于Charles Forgy的RETE算法的規則引擎的實現,使用了OO接口的RETE,使得商業規則有了更自然的表達,其推理的效率也比較高。

    結合規則引擎工具,基于基礎知識與所定義的規則,執行推理過程給出推理結果。

    以下代碼為我們使用drools定義的一個高風險企業規則

    知識應用

    關于知識應用我們主要介紹以下三個方向的關鍵技術:語義搜索、智能問答和可視化輔助決策。

    一)語義搜索

    知識圖譜提出的初衷即為解決搜索的準確率問題,改進搜索質量;由于傳統基于關鍵詞的檢索完全不考慮語義信息,因此傳統的搜索主要面臨兩個難題:

  • 自然語言表達的多樣性

  • 自然語言的歧義

  • 對此我們的解決方案為利用實體鏈接技術,進行基于知識圖譜的語義搜索。

    先看下目前常見的兩款實體鏈接工具

    Wikipedia Miner,在應用中集成維基百科的數據。

    該工具用來分析有歧義的實體的上下文和發現出現在維基百科里的概念。

    另一個廣泛使用的基于維基百科的語義標注系統是DBpedia Spotlight,這是一個免費的可定制的web系統,它通過DBpeida的URIs標注文本,其目標是DBpedia本體。

    市面上目前現有的實體鏈接工具大部分都是針對百科類的知識庫工作的,基本上不支持中文的處理。

    在我們具體實踐過程中采用了如下三種實體鏈接方法:

  • 基于向量模型相似度計算的實體鏈接方法

  • 基于知識圖譜語義擴展的實體鏈接方法

  • 基于propagation計算相似度的實體鏈接方法

  • 實體鏈接的基本方法過程如下圖:

    該視頻為基于實體連接的創投數據語義標注演示:

    實體鏈接完成后,我們可以把它引入到基于知識圖譜的語義搜索中。語義搜索是對傳統搜索的一種改變,其發展的最終形態為智能問答。

    最后看一個創投知識圖譜中的語義搜索示例,在PlantData平臺中搜索“北京小桔科技”實體,會識別出這是一個企業實體,系統會自動返回企業相關的融資狀況,高管信息以及鏈接的新聞數據信息。

    二)智能問答

    智能問答是指用戶以自然語言提問的形式提出信息查詢需求,系統對用戶查詢意圖分析與理解,從各種數據資源中自動查詢檢索出最符合用戶意圖的答案。

    以下為基于知識圖譜的自動問答系統的基本過程流程圖

    智能問答現在的方法主要有這么四類

    1. 基于信息檢索的方法

    基于信息檢索的方法首先利用中文分詞,命名實體識別等自然語言處理工具找到問句中所涉及到的實體和關鍵詞,然后去知識資源庫中去進行檢索。它的優點在于實現簡單,應用面廣,在大部分場景下均可得到結果。缺點在于要求答案中必須至少包含問句中的一個字或詞,所以不如語義解析方法精確。改進的方法可以利用基于知識圖譜的知識進行語義擴充,提高匹配率,同時基于知識圖譜進行檢索時的語義消岐。

    2. 基于語義分析的方法

    基于語義分析的方法非常符合人們的直覺,它將一個自然語言形式的問句,按照特定語言的語法規則,解析成語義表達式,在得到語義表達式之后,我們可以非常容易地將其轉化為某種數據庫的查詢語言。最常用的方法是利用組合范疇語法(CCG),CCG的核心是詞匯,首先自然語言問句的詞匯被映射到語義表達式中的詞匯,然后按照特定的語法規則將匯組合起來,進而得到了最終的語義表達式。我們的做法是在特定的領域里邊,基于知識圖譜的實體、屬性、概念等進行詞法解析與映射,然后基于圖結構進行語法規則匹配,這就相當于是圖里面的子圖查詢匹配問題。

    3. 基于規則的專家系統方法

    專家系統是一個具有大量的專門知識與經驗的程序系統,它應用人工智能技術和計算機技術,根據某領域一個或多個專家提供的知識和經驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題。

    在智能問答系統中,不是所有的問題都可以利用現存的知識庫直接進行回答,有很多隱含知識我們需要通過已經抽取到的知識進行推理回答。因此基于知識推理的方法通常不單獨使用,而是與其它的方法進行結合,增強對復雜問題回答的支持。

    4. 基于深度學習的方法

    近幾年卷積神經網絡(CNN)和循環神經網絡(RNN)在NLP領域任務中表現出來的語言表示能力,越來越多的研究人員嘗試深度學習的方法完成問答領域的關鍵任務,包括問題分類(question classification),語義匹配與答案選擇(answer selection),答案自動生成(answer generation)。此外,互聯網用戶為了交流信息而產生的大規模諸如微博回復、社區問答對的自然標注數據,給訓練深度神經網絡模型提供了可靠的數據資源,并很大程度上解決自動問答研究領域的數據匱乏問題。

    該方法優點是實現“端到端”的問答:把問題與答案均使用復雜的特征向量表示,使用深度學習來計算問題與答案的相似度。不足之處在于不支持復雜的查詢;需要比較長的訓練過程,不適用于現實應用場景中的知識更新后的實時查詢。

    知識圖譜應該算是自動問答里面的大腦,我們在實踐過程中選用的最佳方法是基于語義解析的方法加上基于信息檢索的方法。

    這樣做的好處在于基于語義解析的方法可解釋性強,并且能夠方便地轉換成知識圖譜的查詢,給出明確的答案;因此對于用戶輸入,首先使用基于語義解析的方法進行回答;

    而基于信息檢索的方法應用面廣,因此當語義解析方法無法給出結果時,則使用信息檢索的方法進行回答。

    下面兩張圖是我們在創投行業應用里實踐智能問答的示例,首先我們會人工配置語義解析的模板,其次對用戶的輸入進行分詞匹配,與知識圖譜里面的元素進行映射,即知識圖譜通用的子圖匹配模板。

    三)可視化輔助決策

    首先介紹兩個比較常見的可視化工具D3.js和ECharts。

    D3.js全稱Data-Driven Documents,是一個用動態圖形顯示數據的Java庫,一個數據可視化工具,它提供了各種簡單易用的函數,大大方便了數據可視化的工作。

    ECharts是一款由百度前端技術部開發的,同樣基于Java的數據可視化圖標庫。(個人覺得這是目前百度最有價值的產品)它提供大量常用的數據可視化圖表,底層基于ZRender(一個全新的輕量級canvas類庫),創建了坐標系,圖例,提示,工具箱等基礎組件,并在此上構建出折線圖(區域圖)、柱狀圖(條狀圖)、散點圖(氣泡圖)、餅圖(環形圖)、K線圖、地圖、力導向布局圖以及和弦圖,同時支持任意維度的堆積和多圖表混合展現。

    這兩款都是非常優秀的可視化工具,但是目前還沒有一款面向知識圖譜的可視化工具,在選擇知識圖譜可視化的時候,需要思考以下三點問題:

  • 依托的設備及環境是什么?

  • 需要展現數據的什么特點?

  • 數據量過大(小)時我該怎么做?

  • 我們最終選用集成現有的可視化工具,實現知識圖譜的可視化。以下是PlantData的圖譜可視化基本組件,包括圖譜展示、統計分析等。

    這是PlantData平臺在創投圖譜中進行可視化應用的演示視頻:

    ?

    轉載于:https://www.cnblogs.com/davidwang456/articles/9682473.html

    總結

    以上是生活随笔為你收集整理的CCKS-2017 行业知识图谱构建与应用-下篇的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。