當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

技术动态 | 知识可视化，连接和探究知识之间的联系！

發布時間：2024/7/5 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了技术动态 | 知识可视化，连接和探究知识之间的联系！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號：東湖大數據交易中心。

大數據百人會線上沙龍 ?第八期

3月1日晚八點，大數據百人會沙龍第八期主講嘉賓——北京知珠傳媒科技有限公司CEO郝慶一先生，分享他對可視化的理解，以及連接知識、探究知識之間的關系。

1可視化（以下是沙龍實錄，以嘉賓第一人稱講述）

很高興有機會能與大家交流，今晚想聊三塊內容：可視化以及可視分析、Quid簡單介紹以及我們團隊目前在可視方向所做的簡單嘗試。

我們可以把可視化理解成用一個映射連接兩個集合，一個集合是數據與信息，另一個集合是可視化的幾個元素，包括形狀、位置、顏色、大小等等，當把數據信息與可視化元素兩個集合用一個映射聯系起來，這就是可視化的構建過程。

如果從形象到抽象這個維度上對于可視化做一個劃分，一端是形象代表性的是科學可視化，其中是流場可視化、科學可視化等等，科研人員在研究過程中面對大量的流場數據和生物醫學數據，沒有辦法形成形象的認知，而可視化能夠通過視覺表達，把流場數據、生物數據形象的表達出來，幫助科研人員在科研過程中能夠更好的認知與探索。

這四張圖是最具代表性的信息圖：拿破侖東征圖、倫敦地鐵圖、最早的餅狀圖、疫情與水源的分布圖，這些可視化圖意義明確、效果明顯，所以被譽為經典案例。另外一端是抽象，例如思維導圖、知識地圖都屬于這端，他們將數據與信息抽象對應于點和線，利用相對位置、大小、顏色等抽象的視覺元素進行信息和數據的表達分析。

2可視化分析

可視分析可以從這幾個方面來理解：

第一是數據方面，可視分析主要幫助用戶掌握的數據是海量、動態、模糊、甚至相互沖突的，首先數據有些是結構化的，有的是半結構化的，有的甚至是非結構化的，數據還有不同的來源，有文獻、專利、社會網絡、新聞報道等。那么怎么讓用戶去把握這些數據，進而對數據進行探索與發現是可視分析系統需要解決的問題。

第二是可視分析的目的是什么，我們希望通過可視分析系統知道我們不知道的，然后同時發現我們不知道我們不知道的。

第三點是實時性，要達到分析目的就需要在數據層面上、分析層面上、展現層面上做到及時反饋用戶的意圖。

更進一步理解可視分析，在很多情況下人們試圖去理解周邊的事物，大到投資決策，小到購買一部數碼相機，這都是一種信息行為，人們需要對周圍的信息進行收集和整理、綜合評估，再根據先驗的知識將收集的信息重新構建新的知識來支持決策，那么用可視化的方法，將整個過程構建起來，讓用戶進行數據收集整理，用多種方法進行分析，再將結果可視化的呈現出來，隨著用戶不斷的去迭代，最終有新的發現來支持決策，同時這個過程也是意義構建的過程。

當然，這個過程當中最具挑戰性的是不確定性，首先是數據的不確定性，因為在探尋一個新問題的時候，你不知道要收集多少數據才算夠，也不知道收集來的數據到底是什么樣的質量；其次是分析方法的不確定性，因為你不知道用什么樣的分析方法才能得到想要的結果；最后是結果的不確定性，你用這些不確定的數據、不確定的方法顯然是不能得到一個確定的答案，所以說這是一個不斷迭代的循環，是一個不斷探索發現的過程，而不是給出一個答案。

我們需要不斷提高用戶的自由度才能應對這個不確定性，包括數據的自由度、分析方法的自由度、展示和交互的自由度。一個可視分析系統最終的目的是幫助人們進行信息的認知，其實從這個角度上我們也可以認為這算是認知計算的范疇。

這是曹老師對于文本可視化的一個架構總結，數據從非結構化到結構化是一個重點，怎么樣讓用戶在分析的過程中能夠實時的通過界面與數據與分析展示方法，進行不斷的互動。?

左上角的是360和北大袁曉如老師構建的一個手機基站的分析系統，分析的數據包括手機基站中發送的文本信息、活躍程度、地理位置信息和時間等，他們構建這個系統是為了把數據和人的經驗結合起來然后用來發現那些發送垃圾短信的偽基站；右上角是一個交通數據的系統，這個系統把交通流量、位置、信息、時間結合在一起，讓用戶多維度去發現這些數據；左下角是Quid，它幫助用戶掌握科技前沿與趨勢；右下角是谷歌的機器學習平臺的多維數據的可視分析系統，用來對機器學習過程和結果進行展示和分析。

我們現在面臨的信息環境是各種新聞報道、用戶評論、深度分析報告、論文、專利……各種來源的數據、各種格式的數據、各種維度的數據很碎片化的信息環境，但我們可以通過可視分析幫助大家更高效率的認知爆炸信息。

3“三個世界”理論

這是波普爾的三個世界理論：物質世界、人的精神世界和客觀世界，人的精神世界就是你的思想、你的情感，理性和非理性，人的精神世界作用于物質世界形成客觀知識世界，論文、專利、新聞報道、評論等等這些碎片信息都是屬于第三世界，我們希望能夠更好的掌握第三世界，更進一步認識改變物質世界。

首要做的是把這些非結構化數據通過一步步迭代變成干凈數據、實體數據、圖譜數據乃至加入語義，然后運用高階科學例如社會計算的一些方法等等，讓人們更好的認知、探索和發現，要實現這個目的只能通過人和機器結合的途徑。

不同領域對于知識表示、知識表現的理解，左上角認知心理學研究的個體在心理和生理方面與知識的相互作用，最下面的是教育技術領域的知識可視化，思維導圖、概念圖或者知識地圖都是屬于這個領域，研究的是人和人之間利用形象化的知識表現促進知識流動，右上角是計算機領域的知識表示，研究的是人們怎么讓機器理解知識。

其實教育技術領域的知識表示是可視化的部分，計算機領域的知識表示的數據部分，我們將數據信息知識抽象為實體，以及實體之間的關系然后對應于抽象的視覺元素，構建一套可視分析系統，可視分析這端面向人，關聯數據面向機器，通過構造一個人機結合的系統幫助人們分析認知世界，從而更好的理解和影響物質世界。

4關于Quid

美國的初創公司Quid成立于2010年，2015年進行了D輪融資，媒體稱這家公司是量化分析公司，我想是他們是把無法量化的文本信息或者碎片化的信息量化出來了，Quid從文本到結構化數據再到可視化的過程，把非結構化數據進行一定程度的結構化然后加上分析方法再到可視化一條線貫穿下來。

他們的主要數據源包括新聞、社交網絡的信息、公司信息、專利、論文以及用戶評論等等這些文本信息，他們把這些文本信息中涉及到的源數據都抽取出來，例如新聞數據會把標題、來源、時間、地點、分享數量等等抽取出來用以后面的分析。

抽取出來后將碎片化信息構建體系，進行聚類和可視化給用戶全局的把握，然后再提供各類工具讓用戶基于數據與分析方法做更多的探索和發現。

Quid在線視頻領域公司地圖簡單分析，這個復雜網絡圖，圖中每個節點代表一個公司，計算公司之間的相似度，根據相似度建立節點與節點的鏈接構建起復雜網絡，進行布局與聚類得到這個圖，圖中絕對位置不重要，重要的是點和點之間的相對位置，如果一些點聚集在一起證明他們的相似度比較高，聚類和聚類之間我們用不同顏色進行表示，節點大小用我們計算到的估計的公司市值來代表。

進入quid首先是一個搜索頁面，可以針對公司、新聞、專利等內容進行搜索分析。這次搜索的對象是在線視頻公司。檢索在線視頻、流視頻、在線TV、移動TV、交互式網絡電視、內容分發這些標簽，總共得到836條結果。選中所有公司，點擊右上方藍色的可視化按鈕。即可進入分析工程，界面的左側有一些選項可以根據時間、市值進行篩選。然后得到在線視頻領域的公司相似度圖譜，在這個頁面中的操作面板可以對網絡節點、連線的指標進行操作，包括節點代表的含義，顏色，大小，連線代表的含義都是可以調節的。信息面板主要顯示公司數量、所有公司接受的投資總額，投資中位數，主要的投資并購、投資者等關鍵信息。

點擊某一節點可以查看公司的相關信息，比如公司名稱、業務描述、關鍵詞、公司成立時間、接受的投資、公司所在地、公司類型、投資者等等。用戶根據經驗將劃分出的很多聚類自定義合并為三類：數字媒體、基礎設施、營銷。

用戶還可以在右上角的搜索框搜索Google和Comcast投資的不同的創業公司，可以看到Google活躍在廣告和數字媒體領域，Comcast聚焦在基礎設施領域。用戶可以直接將這些分析結果導出成圖片格式放在PPT里面。以上就是Quid通過分析得到的圖片導入到的PPT。

系統還可以將相同的聚類劃分的公司結合成一個節點，每一個節點代表一個細分領域，節點的標簽是細領域的名稱。這里同樣可以把分析節點導出成圖片。該系統可以按照細分領域進行統計。散點圖顏色代表細分領域，橫軸為公司成立時間的中位數，縱軸為收到的投資總額，節點大小代表細分領域的公司數量，可以看出基礎設施公司為新的應用提供了基礎，在早期獲得了大量投資，從2006年起推動媒體和營銷公司然后開始高速發展，基礎設施是先導，獲取了基本的投資需求之后然后是營銷、社交媒體。

5關于知珠傳媒

我們將公司、新聞、專利、文獻這些公開信息爬去下來，然后根據實體、文檔、事件、關系和屬性進行結構化，然后讓用戶基于可是分析系統進行探索和發現。用戶可以通過不同的數據，不同的方法去發現新的東西，然后再根據結論反饋到數據和方法上進行不斷迭代。

這是我們初步總結的可能有用的統計方法，我們目前正在把它實現出來，放在前端展示，用戶就可以采用這些方法對數據進行探索。

我們根據范式理論發展讓用戶更好掌握趨勢的方法。“范式”大家可以簡單理解成框架或者體系，也就是在大家認同的框架下對一些現象進行解釋、研究、應用、開展經濟活動。不僅科學有范式，技術也有范式，技術經濟也有范式，這些都是一脈相承的。

表格里是未來導向、技術分析的一些方法，包括引言分析、專利分析的具體應用，可以對科學與技術范式的轉移進行描述。我們希望結合行業數據發展出更多的方法對技術經濟范式進行描述、或是預測。

我們目前處于技術經濟范式轉移的時期，從兩個現象可以印證：1.從2015年到現在，大量的公司合并或是被收購；2.風險資本出海，技術經濟范式在本國發展到一定程度是會向外擴散的，這也就是風險資本出海的本質。

這是我們構建的金融創業公司的相似度圖譜，我們根據一千多家金融創業公司的標簽去計算他們的相似度，構成一個復雜網絡，然后對它進行布局和聚類劃分。在這里我們用算法把細分領域直接劃分出來。

如果把投資公司也考慮到金融領域來，我們就可以構建創業公司和投資公司的投融關系圖譜。圖譜里面紅色是創業公司，綠色是投資公司。他們以投融資關系構建成網絡。投融資網絡是根據時間不斷變化生長的，我們希望能在變化生長中有一些發現，于是我們做了一個簡單的嘗試，在網絡的演化中我們計算了每個節點在不同時間中的重要程度，然后進行排序。

這個是投資公司在網絡演化中重要性程度的排名變化，它能反應出某些投資公司在這個領域的關注程度。這張圖完全是用Excel和線條拼接出來的。在做可視化的過程中，我們有數據，有分析目的，可以先做一些草圖然后去設想呈現方式。我們找到了一個適合做排名可視化的模板，現在我們根據這張圖去做排名可視化。這樣大家就可以在前端看到更好的效果。

最后給大家介紹四本書：第一本是復雜性科學的入門讀物，后面三本分別是在講科學范式，技術范式和技術經濟范式。最后一本書在宏觀角度上講金融和產業資本在技術范式不斷變化的過程中是怎樣相互互動的，我認為對投資和創業都有一定啟發。

? Q&A??

Q：第張圖中實體的關系、屬性是如何建立的？

郝：關于實體與實體的關系如何得到，這需要分情況：1.如果爬去的數據是結構化的，比如說在網頁上的呈現就是一張表，我們爬下它的數據就是結構化的。2.如果是文本數據，半結構化或者非結構化的數據，可能會需要用到自然語言處理中的命令實體識別，或者關系抽取。

當然我們現在爬去的數據大多都是結構化或者半結構化的，因為實體識別和關系抽取還沒有辦法解決所有的問題。

Q：可視化分析有什么工具嗎？

郝：說到工具，其實是把實體或者關系抽取出來，或者是去做情感識別，這些是有一些API可以提供的。比如說：玻森數據、騰訊文治提供的服務可以解決一部分問題。

Q：之前有看到NLPIR在線系統（語義分析系統）和您講的有什么區別？從知識圖譜上看，關鍵詞提取是一樣的？

郝：我想應該這樣去理解這個區別。我們現在的系統是構建給分析師用的，比如行業分析師。語義分析系統顯然不是給分析師用的。然后你講的關鍵詞提取，是不是就是把實體提取出來，如果是這樣的話，那就都是是一樣的，都是把半結構化數據或者非結構化數據把它結構化，甚至加上一些語義變成知識圖譜，這些東西不管是你提到的語義分析系統還是我們的系統中這都是一樣的。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的技术动态 | 知识可视化，连接和探究知识之间的联系！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：领域应用 | 智能导购？你只看到了阿里知
下一篇：李涓子 | 机器智能加速器：大数据环境下

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

技术动态 | 知识可视化，连接和探究知识之间的联系！

總結