技术动态 | 知识可视化,连接和探究知识之间的联系!
本文轉載自公眾號:東湖大數(shù)據(jù)交易中心。
大數(shù)據(jù)百人會線上沙龍 ?第八期
3月1日晚八點,大數(shù)據(jù)百人會沙龍第八期主講嘉賓——北京知珠傳媒科技有限公司CEO郝慶一先生,分享他對可視化的理解,以及連接知識、探究知識之間的關系。
很高興有機會能與大家交流,今晚想聊三塊內(nèi)容:可視化以及可視分析、Quid簡單介紹以及我們團隊目前在可視方向所做的簡單嘗試。
我們可以把可視化理解成用一個映射連接兩個集合,一個集合是數(shù)據(jù)與信息,另一個集合是可視化的幾個元素,包括形狀、位置、顏色、大小等等,當把數(shù)據(jù)信息與可視化元素兩個集合用一個映射聯(lián)系起來,這就是可視化的構建過程。
如果從形象到抽象這個維度上對于可視化做一個劃分,一端是形象代表性的是科學可視化,其中是流場可視化、科學可視化等等,科研人員在研究過程中面對大量的流場數(shù)據(jù)和生物醫(yī)學數(shù)據(jù),沒有辦法形成形象的認知,而可視化能夠通過視覺表達,把流場數(shù)據(jù)、生物數(shù)據(jù)形象的表達出來,幫助科研人員在科研過程中能夠更好的認知與探索。
這四張圖是最具代表性的信息圖:拿破侖東征圖、倫敦地鐵圖、最早的餅狀圖、疫情與水源的分布圖,這些可視化圖意義明確、效果明顯,所以被譽為經(jīng)典案例。另外一端是抽象,例如思維導圖、知識地圖都屬于這端,他們將數(shù)據(jù)與信息抽象對應于點和線,利用相對位置、大小、顏色等抽象的視覺元素進行信息和數(shù)據(jù)的表達分析。
可視分析可以從這幾個方面來理解:
第一是數(shù)據(jù)方面,可視分析主要幫助用戶掌握的數(shù)據(jù)是海量、動態(tài)、模糊、甚至相互沖突的,首先數(shù)據(jù)有些是結構化的,有的是半結構化的,有的甚至是非結構化的,數(shù)據(jù)還有不同的來源,有文獻、專利、社會網(wǎng)絡、新聞報道等。那么怎么讓用戶去把握這些數(shù)據(jù),進而對數(shù)據(jù)進行探索與發(fā)現(xiàn)是可視分析系統(tǒng)需要解決的問題。
第二是可視分析的目的是什么,我們希望通過可視分析系統(tǒng)知道我們不知道的,然后同時發(fā)現(xiàn)我們不知道我們不知道的。
第三點是實時性,要達到分析目的就需要在數(shù)據(jù)層面上、分析層面上、展現(xiàn)層面上做到及時反饋用戶的意圖。
更進一步理解可視分析,在很多情況下人們試圖去理解周邊的事物,大到投資決策,小到購買一部數(shù)碼相機,這都是一種信息行為,人們需要對周圍的信息進行收集和整理、綜合評估,再根據(jù)先驗的知識將收集的信息重新構建新的知識來支持決策,那么用可視化的方法,將整個過程構建起來,讓用戶進行數(shù)據(jù)收集整理,用多種方法進行分析,再將結果可視化的呈現(xiàn)出來,隨著用戶不斷的去迭代,最終有新的發(fā)現(xiàn)來支持決策,同時這個過程也是意義構建的過程。
當然,這個過程當中最具挑戰(zhàn)性的是不確定性,首先是數(shù)據(jù)的不確定性,因為在探尋一個新問題的時候,你不知道要收集多少數(shù)據(jù)才算夠,也不知道收集來的數(shù)據(jù)到底是什么樣的質(zhì)量;其次是分析方法的不確定性,因為你不知道用什么樣的分析方法才能得到想要的結果;最后是結果的不確定性,你用這些不確定的數(shù)據(jù)、不確定的方法顯然是不能得到一個確定的答案,所以說這是一個不斷迭代的循環(huán),是一個不斷探索發(fā)現(xiàn)的過程,而不是給出一個答案。
我們需要不斷提高用戶的自由度才能應對這個不確定性,包括數(shù)據(jù)的自由度、分析方法的自由度、展示和交互的自由度。一個可視分析系統(tǒng)最終的目的是幫助人們進行信息的認知,其實從這個角度上我們也可以認為這算是認知計算的范疇。
這是曹老師對于文本可視化的一個架構總結,數(shù)據(jù)從非結構化到結構化是一個重點,怎么樣讓用戶在分析的過程中能夠實時的通過界面與數(shù)據(jù)與分析展示方法,進行不斷的互動。?
左上角的是360和北大袁曉如老師構建的一個手機基站的分析系統(tǒng),分析的數(shù)據(jù)包括手機基站中發(fā)送的文本信息、活躍程度、地理位置信息和時間等,他們構建這個系統(tǒng)是為了把數(shù)據(jù)和人的經(jīng)驗結合起來然后用來發(fā)現(xiàn)那些發(fā)送垃圾短信的偽基站;右上角是一個交通數(shù)據(jù)的系統(tǒng),這個系統(tǒng)把交通流量、位置、信息、時間結合在一起,讓用戶多維度去發(fā)現(xiàn)這些數(shù)據(jù);左下角是Quid,它幫助用戶掌握科技前沿與趨勢;右下角是谷歌的機器學習平臺的多維數(shù)據(jù)的可視分析系統(tǒng),用來對機器學習過程和結果進行展示和分析。
我們現(xiàn)在面臨的信息環(huán)境是各種新聞報道、用戶評論、深度分析報告、論文、專利……各種來源的數(shù)據(jù)、各種格式的數(shù)據(jù)、各種維度的數(shù)據(jù)很碎片化的信息環(huán)境,但我們可以通過可視分析幫助大家更高效率的認知爆炸信息。
這是波普爾的三個世界理論:物質(zhì)世界、人的精神世界和客觀世界,人的精神世界就是你的思想、你的情感,理性和非理性,人的精神世界作用于物質(zhì)世界形成客觀知識世界,論文、專利、新聞報道、評論等等這些碎片信息都是屬于第三世界,我們希望能夠更好的掌握第三世界,更進一步認識改變物質(zhì)世界。
首要做的是把這些非結構化數(shù)據(jù)通過一步步迭代變成干凈數(shù)據(jù)、實體數(shù)據(jù)、圖譜數(shù)據(jù)乃至加入語義,然后運用高階科學例如社會計算的一些方法等等,讓人們更好的認知、探索和發(fā)現(xiàn),要實現(xiàn)這個目的只能通過人和機器結合的途徑。
不同領域對于知識表示、知識表現(xiàn)的理解,左上角認知心理學研究的個體在心理和生理方面與知識的相互作用,最下面的是教育技術領域的知識可視化,思維導圖、概念圖或者知識地圖都是屬于這個領域,研究的是人和人之間利用形象化的知識表現(xiàn)促進知識流動,右上角是計算機領域的知識表示,研究的是人們怎么讓機器理解知識。
其實教育技術領域的知識表示是可視化的部分,計算機領域的知識表示的數(shù)據(jù)部分,我們將數(shù)據(jù)信息知識抽象為實體,以及實體之間的關系然后對應于抽象的視覺元素,構建一套可視分析系統(tǒng),可視分析這端面向人,關聯(lián)數(shù)據(jù)面向機器,通過構造一個人機結合的系統(tǒng)幫助人們分析認知世界,從而更好的理解和影響物質(zhì)世界。
美國的初創(chuàng)公司Quid成立于2010年,2015年進行了D輪融資,媒體稱這家公司是量化分析公司,我想是他們是把無法量化的文本信息或者碎片化的信息量化出來了,Quid從文本到結構化數(shù)據(jù)再到可視化的過程,把非結構化數(shù)據(jù)進行一定程度的結構化然后加上分析方法再到可視化一條線貫穿下來。
他們的主要數(shù)據(jù)源包括新聞、社交網(wǎng)絡的信息、公司信息、專利、論文以及用戶評論等等這些文本信息,他們把這些文本信息中涉及到的源數(shù)據(jù)都抽取出來,例如新聞數(shù)據(jù)會把標題、來源、時間、地點、分享數(shù)量等等抽取出來用以后面的分析。
抽取出來后將碎片化信息構建體系,進行聚類和可視化給用戶全局的把握,然后再提供各類工具讓用戶基于數(shù)據(jù)與分析方法做更多的探索和發(fā)現(xiàn)。
?
Quid在線視頻領域公司地圖簡單分析,這個復雜網(wǎng)絡圖,圖中每個節(jié)點代表一個公司,計算公司之間的相似度,根據(jù)相似度建立節(jié)點與節(jié)點的鏈接構建起復雜網(wǎng)絡,進行布局與聚類得到這個圖,圖中絕對位置不重要,重要的是點和點之間的相對位置,如果一些點聚集在一起證明他們的相似度比較高,聚類和聚類之間我們用不同顏色進行表示,節(jié)點大小用我們計算到的估計的公司市值來代表。
進入quid首先是一個搜索頁面,可以針對公司、新聞、專利等內(nèi)容進行搜索分析。這次搜索的對象是在線視頻公司。檢索在線視頻、流視頻、在線TV、移動TV、交互式網(wǎng)絡電視、內(nèi)容分發(fā)這些標簽,總共得到836條結果。選中所有公司,點擊右上方藍色的可視化按鈕。即可進入分析工程,界面的左側有一些選項可以根據(jù)時間、市值進行篩選。然后得到在線視頻領域的公司相似度圖譜,在這個頁面中的操作面板可以對網(wǎng)絡節(jié)點、連線的指標進行操作,包括節(jié)點代表的含義,顏色,大小,連線代表的含義都是可以調(diào)節(jié)的。信息面板主要顯示公司數(shù)量、所有公司接受的投資總額,投資中位數(shù),主要的投資并購、投資者等關鍵信息。
點擊某一節(jié)點可以查看公司的相關信息,比如公司名稱、業(yè)務描述、關鍵詞、公司成立時間、接受的投資、公司所在地、公司類型、投資者等等。用戶根據(jù)經(jīng)驗將劃分出的很多聚類自定義合并為三類:數(shù)字媒體、基礎設施、營銷。
用戶還可以在右上角的搜索框搜索Google和Comcast投資的不同的創(chuàng)業(yè)公司,可以看到Google活躍在廣告和數(shù)字媒體領域,Comcast聚焦在基礎設施領域。用戶可以直接將這些分析結果導出成圖片格式放在PPT里面。以上就是Quid通過分析得到的圖片導入到的PPT。
系統(tǒng)還可以將相同的聚類劃分的公司結合成一個節(jié)點,每一個節(jié)點代表一個細分領域,節(jié)點的標簽是細領域的名稱。這里同樣可以把分析節(jié)點導出成圖片。該系統(tǒng)可以按照細分領域進行統(tǒng)計。散點圖顏色代表細分領域,橫軸為公司成立時間的中位數(shù),縱軸為收到的投資總額,節(jié)點大小代表細分領域的公司數(shù)量,可以看出基礎設施公司為新的應用提供了基礎,在早期獲得了大量投資,從2006年起推動媒體和營銷公司然后開始高速發(fā)展,基礎設施是先導,獲取了基本的投資需求之后然后是營銷、社交媒體。
我們將公司、新聞、專利、文獻這些公開信息爬去下來,然后根據(jù)實體、文檔、事件、關系和屬性進行結構化,然后讓用戶基于可是分析系統(tǒng)進行探索和發(fā)現(xiàn)。用戶可以通過不同的數(shù)據(jù),不同的方法去發(fā)現(xiàn)新的東西,然后再根據(jù)結論反饋到數(shù)據(jù)和方法上進行不斷迭代。
這是我們初步總結的可能有用的統(tǒng)計方法,我們目前正在把它實現(xiàn)出來,放在前端展示,用戶就可以采用這些方法對數(shù)據(jù)進行探索。
我們根據(jù)范式理論發(fā)展讓用戶更好掌握趨勢的方法。“范式”大家可以簡單理解成框架或者體系,也就是在大家認同的框架下對一些現(xiàn)象進行解釋、研究、應用、開展經(jīng)濟活動。不僅科學有范式,技術也有范式,技術經(jīng)濟也有范式,這些都是一脈相承的。
表格里是未來導向、技術分析的一些方法,包括引言分析、專利分析的具體應用,可以對科學與技術范式的轉移進行描述。我們希望結合行業(yè)數(shù)據(jù)發(fā)展出更多的方法對技術經(jīng)濟范式進行描述、或是預測。
我們目前處于技術經(jīng)濟范式轉移的時期,從兩個現(xiàn)象可以印證:1.從2015年到現(xiàn)在,大量的公司合并或是被收購;2.風險資本出海,技術經(jīng)濟范式在本國發(fā)展到一定程度是會向外擴散的,這也就是風險資本出海的本質(zhì)。
這是我們構建的金融創(chuàng)業(yè)公司的相似度圖譜,我們根據(jù)一千多家金融創(chuàng)業(yè)公司的標簽去計算他們的相似度,構成一個復雜網(wǎng)絡,然后對它進行布局和聚類劃分。在這里我們用算法把細分領域直接劃分出來。
如果把投資公司也考慮到金融領域來,我們就可以構建創(chuàng)業(yè)公司和投資公司的投融關系圖譜。圖譜里面紅色是創(chuàng)業(yè)公司,綠色是投資公司。他們以投融資關系構建成網(wǎng)絡。投融資網(wǎng)絡是根據(jù)時間不斷變化生長的,我們希望能在變化生長中有一些發(fā)現(xiàn),于是我們做了一個簡單的嘗試,在網(wǎng)絡的演化中我們計算了每個節(jié)點在不同時間中的重要程度,然后進行排序。
這個是投資公司在網(wǎng)絡演化中重要性程度的排名變化,它能反應出某些投資公司在這個領域的關注程度。這張圖完全是用Excel和線條拼接出來的。在做可視化的過程中,我們有數(shù)據(jù),有分析目的,可以先做一些草圖然后去設想呈現(xiàn)方式。我們找到了一個適合做排名可視化的模板,現(xiàn)在我們根據(jù)這張圖去做排名可視化。這樣大家就可以在前端看到更好的效果。
最后給大家介紹四本書:第一本是復雜性科學的入門讀物,后面三本分別是在講科學范式,技術范式和技術經(jīng)濟范式。最后一本書在宏觀角度上講金融和產(chǎn)業(yè)資本在技術范式不斷變化的過程中是怎樣相互互動的,我認為對投資和創(chuàng)業(yè)都有一定啟發(fā)。
Q:第張圖中實體的關系、屬性是如何建立的?
郝:關于實體與實體的關系如何得到,這需要分情況:1.如果爬去的數(shù)據(jù)是結構化的,比如說在網(wǎng)頁上的呈現(xiàn)就是一張表,我們爬下它的數(shù)據(jù)就是結構化的。2.如果是文本數(shù)據(jù),半結構化或者非結構化的數(shù)據(jù),可能會需要用到自然語言處理中的命令實體識別,或者關系抽取。
當然我們現(xiàn)在爬去的數(shù)據(jù)大多都是結構化或者半結構化的,因為實體識別和關系抽取還沒有辦法解決所有的問題。
Q:可視化分析有什么工具嗎?
郝:說到工具,其實是把實體或者關系抽取出來,或者是去做情感識別,這些是有一些API可以提供的。比如說:玻森數(shù)據(jù)、騰訊文治提供的服務可以解決一部分問題。
Q:之前有看到NLPIR在線系統(tǒng) (語義分析系統(tǒng))和您講的有什么區(qū)別?從知識圖譜上看,關鍵詞提取是一樣的?
郝:我想應該這樣去理解這個區(qū)別。我們現(xiàn)在的系統(tǒng)是構建給分析師用的,比如行業(yè)分析師。語義分析系統(tǒng)顯然不是給分析師用的。然后你講的關鍵詞提取,是不是就是把實體提取出來,如果是這樣的話,那就都是是一樣的,都是把半結構化數(shù)據(jù)或者非結構化數(shù)據(jù)把它結構化,甚至加上一些語義變成知識圖譜,這些東西不管是你提到的語義分析系統(tǒng)還是我們的系統(tǒng)中這都是一樣的。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的技术动态 | 知识可视化,连接和探究知识之间的联系!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 智能导购?你只看到了阿里知
- 下一篇: 李涓子 | 机器智能加速器:大数据环境下