甲子光年 | 为什么知识图谱终于火了?
本文轉(zhuǎn)載自公眾號甲子光年。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯。
?
?作者|金絲猴
編輯|甲小姐
設(shè)計|孫佳棟
微信|甲子光年 (ID:jazzyear)
?
“知識圖譜”相較于AI其他分支,似乎是最后一個熱起來的賽道:
?
「甲子光年」對國內(nèi)某數(shù)據(jù)平臺上的企業(yè)標簽進行了統(tǒng)計,國內(nèi)AI初創(chuàng)企業(yè)所涉及的技術(shù)標簽全部加起來近3000個,其中,“計算機視覺”出現(xiàn)255次,“語音識別”出現(xiàn)81次,“自動駕駛”出現(xiàn)152次,“自然語言處理”188次,“芯片”51次……而“知識圖譜”僅出現(xiàn)10次,是所有標簽中,出現(xiàn)頻次最低的。
?
也就是說,作為一項AI領(lǐng)域底層技術(shù),知識圖譜并不是大部分AI創(chuàng)業(yè)者的興趣所在;作為一個創(chuàng)業(yè)方向,這條賽道還遠遠談不上擁擠。
?
不過近來,升溫趨勢開始出現(xiàn)。
?
最近一段時間,“知識圖譜”這個詞被頻頻提及,做知識圖譜的公司開始增多,甚至一些大數(shù)據(jù)公司開始在自己的名字后面加上這四個字。
?
部分知識圖譜領(lǐng)域創(chuàng)業(yè)者向「甲子光年」描述了他們感受到的市場變化:
?
“2014年、2015年我出去宣傳知識圖譜,當時大部分人都問我:你是做圖片處理的嗎?但近兩年邀請我去講知識圖譜的會越來越多了,大家對這個技術(shù)已經(jīng)建立了基本的認知。”淵亭科技(DataExa)CEO洪萬福說。
?
“我以前出去談客戶,客戶都是搓著手問我有哪些AI技術(shù)可以拿來用。而現(xiàn)在客戶直接就說:我們需要應(yīng)用于一套管理XX的知識圖譜的系統(tǒng)。”達觀數(shù)據(jù)CEO陳運文說。
?
為什么知識圖譜近來突然火了?
?
“升溫”背后的前世今生
?
本質(zhì)原因,是人工智能火了,而深度學習并非放之四海皆管用,人們開始意識到:“知識”是“智能”的前提。
?
“一個邏輯學家,不需要親眼見過,或聽過大西洋和尼亞加拉大瀑布,他能憑借一滴水推測出它們的存在。所以整個生活就是一個巨大的鏈條,只要見到其中一環(huán),整個鏈條的情況就可推想出來。”阿瑟·柯南·道爾有言。
?
他所描繪的,是人類大腦對知識天然的聯(lián)想能力,對人類理解世界、學習新知起著至關(guān)重要的作用。
?
如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯——這正是知識圖譜對于AI的核心意義。
?
什么是知識圖譜?
?
知識圖譜(Knowledge Graph)旨在描述客觀世界的概念、實體、事件及其之間的關(guān)系——簡言之,就是誰是誰的“爸爸”,誰是誰的“兒子”,這些概念之間的關(guān)系。
全球第一個大規(guī)模開放域鏈接數(shù)據(jù)項目DBpedia的知識圖譜示意圖
?
2012年5月,Google推出Google知識圖譜(Google Knowledge Graph),并利用其在搜索引擎中增強搜索結(jié)果。這是“知識圖譜”名稱的由來,也標志著大規(guī)模知識圖譜在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用。
搜索關(guān)鍵詞Google會給出與之相關(guān)的詳細搜索結(jié)果
?
事實上知識圖譜技術(shù)淵源已久,只是在不停地換名字而已——從上世紀70年代的“專家系統(tǒng)(Expert System)”,到萬維網(wǎng)之父Berners-Lee提出“語義網(wǎng)(Semantic Web)”,再到他后來提出的“鏈接數(shù)據(jù)(Linked Data)”,都是知識圖譜的前身。
?
伴隨著Web技術(shù)的不斷演進與發(fā)展,人類先后經(jīng)歷了以文檔互聯(lián)為主要特征的“Web 1.0”時代與以數(shù)據(jù)互聯(lián)為特征的“Web 2.0”時代,正邁向基于知識互聯(lián)的“Web 3.0”時代。
?
可以說,知識圖譜的升溫,是AI對數(shù)據(jù)處理和理解需求逐日增加所導(dǎo)致的必然結(jié)果,而其發(fā)展有賴于專家系統(tǒng)、語言學、語義網(wǎng)、數(shù)據(jù)庫,以及信息抽取等眾多領(lǐng)域,是一個交叉融合的產(chǎn)物。
?
平臺巨頭紛紛重倉
?
2012年Google知識圖譜一出激起千層浪:微軟必應(yīng)、搜狗、百度等搜索引擎公司在短短一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品,如百度“知心”、搜狗“知立方(現(xiàn)更名為‘立知’)”等。
?
據(jù)百度副總裁王海峰介紹,目前百度知識圖譜在百度眾多產(chǎn)品線中已廣泛應(yīng)用,從2014年上線開始,知識圖譜服務(wù)規(guī)模三年間增長了大約160倍。
?
搜狗CEO王小川則告訴「甲子光年」:“搜狗是國內(nèi)首家構(gòu)建和應(yīng)用知識圖譜的搜索引擎。知識圖譜也是搜狗的基礎(chǔ)能力,服務(wù)于搜索引擎和其他多個產(chǎn)品。”根據(jù)搜狗2016年財報顯示,其搜索流量急速攀升,尤其移動搜索流量增長70%,背后原因很大程度上因為其將基于知識圖譜的AI技術(shù)和差異化內(nèi)容武裝到產(chǎn)品。
?
以社交為主戰(zhàn)場的騰訊也利用其數(shù)據(jù)優(yōu)勢構(gòu)建了自己的社交知識圖譜。騰訊研究院稱,其匯總了微信、QQ和公眾號超過20萬億次的閱讀點擊量、數(shù)百億筆支付數(shù)據(jù)、全年約1300億次視頻點擊量、70億次新聞點擊量、四十余萬款上線APP等數(shù)據(jù)。基于這些數(shù)據(jù),騰訊構(gòu)建出的知識圖譜可以服務(wù)于其眾多產(chǎn)品,并在語音搜索、智能問答等新趨勢中積蓄勢能。
?
以電商為主戰(zhàn)場的阿里也基于自身的數(shù)據(jù)庫建立起了知識圖譜。阿里生態(tài)內(nèi)有來自于淘寶、天貓、1688、AliExpress等多個市場和品牌商、行業(yè)運營、治理運營、消費者、國家機構(gòu)、物流商等多種角色,基于阿里知識圖譜的個性化推薦系統(tǒng)為其營收立下了汗馬功勞。
?
2013年,Facebook推出社交圖譜搜索工具Graph Search。隨即,“美國版大眾點評”Yelp股價大跌7%。《連線》雜志評論:GraphSearch的兩大野心,一是在網(wǎng)頁搜索領(lǐng)域干掉Google;二是在垂直搜索領(lǐng)域干掉所有對手,包括求職領(lǐng)域的LinkedIn,約會領(lǐng)域的Match,以及餐館點評領(lǐng)域的Yelp。
?
介紹Facebook GraphSearch的Zuckerberg
?
雖然現(xiàn)在看來Facebook的野心并未實現(xiàn),但巨頭平臺紛紛重倉,知識圖譜的應(yīng)用崛起不容小覷。
?
和巨頭們的熱情比起來,如開篇所述,創(chuàng)業(yè)公司看起來對這個賽道興趣不大,對比之下,也暗含著這個領(lǐng)域小公司的“蜀道之難”。
?
創(chuàng)業(yè)公司的生存空間
?
國內(nèi)第一梯隊的知識圖譜創(chuàng)業(yè)公司們告訴「甲子光年」:“活得還不錯,這是一個藍海市場。”超過半數(shù)的公司都表示知識圖譜技術(shù)目前“供不應(yīng)求”——由于團隊大小限制,有時候客戶都接不過來。
?
國內(nèi)知識圖譜創(chuàng)業(yè)公司并不算多,為避免與BAT直接交鋒,他們往往從垂直領(lǐng)域作為市場切入點。目前,國內(nèi)智能客服、金融、法律、公安、航空、醫(yī)療等“知識密集型”領(lǐng)域的山頭都已被瓜分。
?
少數(shù)公司只做單一垂直領(lǐng)域,如文因互聯(lián)、智言科技專注于金融領(lǐng)域。更多公司則會選擇多個垂直領(lǐng)域同時推進,如明略數(shù)據(jù)主打公安、金融(大銀行客戶)、工業(yè);擅長長文本分析的達觀數(shù)據(jù)則主攻金融(審計)、制造業(yè)、法律;海知智能主攻智能家居、醫(yī)療、金融;淵亭科技則在航空、醫(yī)療、軍工、通信、教育等多個領(lǐng)域均有涉足。
?
各家公司在商業(yè)模式上打法不同,主要分為三類:
?
第一類,以產(chǎn)品+定制化解決方案的形式進行直客服務(wù)。優(yōu)點是能夠與客戶深度綁定積累行業(yè)經(jīng)驗,缺點是通常耗時耗力。例如,明略數(shù)據(jù)在金融、公安、工業(yè)領(lǐng)域積累深厚,其技術(shù)合伙人何鑫告訴「甲子光年」,正因此前以這一類模式深入行業(yè)和客戶深度綁定,才構(gòu)建起技術(shù)及行業(yè)壁壘。
?
第二類,通過集成商銷售通用性較高的模塊化功能。其優(yōu)點是節(jié)省人力,缺點是客單價偏低。例如,淵亭科技在公安領(lǐng)域中通常將模塊化工具提供給軟件集成商,由集成商組合后再向客戶進行銷售。
?
第三類,成為第三方技術(shù)提供商,專注于特定技術(shù)環(huán)節(jié),通過和不同客戶合作,以產(chǎn)品分成或項目方式獲得營收。其優(yōu)點是應(yīng)用領(lǐng)域相對寬泛靈活,缺點是對技術(shù)要求較高。海知智能是典型代表,他們不獨立服務(wù)客戶,而是選擇某一環(huán)節(jié)提供技術(shù),小米、百度度秘、平安、海爾等都是其合作伙伴。
?
值得關(guān)注的是,雖然各家在打法上有不同偏好,但沒有任何一家公司采用單一商業(yè)模式。因為身處于初期市場中,打法往往跟著客戶來,因為他們很難向客戶說不。
?
為了保證知識圖譜的準確率,現(xiàn)在的普遍現(xiàn)象是:構(gòu)建過程中仍需要采用較多的人工干預(yù)。
?
“目前客戶更多還是以結(jié)果為導(dǎo)向,至于人工+智能的比例是怎樣不太重要。”達觀數(shù)據(jù)CEO陳運文告訴「甲子光年」。
?
采訪近十家知識圖譜創(chuàng)業(yè)公司,「甲子光年」試圖量化前文各家口中的“活得還不錯”:
?
就目前階段而言,大部分知識圖譜創(chuàng)業(yè)公司為了深度滲透行業(yè),都在干著“臟活累活”。其服務(wù)周期短則數(shù)月,長則一至兩年,客單價根據(jù)項目復(fù)雜程度,在幾十萬元到幾百萬元區(qū)間不等,單筆訂單價超過200萬元的公司是極少數(shù)。
?
不止一家公司創(chuàng)始人告訴「甲子光年」,其戰(zhàn)略是先在各垂直行業(yè)打一口又一口深井,井聚成湖,湖化為海。
?
那么,商業(yè)化的天花板能否捅破?
?
閉環(huán)之痛
?
回顧上述各類打法,可以看出,無論哪一種打法,市場增量空間都相對較窄,目前尚看不到可以N方增長的商業(yè)化出路。
?
知識圖譜初創(chuàng)公司要想真正捅破天花板,面臨著客戶服務(wù)和數(shù)據(jù)閉環(huán)的雙重挑戰(zhàn)。
?
先看客戶服務(wù)的挑戰(zhàn)。
?
目前絕大多數(shù)知識圖譜創(chuàng)業(yè)公司都是面向B端客戶,B端客戶分為大B和小B。
?
大B客戶通常是國資背景的大型企業(yè)。其優(yōu)點是有預(yù)算、有耐心。但他們尋求AI技術(shù)的原因往往來自于上層文件和指示,至于該用哪些技術(shù)、怎么用、用在哪、有多好用?客戶并不了解,雙方需要經(jīng)過漫長的磨合、試錯。然而,除了少部分有懂行的領(lǐng)導(dǎo)牽頭的項目,很多時候技術(shù)并不能有效地用起來,對于雙方來講,磨合的過程反而是資源浪費。
?
某業(yè)內(nèi)人士向「甲子光年」感慨,每年兩萬億人民幣數(shù)字化轉(zhuǎn)型的國家經(jīng)費,真正轉(zhuǎn)化成價值的比例非常低。
?
此外,與大B客戶合作通常還會受制于其公司的層級限制。
微軟亞洲互聯(lián)網(wǎng)工程院副院長于偉告訴「甲子光年」,他們在和國內(nèi)某運營商合作時就遇到過尷尬的局面。“以前地方獨立運營,同樣的產(chǎn)品和服務(wù)每個省份都需要單獨談單獨簽”。好在此運營商最近對架構(gòu)進行了一次梳理,優(yōu)化了其權(quán)限結(jié)構(gòu)。
而服務(wù)小B客戶的情況更為艱難。最大問題在于客單價低,其次是需求不明確,此外,如果長期只做小B客戶,難以通過實戰(zhàn)提升技術(shù)、積累經(jīng)驗。
?
一位知識圖譜公司CEO告訴「甲子光年」,“客戶篩選”是他工作中很重要的一個環(huán)節(jié)。“接,還是不接?要從公司的技術(shù)積累、生產(chǎn)力和賬面等多方面做權(quán)衡。”
?
雖然行業(yè)明顯升溫,但由于知識圖譜本身是一項底層技術(shù),且尚處于發(fā)展初期,還在實現(xiàn)“從無到有”搭建知識庫的過程,給客戶的是一種能力,卻無法用直觀、量化的商業(yè)價值測算。
?
換句話說,知識圖譜不能直接給客戶創(chuàng)收,這也使得對于很多客戶來講,這項服務(wù)并不是生死攸關(guān)的剛需,更像是對于明天的“理想追求”。
?
文因互聯(lián)CEO鮑捷告訴「甲子光年」,坦率來講,他認為在金融領(lǐng)域中,目前沒有哪一家公司能夠真正通過知識圖譜技術(shù)提高客戶的投資回報率,提高的只是客戶的投研效率。“但我們能幫助客戶在單位時間內(nèi)看更多報告、公司,這難道就沒有作用?”
?
公子小白CTO王昊奮認為這并不是知識圖譜公司應(yīng)該停留的狀態(tài)。他告訴「甲子光年」:“當技術(shù)離開學術(shù)界走向市場之后,創(chuàng)造商業(yè)價值才是硬道理,畢竟客戶最終看的還是效果。”
?
再看數(shù)據(jù)閉環(huán)的挑戰(zhàn)。
?
跟坐擁海量數(shù)據(jù)的BAT相比,知識圖譜創(chuàng)業(yè)公司的最大問題在于無法形成數(shù)據(jù)閉環(huán)。
?
形成閉環(huán),要求數(shù)據(jù)能夠自我生長、消化吸收、形成新的知識體系。如果無法解決閉環(huán)問題,知識圖譜公司就只能停留在做數(shù)據(jù)的轉(zhuǎn)化、錄入和分析層面,注定無法分得更多的蛋糕。
?
打一個比方,為什么同樣背景的學生在后來的實際工作中會有天壤之別?其關(guān)鍵是后續(xù)學習能力。如何基于已有背景知識快速學習新知,并構(gòu)建新的知識體系,才是知識圖譜技術(shù)應(yīng)當攻克的核心難點。
?
今日頭條就是一個正面教材,它的知識圖譜一直在自我生長。每一個用戶的每一次操作行為都幫助了它提高關(guān)系的準確度和維度,以此構(gòu)建更加完善和聰明的知識圖譜。
這樣的良好循環(huán)對于作為知識圖譜技術(shù)服務(wù)方的創(chuàng)業(yè)公司來講,幾乎很難實現(xiàn)。
在各垂直行業(yè),如果客戶產(chǎn)品不能與用戶持續(xù)進行交互,就意味著客戶自身尚不具備閉環(huán)數(shù)據(jù)生產(chǎn)的能力,何況技術(shù)服務(wù)商。
當下運用知識圖譜技術(shù)服務(wù)金融、法律、公安、醫(yī)療、航空等知識密集領(lǐng)域的公司,都在“被動”獲取數(shù)據(jù)(客戶給的,或者爬蟲獲得的),這樣的做法更使得技術(shù)提供商處于食物鏈底端,無法最大化知識圖譜的價值。
王小川告訴「甲子光年」:“如果某天B端客戶發(fā)現(xiàn)數(shù)據(jù)的消費和生產(chǎn)能夠形成閉環(huán),他很可能就自己干,或者把你收了。他才不會開環(huán)去做一個本該閉環(huán)的事,避免把數(shù)據(jù)和核心能力流到外面去。”
對于知識圖譜創(chuàng)業(yè)公司們來講,能不能形成閉環(huán)、能不能快速迭代、能不能持續(xù)學習將成為企業(yè)的核心競爭力。
這個問題對于創(chuàng)業(yè)公司們來講也很頭疼,目前沒有很好的對策。
于偉告訴告訴「甲子光年」,想要在目前的技術(shù)條件下打通數(shù)據(jù)閉環(huán)并不容易,但也不是不可能。首先,在進入市場應(yīng)該選擇同質(zhì)化程度較高的領(lǐng)域進行切入,比如,銀行、保險、大型制造業(yè)等。當你在行業(yè)中打磨得足夠優(yōu)秀了,可以嘗試在自己的產(chǎn)品中建立AI大腦,以此形成數(shù)據(jù)的閉環(huán),快速迭代。
后深度學習時代
?
歸根結(jié)底,知識圖譜的意義在于在盤根錯節(jié)的數(shù)據(jù)海洋中進行梳理和串聯(lián),讓以前模糊的世界變得更加清晰。
?
人類對于知識體系的整理,始終未曾停歇。從永樂大典,到四庫全書,再到各式各樣的百科全書。作為編纂者,必須要思考的是:如何整理、組織信息,并以何種方式進行呈現(xiàn)?
?
目前,全球最大的“自由的網(wǎng)絡(luò)百科全書”維基百科已經(jīng)收錄了超過2200萬詞條,僅英文版就超過400萬條,遠超紙質(zhì)英文百科全書中最權(quán)威的大英百科全書的50萬條,是全球瀏覽人數(shù)排名第6的網(wǎng)站。
?
2012年,大英百科全書宣布停止印刷版發(fā)行,全面轉(zhuǎn)向電子化。這直接反映了當前社會的信息容量的爆發(fā)式增長程度。
?
以往線性的、疏離的、非結(jié)構(gòu)化的知識體系已經(jīng)無法滿足需求——人們迫切需要尋找新的方法來呈現(xiàn)人類過往知識。
?
這也是人類文明從語言文字向數(shù)據(jù)化時代進步的關(guān)鍵一步:以前人類用文字符號代表和區(qū)分世間萬物,而知識圖譜是在此基礎(chǔ)上的巨大創(chuàng)新。
?
前Google杰出工程師阿米特·辛格博士(Amit Singhal)在介紹知識圖譜時是這樣講的:“The world is not made of strings , but is made of things.(構(gòu)成這個世界的是實體,而非字符串)”
前Google工程師阿米特.辛格博士
?
反觀這波AI浪潮,以深度學習為代表的大數(shù)據(jù)AI獲得巨大進展,但深度學習的不透明性、不可解釋性已成為制約其發(fā)展的障礙,所以,“理解”與“解釋”是AI需要攻克的下一個挑戰(zhàn),而知識圖譜為“可解釋的AI”提供了全新的視角和機遇。
?
研究“可解釋AI”的前提是梳理人類自身的認知機制。人類最擅長的思考方式就是將點和線關(guān)聯(lián)起來,并由點及面、抽絲剝繭、慢慢理清其中的邏輯關(guān)系。知識圖譜正試圖抽絲剝繭,“像人類大腦一樣思考”。
?
認清我們自己,才能將人類的能力賦予機器,重新審視人類自我,將是未來AI研究過程必不可少的環(huán)節(jié)。
?
“Knowing yourself is the beginning of all wisdom.”亞里士多德的這句話,正是知識圖譜使命最好的概括。
END.
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的甲子光年 | 为什么知识图谱终于火了?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python实现拆分、合并、删除pdf
- 下一篇: 基于深度学习的信息抽取技术