丁力 | cnSchema:中⽂知识图谱的普通话
本文轉(zhuǎn)載自公眾號:大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心。
?? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3月10日下午,復(fù)旦大學(xué)知識工場聯(lián)手北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心舉辦的“知識圖譜前沿技術(shù)課程暨學(xué)術(shù)研討會(huì)”上,OpenKG聯(lián)合發(fā)起?、海知智能CTO丁力博士分享了以“cnSchema:中?知識圖譜的普通話”為主題展開報(bào)告,主要介紹了面向中文信息處理的cnSchema.org,特別介紹了其核心本體設(shè)計(jì)以及其在知識圖譜驅(qū)動(dòng)的智能問答與智能分析中的應(yīng)用案例。
首先,丁博士介紹了中文開放知識圖譜(簡稱 OpenKG.CN)和cnSchema。
OpenKG.CN旨在促進(jìn)中?知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和?泛應(yīng)?。目前已與多個(gè)高校、機(jī)構(gòu)、企業(yè)等聯(lián)盟合作,開展活動(dòng)和業(yè)務(wù)。
cnSchema.org,作為OpenKG社區(qū)的Schema規(guī)范,面向中文信息處理,支持快速領(lǐng)域知識建模,支持跨數(shù)據(jù)源、跨領(lǐng)域、跨語言的開放數(shù)據(jù)自動(dòng)化處理,提供schema層面的支持與服務(wù)。
緊接著,丁博士簡要介紹了知識圖譜的基礎(chǔ)與發(fā)展歷程:
1. 知識圖譜中常見的知識表示方法:RDF三元組、圖數(shù)據(jù)庫、深度學(xué)習(xí)
2. 知識圖譜的五個(gè)層次:實(shí)體 -> 結(jié)構(gòu) -> 關(guān)系 -> 本體 -> 融合
3. 知識圖譜大事記
(1)Semantic Network (1956)
以節(jié)點(diǎn)表示實(shí)體,鏈表示關(guān)系。
優(yōu)點(diǎn):表示方式“自然”、靈活且易于理解。
缺點(diǎn):缺乏標(biāo)準(zhǔn),難以實(shí)現(xiàn)未知語言現(xiàn)象的處理。
(2)The Web (1989)
The Web作為一個(gè)信息空間,其目標(biāo)不僅有助于人際溝通,還能使機(jī)器參與進(jìn)來并提供幫助。
(3)The Semantic Web (2001)
提出三個(gè)設(shè)想:
①在網(wǎng)絡(luò)上發(fā)布結(jié)構(gòu)化數(shù)據(jù);
②用本體實(shí)現(xiàn)共同理解;
③使用可用數(shù)據(jù)實(shí)現(xiàn)智能又酷炫的應(yīng)用。
4、Linked Open Government Data (2010)
與政府的政治、經(jīng)濟(jì)、健康等多方面數(shù)據(jù)掛鉤。
(5)Journey to Web Schema,Schema.org(2011)
網(wǎng)絡(luò)Schema由標(biāo)準(zhǔn)第一(1996年起)過渡到數(shù)據(jù)第一(2004年起)再發(fā)展為用戶第一(2008年起)。
2011年出現(xiàn)了schema.org。
知識圖譜境界變遷的總結(jié):
在簡要介紹了知識圖譜的一些基礎(chǔ)知識和重要發(fā)展歷程之后,丁博士為我們詳細(xì)講解了cnSchema。
1. cnSchema生態(tài)
2. cnSchema 核?本體設(shè)計(jì)
3. cnSchema實(shí)體定義更加明確
4. 基于cnSchema的KBQA
接下來,丁博士為我們詳細(xì)分析了cnSchema在知識圖譜驅(qū)動(dòng)的智能問答與智能分析中的應(yīng)用案例。目前cnSchema在智能家居、智能客服和企業(yè)內(nèi)部的智能化等領(lǐng)域已形成了AI應(yīng)用落地成果。
領(lǐng)域知識圖譜構(gòu)建的關(guān)鍵方法和技術(shù)包括:領(lǐng)域詞匯抽取,實(shí)體識別,實(shí)體分類;領(lǐng)域知識抽取:抽取關(guān)系、抽取事件、抽取深層次結(jié)構(gòu);語義關(guān)聯(lián),搜索、匹配與排序;基于active learning技術(shù),提升標(biāo)注效率:基于領(lǐng)域語料的NLP技術(shù)。
1. 智能機(jī)器人(Bots)
Bots是基于Ruyi.AI第三方技能開方平臺的搜索引擎后新興的人機(jī)接口,對話中的信息粒度縮小到短文本、實(shí)體和關(guān)系,而且多輪對話還要求更豐富的上下文知識。cnSchema是中文知識圖譜接口的關(guān)鍵,schema自身對接中文自然語言處理以及針對中文信息中特有概念的處理都需要其支持。
2. 基于cnSchema的智能分析
以甲子光年的AI公司評價(jià)體系為例,利用NLP分類器,對AI公司數(shù)據(jù)進(jìn)行清洗與篩選;使用基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法構(gòu)建learning to rank模型,在輿論力指數(shù)、團(tuán)隊(duì)力指數(shù)、商業(yè)力指數(shù)、資本力指數(shù)四個(gè)大的評價(jià)維度下,劃分出眾多具體細(xì)化的模型參評因素,高時(shí)效性地動(dòng)態(tài)評估這些發(fā)展中的AI公司。
3. 基于cnSchema的領(lǐng)域知識圖譜
目前,基于cnSchema的領(lǐng)域知識圖譜涵蓋了音樂、工商、醫(yī)院、新聞、履歷和飲食等多個(gè)領(lǐng)域。如音樂和飲食知識圖譜,圖中介紹了知識圖譜的模塊劃分和關(guān)聯(lián)。
最后,丁力博士表示cnschema是開放的中文知識圖譜schema,致力通過最佳實(shí)踐幫助垂直領(lǐng)域合作者擴(kuò)展領(lǐng)域知識圖譜,以支持?jǐn)?shù)據(jù)發(fā)布和應(yīng)用,支持大家快速實(shí)現(xiàn)應(yīng)用落地。
大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心
讓學(xué)習(xí)成為一種樂趣
長按掃碼關(guān)注我們
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的丁力 | cnSchema:中⽂知识图谱的普通话的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 银行技术类2020校园招聘笔试
- 下一篇: Docx:docx.opc.except