Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引
CognitiveInference
Cognitive Inference,認知推理、常識知識庫、常識推理與常識推理評估的系統(tǒng)項目,以現(xiàn)有國內(nèi)外已有的常識知識庫為研究對象,從常識知識庫資源建設(shè)和常識推理測試評估兩個方面出發(fā)進行整理,并結(jié)合自己近幾年來在邏輯性推理知識庫的構(gòu)建、應(yīng)用以及理論思考進行介紹。具體包括已有常識知識庫項目資源介紹、邏輯推理類知識庫的項目實踐集合、常識推理測試評估項目集合。
項目地址 :https://github.com/liuhuanyong/CognitiveInference/
項目介紹
常識推理是人工智能的高級階段,基于已有知識,運用知識推理機技術(shù),完成限定領(lǐng)域決策行為,能夠在充分減少人為勞動的同時,產(chǎn)生經(jīng)濟效益。例如,基于已知知識進行知識推理,采用如事件驅(qū)動傳導(dǎo)路徑等進行知識發(fā)現(xiàn),能夠輔助于業(yè)務(wù)的推理和輔助決策,在智能投研進行未知風(fēng)險預(yù)警、在輿情分析中對公司進行輿論控制和監(jiān)控。
“邏輯知識庫”+"邏輯推理機"的混合協(xié)作模式,是目前實現(xiàn)以上目的的重要方式。
"邏輯知識庫"作為描述現(xiàn)實社會事件之間傳導(dǎo)關(guān)聯(lián)的庫,需要在規(guī)模、質(zhì)量,領(lǐng)域針對性三個方面入手進行解決。具體地,作者通過對自己所涉及的推理項目進行系統(tǒng)回顧,認為,推理類常識知識庫,應(yīng)該從縱向和橫向兩個維度出發(fā)進行構(gòu)建。
一、縱向常識邏輯
縱項常識邏輯需要考慮的是類人的抽象和概括能力,這個需要抽象、概念性、上下位知識的構(gòu)建,可以讓機器模仿人類的舉一反三和概括總結(jié)的技能。例如,作者對縱向常識邏輯,形成了以下工作:
1、上下位關(guān)系圖譜項目:HyponymyExtraction.
上下位這種語義關(guān)系是整個詞匯語義關(guān)系中的一個重要內(nèi)容,通過上下位關(guān)系,可以將世間萬物進行組織和練聯(lián)系起來,對于增進人們對某一實體或概念的認知上具有重要幫助,自然語言文本中存儲著大量的上下位關(guān)系知識,如經(jīng)過語言專家編輯整理形成的概念語義詞典,如同義詞詞林,中文主題概念詞典,hownet等,也存在開放百科知識平臺當(dāng)中,有效地利用這些信息,能夠支持多項應(yīng)用基于知識概念體系,百科知識庫,以及在線搜索結(jié)構(gòu)化方式的詞語上下位抽取。項目實現(xiàn)為用戶輸入一個需要了解的詞語,后臺通過查詢既定知識庫,從百科知識庫,在線非結(jié)構(gòu)化文本中進行抽取,形成關(guān)于該詞語的上下位詞語網(wǎng)絡(luò),并以圖譜這一清晰明了的方式展示出來。
2、電商商品概念與銷售知識圖譜項目:GoodsKG.
項目以京東電商為實驗數(shù)據(jù)來源,采集京東商品目錄樹,并獲取其對應(yīng)的底層商品概念信息,組織形成商品知識圖譜。目前,該圖譜包括有概念的上下位is a關(guān)系以及商品品牌與商品之間的銷售sale關(guān)系共兩類關(guān)系,涉及商品概念數(shù)目1300+,商品品牌數(shù)目約10萬+,屬性數(shù)目幾千種,關(guān)系數(shù)目65萬規(guī)模。該項目可以進一步增強商品領(lǐng)域概念體系的應(yīng)用,對自然語言處理處理的幾個下游應(yīng)用帶來幫助,如商品品牌識別,商品對象及屬性級別情感分析,商品評價短語庫構(gòu)建,商品品牌競爭關(guān)系梳理等提供基礎(chǔ)性的概念服務(wù)。
3、抽象知識圖譜項目:AbstractKnowledgeGraph.
項目提出了一個抽象知識圖譜的項目,目的是對知識抽象與泛化提供一個思路并初步實踐,介紹了抽象知識圖譜,對抽象圖譜的現(xiàn)實需求進行論述。介紹了中文抽象圖譜的相關(guān)工作。包括 CN-Probase,Hownet,大詞林,百度百科Schema等,并給出了之前關(guān)聯(lián)的項目地址。本項目提出了一個可用的抽象知識圖譜構(gòu)建路線,提出抽象知識圖譜的實施路線并給出抽象接口實踐。建成抽象知識圖譜,目前規(guī)模50萬,支持名詞性實體、狀態(tài)性描述、事件性動作進行抽象,可完成抽象知識,包括抽象實體,抽象動作,抽象事件。基于該知識圖譜,可以進行不同層級的實體抽象和動作抽象,這與人類真實高度概括的認知是保持一致。
二、橫向常識邏輯
橫向上,需要挖掘順承、因果、反轉(zhuǎn)等多個方向的邏輯演化關(guān)系。例如,作者對橫向常識邏輯,形成了以下工作:
4、順承事件圖譜項目:SequentialEventExtration.
以謂詞性短語作為事件表示的方法方興未艾,針對特定領(lǐng)域,構(gòu)建起特定領(lǐng)域的順承事件圖譜,可以支持事件推理,基于事件的意圖識別與推薦等多項運用。本項目基于50W文章領(lǐng)域語料,運用簡單提取方式形成的順承關(guān)系圖譜demo,形成了事件節(jié)點為326781個, 順承事件對為543580條,分別為30W和50W的圖譜規(guī)模。
5、因果事件圖譜項目:CausalityEventExtraction.
項目以構(gòu)造和總結(jié)因果模板,結(jié)合中文語言特點,構(gòu)建因果語言知識庫的方式,對因果事件抽取以及因果知識圖譜構(gòu)建進行嘗試。羅列出了9類顯式因果邏輯抽取模式,通過使用因果連詞庫,結(jié)果詞庫、因果模式庫等,完成因果抽取、對文本進行噪聲移除,非關(guān)鍵信息去除等進行文本預(yù)處理;基于因果模式庫,完成因果對抽取,選擇短語、短句、句子主干等方式進行事件表示;使用知識圖譜中的實體對齊技術(shù)進行事件融合,基于業(yè)務(wù)需求,可以用相應(yīng)的數(shù)據(jù)庫進行存儲,比如圖數(shù)據(jù)庫等完成事件存儲。
6、復(fù)合事件圖譜項目:ComplexEventExtraction.
項目對中文復(fù)合事件抽取,包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件事件圖譜的類型、表現(xiàn)形式進行了歸納,并結(jié)合復(fù)合事件模式與語料進行了實驗。實驗表明,反轉(zhuǎn)事件,其實在某種程度上可以用來構(gòu)造反義詞詞典,例如"不是A而是B"這種模式,可以得到很多反義的詞或短語,可以用wordvector找相近詞,可以靠這種方式收集反義詞。漢語顯示標(biāo)記其實在中文文本當(dāng)中還是用的很普遍,在1000W文本中,有超過半數(shù)的文本中包含以上模式。能夠把顯示事件圖譜做好,感覺用處還是很多的。
三、常識邏輯推理
"邏輯推理機"是支配邏輯知識庫的重要運算機器,通過對現(xiàn)有邏輯知識庫,通過推理規(guī)則傳導(dǎo)、知識關(guān)聯(lián)路徑匹配,完成對現(xiàn)有邏輯知識庫的游走,最終實現(xiàn)單跳或多跳等后續(xù)事件的推理和預(yù)測,在這個方面,需要使用owl本體推理機、圖數(shù)據(jù)庫匹配、圖數(shù)據(jù)庫路徑查找、推理規(guī)則配置、圖結(jié)構(gòu)預(yù)測等多種不同形式。與此同時,與邏輯推理關(guān)聯(lián)的推理能力評估,也是檢驗常識推理智能的必要手段。例如,作者對常識邏輯推理,形成了一下工作:
7、基于問答社區(qū)的邏輯知識問答項目:ZhidaoChatbot.
本項目完成了一個基于線上問答社區(qū)的常識邏輯性問答機器人接口demo,本項目的問答機器人接口可以滿足原因邏輯,結(jié)果邏輯,可以回答為什么,有了會怎么樣等問題,也可以推薦相似性的問題,可以作為基于邏輯事理知識的一種補充,問答機器人接口可以作為開源實體性問答機器人的邏輯性問答補充,也可以為邏輯性知識庫的構(gòu)建提供幫助。
8、基于事理圖譜的未來事件預(yù)測項目:EventPredictBasedOnEG.
基于海量數(shù)據(jù)進行因果挖掘,可以得到大量的因果知識,基于因果邏輯庫,即歷史因果,通過計算當(dāng)前事件與歷史事件的相似性,可以在定性的方式上做出一些方向性的預(yù)測,方向上包括兩種,一種是積極信號,另一種是消極信號,項目介紹了一個基于因果圖譜的既定事件未來預(yù)測的接口預(yù)測demo。
9、學(xué)跡事理實時知識庫終身學(xué)習(xí)項目:EventKGNELL.
事理圖譜版Magi,EventKGNELL, eventuality knowlege graph never end learning system,一個7*24小時不斷學(xué)習(xí)的實時事理學(xué)習(xí)與搜索平臺,力圖緊跟實時網(wǎng)絡(luò)信息,面向公眾提供以“事件”為核心的實時結(jié)構(gòu)化知識搜索服務(wù)的實時事理邏輯知識庫終身學(xué)習(xí)和事件為核心的知識庫搜索項目,項目實現(xiàn)了包括事件概念抽取、事件因果邏輯抽取、事件數(shù)據(jù)關(guān)聯(lián)推薦與推理,
開放常識知識庫與常識推理評測項目
本項目對現(xiàn)有國內(nèi)外已有的常識知識庫為研究對象,從常識知識庫資源建設(shè)和常識推理測試評估兩個方面出發(fā)進行整理,形成已有常識知識庫資源集合、常識推理評測項目集合兩個組成部分。
一、已有常識知識庫資源集合
| 語言學(xué)知識庫 | 語言標(biāo)注語料庫 | Penn Treebank | 點擊查看 |
| 語言學(xué)知識庫 | 語言標(biāo)注語料庫 | The Penn Discourse Tree- bank (PDTB) | 點擊查看 |
| 語言學(xué)知識庫 | 語言標(biāo)注語料庫 | The Abstract Meaning Representation (AMR) corpus | 點擊查看 |
| 語言學(xué)知識庫 | 詞匯知識庫 | WordNet | 點擊查看 |
| 語言學(xué)知識庫 | 詞匯知識庫 | VerbNet | 點擊查看 |
| 語言學(xué)知識庫 | 詞匯知識庫 | VerbOcean | 點擊查看 |
| 語言學(xué)知識庫 | 詞匯知識庫 | VerbCorner | 點擊查看 |
| 語言學(xué)知識庫 | 框架語義知識庫 | FrameNet | 點擊查看 |
| 語言學(xué)知識庫 | 框架語義知識庫 | PropBank | 點擊查看 |
| 語言學(xué)知識庫 | 預(yù)訓(xùn)練語義向量 | GloVe | 點擊查看 |
| 語言學(xué)知識庫 | 預(yù)訓(xùn)練語義向量 | FastText | 點擊查看 |
| 語言學(xué)知識庫 | 預(yù)訓(xùn)練語義向量 | wordpiece embeddings | 點擊查看 |
| 常識庫 | 常識庫 | YAGO | 點擊查看 |
| 常識庫 | 常識庫 | DBpedia | 點擊查看 |
| 常識庫 | 常識庫 | WikiTaxonomy | 點擊查看 |
| 常識庫 | 常識庫 | Freebase | 點擊查看 |
| 常識庫 | 常識庫 | NELL | 點擊查看 |
| 常識庫 | 常識庫 | Probase | 點擊查看 |
| 常識庫 | 常識庫 | Wikidata | 點擊查看 |
| 常識知識庫 | 常識知識庫 | Cyc | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ConceptNet | 點擊查看 |
| 常識知識庫 | 常識知識庫 | SenticNet | 點擊查看 |
| 常識知識庫 | 常識知識庫 | Isanette and IsaCore | 點擊查看 |
| 常識知識庫 | 常識知識庫 | COGBASE | 點擊查看 |
| 常識知識庫 | 常識知識庫 | WebChild. | 點擊查看 |
| 常識知識庫 | 常識知識庫 | LocatedNear | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ATOMIC | 點擊查看 |
| 常識知識庫 | 常識知識庫 | ASER | 點擊查看 |
| 常識知識庫 | 常識知識庫 | 學(xué)跡實時事理系統(tǒng) | 點擊查看 |
二、常識推理評測項目資源
| Reference Resolution | Winograd Schema Challenge | Morgenstern et al., 2016 | 60 | 點擊查看 |
| Reference Resolution | WinoGrande | Sakaguchi et al., 2019 | 44.0K | 點擊查看 |
| Question Answering | MCTest. | Richardson et al., 2013 | 2.00K | 點擊查看 |
| Question Answering | RACE. | Lai et al., 2017 | 97.7K | 點擊查看 |
| Question Answering | NarrativeQA. | Kocˇisky et al., 2018 | 46.8K | 點擊查看 |
| Question Answering | ARC | Clark et al., 2018 | 7.79K | 點擊查看 |
| Question Answering | MCScript | Ostermann et al., 2018 | 13.9K | 點擊查看 |
| Question Answering | ProPara | Mishra et al., 2018 | 488 | 點擊查看 |
| Question Answering | MultiRC. | Khashabi et al., 2018 | 9.87K | 點擊查看 |
| Question Answering | ARCT | Habernal et al., 2018 | 2.45K | 點擊查看 |
| Question Answering | SQuAD. | Rajpurkar et al., 2018 | 151K | 點擊查看 |
| Question Answering | CoQA. | Reddy et al., 2018 | 8.40K | 點擊查看 |
| Question Answering | QuAC. | Choi et al., 2018 | 98.4K | 點擊查看 |
| Question Answering | OpenBookQA. | Mihaylov et al., 2018 | 5.96K | 點擊查看 |
| Question Answering | CommonsenseQA | Talmor et al., 2019 | 9.40K | 點擊查看 |
| Question Answering | DREAM. | Sun et al., 2019 | 10.2K | 點擊查看 |
| Question Answering | DROP. | Dua et al., 2019 | 96.6K | 點擊查看 |
| Question Answering | Cosmos QA. | Huang et al., 2019 | 35.6K | 點擊查看 |
| Question Answering | MC-TACO. | Zhou et al., 2019 | 1.89K | 點擊查看 |
| Textual Enatailment | RTE Challenges. | Bentivogli et al., 2011 | 48.8K | 點擊查看 |
| Textual Enatailment | Conversational Entailment. | Zhang & Chai, 2009 | 875 | 點擊查看 |
| Textual Enatailment | SICK. | Marelli et al., 2014a | 9.84K | 點擊查看 |
| Textual Enatailment | SNLI. | Bowman et al., 2015 | 570K | 點擊查看 |
| Textual Enatailment | SciTail. | Khot et al., 2018 | 27.0K | 點擊查看 |
| Textual Enatailment | SherLIiC. | Schmitt & Schütze, 2019 | 3.99K | 點擊查看 |
| Plausible Inference | COPA. | Roemmele et al., 2011 | 1.00K | 點擊查看 |
| Plausible Inference | CBT. | Hill et al., 2015 | 687K | 點擊查看 |
| Plausible Inference | ROCStories. | Mostafazadeh et al., 2016 | 98.2K | 點擊查看 |
| Plausible Inference | LAMBADA. | Paperno et al., 2016 | 10.0K | 點擊查看 |
| Plausible Inference | JOCI. | hang et al., 2017 | 39.1K | 點擊查看 |
| Plausible Inference | CLOTH. | Xie et al., 2017 | 99.4K | 點擊查看 |
| Plausible Inference | SWAG. | Zellers et al., 2018 | 114K | 點擊查看 |
| Plausible Inference | ReCoRD. | Zhang et al., 2018 | 121K | 點擊查看 |
| Plausible Inference | HellaSWAG. | Zellers et al., 2019a | 70.0K | 點擊查看 |
| Plausible Inference | AlphaNLI. | Bhagavatula et al., 2019 | 171K | 點擊查看 |
| Intuitive Psychology | Triangle-COPA. | Gordon, 2016 | 100 | 點擊查看 |
| Intuitive Psychology | Story Commonsense. | Rashkin et al., 2018a | 161k | 點擊查看 |
| Intuitive Psychology | Event2Mind. | Rashkin et al., 2018b | 57.1K | 點擊查看 |
| Intuitive Psychology | SocialIQA. | Sap et al., 2019b | 44.8K | 點擊查看 |
| Multple Tasks | bAbI. | Weston et al., 2016 | 40.0K | 點擊查看 |
| Multple Tasks | Inference is Everything. | - | - | 點擊查看 |
| Multple Tasks | GLUE. | - | - | 點擊查看 |
| Multple Tasks | DNC. | Poliak et al., 2018a | 570K | 點擊查看 |
| Multple Tasks | SuperGLUE. | - | - | 點擊查看 |
關(guān)于作者
劉煥勇, Liu Huanyong,2017年碩士畢業(yè),目前就職于中國科學(xué)院軟件研究所,兼任數(shù)據(jù)地平線科技算法總監(jiān)。專注金融、情報兩大領(lǐng)域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構(gòu)建與應(yīng)用等研發(fā)工作。主持研發(fā)自然語言處理技術(shù)開放平臺數(shù)地工場、大規(guī)模實時事理知識學(xué)習(xí)系統(tǒng)學(xué)跡、全行業(yè)因果鏈查詢與溯源項目尋鏈系統(tǒng),并在智能金融、智能情報落地中負責(zé)實施了多個項目。致力于面向中文處理的基礎(chǔ)知識庫建設(shè)與理論技術(shù)開源共享,目前累計對外開放自然語言處理實踐項目六十余項,其中知識圖譜和事理圖譜項目十六項。在openkg開放知識圖譜聯(lián)盟中開放工業(yè)應(yīng)用知識庫七類,主筆數(shù)地工場技術(shù)類系列文章二十余篇。
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設(shè)等問題或合作,可聯(lián)系我:
1、我的自然語言處理開源項目:https://liuhuanyong.github.io
2、我的csdn技術(shù)博客:https://blog.csdn.net/lhy2014
3、我的聯(lián)系方式: 劉煥勇,中國科學(xué)院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,事理類知識庫數(shù)據(jù)集,http://www.openkg.cn/organization/datahorizon.
5、我的工業(yè)項目:劉煥勇,以事理為核心的金融情報探索:https://datahorizon.cn.
項目地址:https://github.com/liuhuanyong/CognitiveInference/
總結(jié)
以上是生活随笔為你收集整理的Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 模拟嫁接技术
- 下一篇: 随笔-机器如何学习我们的知识?