因果关系固定搭配知识库项目CausalCollocation
CausalKnowledgeBase
CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于網(wǎng)絡(luò)文本的因果知識(shí)庫(kù)項(xiàng)目,采用PMI,搭配抽取等方法,形成因果對(duì)頻繁集。
項(xiàng)目地址:https://github.com/liuhuanyong/CausalCollocation
項(xiàng)目介紹
因果關(guān)系是語(yǔ)言邏輯關(guān)系中重要的組成部分,通過(guò)挖掘因果關(guān)系,可以在多個(gè)方向上產(chǎn)生作用,如對(duì)詞作embedding,基于因果關(guān)系的預(yù)測(cè)等。目前,學(xué)術(shù)界中關(guān)于因果關(guān)系的抽取主要分成實(shí)體因果關(guān)系抽取和事件因果關(guān)系抽取,兩者分別以實(shí)體和事件作為因果單元,實(shí)體大多為名詞,事件大多為單個(gè)動(dòng)詞,這方面的工作可以參考semeval以及causalbank的相關(guān)工作。
因果單元的確定是因果關(guān)系抽取中的根本問(wèn)題,不同的因果單元所能應(yīng)用的場(chǎng)景會(huì)有著較大的差異。名詞性的實(shí)體單元事件性太差,單一動(dòng)詞性單元語(yǔ)義過(guò)于抽象,在實(shí)際應(yīng)用中會(huì)帶來(lái)很多的噪聲。
在這方面,我主要完成了以下工作:
1)CausalityEventExtraction項(xiàng)目, https://github.com/liuhuanyong/CausalityEventExtraction ,該項(xiàng)目從語(yǔ)言學(xué)的角度,給出了因果關(guān)系模式集,基于該模式集,可以初步抽取出因果描述單元,可以作為因果事件抽取的前期工作。
2)EventPredictBasedOnEG項(xiàng)目, https://github.com/liuhuanyong/EventPredictBasedOnEG ,該項(xiàng)目從建成因果事理圖譜的基礎(chǔ)上,給出了一個(gè)因果查詢api,用于未來(lái)事件預(yù)測(cè)的工作,可作為一個(gè)應(yīng)用環(huán)節(jié)。
然而,以上兩個(gè)項(xiàng)目都是從寬泛意義上的事件上來(lái)做的,在粒度上介于詞語(yǔ)句子之間,泛化能力較差,而且在事件的概率轉(zhuǎn)移上,一直無(wú)法得到很好的解決。我在想,是否能夠講搭配抽取的方法引入到因果知識(shí)庫(kù)的構(gòu)建當(dāng)中,因?yàn)樵谥?#xff0c;看到一個(gè)在英文因果對(duì)抽取的工作(http://www.cs.sjtu.edu.cn/~kzhu/papers/kzhu-copa.pdf), 該工作從Bing網(wǎng)頁(yè)快照中提取的可能的因果關(guān)系對(duì),形成7千萬(wàn)的因果關(guān)系對(duì),每一行有三個(gè)元素,分別為原因,結(jié)果和頻率。從下載數(shù)據(jù)來(lái)看,數(shù)據(jù)很亂,暫時(shí)想不出來(lái)有什么工業(yè)用處。因此,我想到因果頻繁項(xiàng)集的概念,能否根據(jù)因果對(duì)的共現(xiàn)信息,通過(guò)計(jì)算因果對(duì)之間的搭配,從而形成以事件性詞語(yǔ)(名詞、動(dòng)詞、形容詞)的因果搭配知識(shí)庫(kù)。
項(xiàng)目的技術(shù)路線
1、通過(guò)文本采集的方法,采集大規(guī)模文本數(shù)據(jù)集
2、通過(guò)執(zhí)行CausalityEventExtraction項(xiàng)目項(xiàng)目,得到大規(guī)模的因果描述句
3、基于CausalityEventExtraction的結(jié)果,分別對(duì)原因描述部分和結(jié)果描述部分進(jìn)行分詞,詞性標(biāo)注,命名實(shí)體識(shí)別等預(yù)處理操作
4、對(duì)原因描述部分和結(jié)果描述部分進(jìn)行詞性過(guò)濾處理,僅保留分詞結(jié)果中的名詞、動(dòng)詞、形容詞,形成原因詞列表和結(jié)果詞列表
5、以原因詞列表為中心,統(tǒng)計(jì)該詞語(yǔ)結(jié)果詞列表中的詞的pmi值,pmi值的計(jì)算公式:log(p(x,y)/(p(x)*p(y)))
6、按照pmi值高低,對(duì)每個(gè)原因詞的因果搭配信息寫入文件,設(shè)置topn=200,只保留每個(gè)詞的前200個(gè)頻繁結(jié)果詞。
項(xiàng)目腳本
結(jié)果文件為:data/causal_collocation.json
項(xiàng)目運(yùn)行結(jié)果
1、搭配文件:pmi_word有3項(xiàng)內(nèi)容構(gòu)成,分別為結(jié)果詞,結(jié)果詞性以及結(jié)果詞語(yǔ)原因詞之間的pmi值,用于衡量?jī)烧咧g關(guān)聯(lián)強(qiáng)度。
{ "_id" : ObjectId("5cbd878b831b975b8da3d6cc"), "word" : "自殺", "word_tag" : "v", "pmi_words" : [ [ "留醫(yī)", "v", 21.868029795027585 ], [ "苦悶", "a", 19.546101700140223 ], [ "干什么", "v", 19.28306729430643 ], [ "楊進(jìn)", "v", 19.28306729430643 ], [ "掀開", "v", 19.259220552352062 ], [ "抒發(fā)", "v", 18.546101700140223 ], [ "口誅筆伐", "i", 18.365529454498404 ], [ "同情", "v", 18.28306729430643 ], [ "搶救", "v", 18.115467345810362 ], [ "思索", "v", 17.898403444071104 ], [ "減肥", "v", 17.67163258222408 ], [ "想起", "v", 17.452992295748743 ], [ "贊揚(yáng)", "v", 17.28306729430643 ] }2、因果搭配舉例:
| 熬夜_v | 昏倒_v;交感_v;干澀_a;脫發(fā)_v;提神_v;上火_v;超負(fù)荷_b;泌尿_v;發(fā)燒_v;有心_v;猝死_v;發(fā)作_v;睡眠_(dá)v;慢性_b;不適_a;脫落_v;誘發(fā)_v;急性_b;點(diǎn)燃_v;困擾_v;比賽_v;突發(fā)_v;不好_a;感染_v;預(yù)防_v;調(diào)試_v;造成_v;消耗_v;到位_v;賺錢_v;容易_a;推廣_v;健康_a;及時(shí)_a;準(zhǔn)備_v;處于_v;成為_v;嚴(yán)重_a;工作_v;可以_v;達(dá)到_v;出現(xiàn)_v;減少_v;影響_v;存在_v |
| 出軌_v | 失戀_v;召喚_v;停播_v;原諒_v;出軌_v;籠絡(luò)_v;非常_b;起火_v;不知_v;叫停_v;厲害_a;緊急_a;攻擊_v;爆炸_v;受傷_v;比如_v;知道_v;造成_v;制定_v;影視_b;擔(dān)心_v;生活_v;死亡_v;有利于_v;設(shè)計(jì)_v;一般_a;合作_v;選擇_v;沒(méi)有_v;維持_v;下降_v;反彈_v;面臨_v;可以_v |
| 戀愛_v | 嘆老_v;談婚_v;論嫁_v;求婚_v;戀愛_v;浪漫_a;打斷_v;聊天_v;結(jié)婚_v;誘導(dǎo)_v;談話_v;掌控_v;認(rèn)真_a;拍攝_v;為由_v;感染_v;吸收_v;下去_v;上網(wǎng)_v;可謂_v;出來(lái)_v;擔(dān)心_v;涌入_v;龐大_a;就是_v;下來(lái)_v;放松_v;賺錢_v;鼓勵(lì)_v;采取_v;私募_v;影視_b;創(chuàng)業(yè)_v;失敗_v;應(yīng)該_v;所有_b;發(fā)生_v;開始_v;需要_v;獲得_v;投資_v |
| 挫敗_v | 怒斥_v;迷惘_a;渺茫_a;無(wú)情_a;出擊_v;煎熬_v;簡(jiǎn)易_a;源于_v;渴望_v;擇機(jī)_v;自殺_v;阻礙_v;旅行_v;做好_v;付費(fèi)_v;中小_b;興起_v;感到_v;爆炸_v;緊急_a;鞏固_v;掛牌_v;打破_v;獲取_v;主動(dòng)_a;壟斷_v;并購(gòu)_v;采取_v;成功_a;民營(yíng)_b;面臨_v;準(zhǔn)備_v;開始_v;迅速_a;下行_v;虧損_v;調(diào)整_v;達(dá)到_v;提高_(dá)v |
| 沉迷_v | 掛科_v;有的視_v;自閉_v;會(huì)考_v;斥罵_v;威逼_v;冷漠_a;勸退_v;利誘_v;慘敗_v;找上門_v;及格_v;牽動(dòng)_v;消解_v;沉迷_v;賭博_v;象征_v;疲勞_a;網(wǎng)游_v;批評(píng)_v;耽誤_v;炒股_v;思考_v;虛擬_v;危險(xiǎn)_a;學(xué)習(xí)_v;遭到_v;娛樂(lè)_v;聯(lián)系_v;真實(shí)_a;面對(duì)_v;分享_v;大額_b;防止_v;教育_v;擔(dān)憂_v;全面_a;缺乏_v;喪失_v;安全_a;炒作_v;貿(mào)易_v;轉(zhuǎn)移_v;陷入_v;健康_a;巨大_a;連續(xù)_a;造成_v;保證_v;可能_v;損失_v;保持_v;帶來(lái)_v;調(diào)整_v;虧損_v;出現(xiàn)_v;存在_v;持續(xù)_v;經(jīng)營(yíng)_v;下降_v |
| 肥胖_a | 順手作_v;返流_v;發(fā)胖_v;肥胖_a;補(bǔ)腦_v;攝取_v;疼痛_a;減肥_v;常見_a;淪為_v;慢性_b;臨床_v;治療_v;危害_v;發(fā)達(dá)國(guó)家_i;集聚_v;診斷_v;運(yùn)動(dòng)_v;迫切_a;蔓延_v;培養(yǎng)_v;現(xiàn)有_v;限制_v;改善_v;增多_v;一定_b;體現(xiàn)_v;研究_v;配套_v;容易_a;有利于_v;一般_a;健康_a;迅速_a;高于_v;帶來(lái)_v;導(dǎo)致_v;達(dá)到_v;需要_v;管理_v;發(fā)生_v;減少_v;出現(xiàn)_v |
| 賭博_v | 妻離子散_i;涉惡_v;反賭_v;金立_v;參賭_v;賭博_v;清查_v;失范_v;涉黑_v;沉迷_v;賤賣_v;自殺_v;貪污_v;抹黑_v;受賄_v;不能自拔_i;洗錢_v;快樂(lè)_a;散發(fā)_v;乃是_v;屹立_v;逃稅_v;斬?cái)郷v;離婚_v;并入_v;好像_v;拖欠_v;不知不覺_i;外出_v;整治_v;企圖_v;滋生_v;對(duì)賭_v;暴富_v;犯罪_v;偵查_v;不明_v;破滅_v;稀釋_v;最高_(dá)a;發(fā)動(dòng)_v;禁止_v;合伙_v;在于_v;流向_v;意味著_v;帶有_v;削弱_v;混亂_a;失去_v;扶貧_v;破產(chǎn)_v;主動(dòng)_a;證券化_v;必要_a;崛起_v;走向_v;遭到_v;涉及_v;斷裂_v;遵循_v;來(lái)臨_v;立案_v;緩解_v;瘋狂_a;從事_v;連續(xù)_a;失敗_v;開放_(tái)v;規(guī)避_v;損害_v;監(jiān)測(cè)_v;充滿_v;傾向_v;約定_v;想象_v;出來(lái)_v;合法_a;可能_v;加大_v;困難_a;享受_v;民事_b;明確_a;保障_v;萎縮_v;監(jiān)管_v;下跌_v;陷入_v;簽訂_v;極大_a;期待_v;達(dá)到_v;嚴(yán)重_a;穩(wěn)定_a;出現(xiàn)_v;可以_v;形成_v;獲得_v;吸引_v |
| 打架_v | 挑事_v;調(diào)皮_a;搶客_v;指向_v;同一個(gè)_b;罷工_v;頭疼_a;誤解_v;實(shí)屬_v;熱鬧_a;擾亂_v;同樣_b;批評(píng)_v;罕見_a;超預(yù)期_b;把握_v;合并_v;圍繞_v;沖突_v;絕對(duì)_a;基本_a;矛盾_a;面對(duì)_v;爭(zhēng)奪_v;劇烈_a;制定_v;國(guó)產(chǎn)_b;監(jiān)管_v;擔(dān)心_v;強(qiáng)烈_a;屬于_v;控制_v;約定_v;損失_v;無(wú)法_v;存在_v;持續(xù)_v;出現(xiàn)_v |
| 搶劫_v | 春假_v;閑逛_v;身故_v;搶劫_v;逮捕_v;作案_v;謀利_v;取現(xiàn)_v;詐騙_v;非正常_b;追究_v;死亡_v;還是_v;出去_v;知道_v;頻繁_a;遭遇_v;缺乏_v;嚴(yán)重_a;不同_a;帶來(lái)_v;造成_v;損失_v |
| 槍擊_v | 發(fā)誓_v;不幸_a;喪生_v;遇難_v;返回_v;恐慌_(tái)a;受傷_v;死亡_v;消退_v;傷亡_v;前往_v;損壞_v;犯罪_v;爆炸_v;參加_v;沖突_v;延誤_v;修改_v;傾向_v;執(zhí)行_v;凸顯_v;徹底_a;擔(dān)心_v;幫助_v;能否_v;受損_v;上升_v;取消_v;受到_v;重大_a;回落_v;進(jìn)入_v;完成_v;明顯_a |
| 強(qiáng)奸_v | 刑拘_v;搶劫_v;命名_v;身亡_v;對(duì)待_v;撤銷_v;尷尬_a;真正_b;頻繁_a;遭遇_v;處罰_v;研發(fā)_v;受到_v |
| 貪污_v | 違紀(jì)_v;毀謗_v;撤職_v;非同尋常_i;走后門_i;無(wú)助_a;調(diào)離_v;蝦夷_v;降職_v;揭發(fā)_v;檢控_v;公訴_v;虧空_v;無(wú)辜_a;違法_v;空穴來(lái)風(fēng)_i;瀆職_v;岌岌可危_i;受賄_v;露出_v;指控_v;舞弊_v;掏空_v;造成_v;犯罪_v;民辦_b;反腐_v;舉報(bào)_v;嚴(yán)厲_a;困難重重_i;抵抗_v;查詢_v;腐敗_a;巨額_b;挪用_v;代表_v;涉案_v;報(bào)道_v;撤銷_v;叫停_v;籌措_v;傾斜_v;實(shí)踐_v;壟斷_v;低下_a;臨時(shí)_b;混改_v;關(guān)鍵_a;思考_v;教育_v;普通_a;查封_v;愿意_v;庫(kù)存_v;公共_b;自主_v;調(diào)查_v;中小_b;變更_v;解決_v;輸送_v;流失_v;遭到_v;國(guó)有_v;并非_v;上市_v;要求_v;對(duì)外_v;購(gòu)買_v;不及_v;獲利_v;嚴(yán)重_a;處罰_v;積極_a;重視_v;虧損_v;負(fù)面_b;全面_a;建設(shè)_v;監(jiān)管_v;改革_v;研發(fā)_v;構(gòu)成_v;加大_v;工作_v;競(jìng)爭(zhēng)_v;成為_v;減少_v;重大_a;影響_v;出現(xiàn)_v;一定_b;存在_v;下降_v |
| 增持_v | 匯金_i;反跌_v;增次_v;定投式_b;壽持_v;續(xù)增_v;舉牌股_v;持工_v;阿合計(jì)_v;五牛亥尊_i;停手_v;知曉其_v;如愿以償_i;領(lǐng)薪_v;盡心_a;走好_v;安邦系_v;牽強(qiáng)_i;狂風(fēng)暴雨_i;富立_v;監(jiān)發(fā)_v;拔蔥_v;張開_v;吃官司_v;凸匹_v;擠出_v;遭疑_v;居首_v;追貨_v;高歌猛進(jìn)_v;圍剿_v;炒新_v;懸疑_v;免予_v;讓位_v;形不成_v;初始投資_v;雄起_v;保發(fā)_v;黯然失色_i;謀取_v;保增_v;消停_v;染指_v;增持_v;征詢_v;邀約_v;久違_v;在任_v;詳式_b;迷信_(tái)v;匪夷所思_i;分布_v;狙擊_v;吐槽_v;可想而知_i;更勝一籌_i;添磚加瓦_(dá)i;歐債_v;緊逼_v;跌動(dòng)_v;躍居_v;易主_v;潛水_v;留任_v;改正_v;斥資_v;普漲_v;力保_v;紓解_v;抽資_v;嘲諷_v;穩(wěn)定_v;捍衛(wèi)_v;限定_v;議論_v;開山_v;等值_v;出于_v;坐實(shí)_v;更替_v;平息_v;托底_a;力挺_v;浮盈_v;好奇_a;自救_v;強(qiáng)平_v;首創(chuàng)_v;擬以_v;井噴_v;掩護(hù)_v;趨同_v;責(zé)令_v;順延_v;實(shí)施_v;穩(wěn)住_v;典型_a;熱捧_v;瀕臨_v |
總結(jié)
1、本項(xiàng)目從名詞、動(dòng)詞、形容詞作為事件單元出發(fā),使用pmi和高頻共現(xiàn)的方式,完成了因果頻繁集的提取工作,形成頻繁因果搭配知識(shí)庫(kù)。
2、頻繁因果搭配知識(shí)庫(kù)能夠用于關(guān)鍵詞擴(kuò)展,詞向量表征wordembedding等應(yīng)用。
3、頻繁因果搭配知識(shí)庫(kù)中原因詞和結(jié)果詞之間的pmi值是否可以充當(dāng)因果關(guān)系的狀態(tài)轉(zhuǎn)移概率,這個(gè)問(wèn)題值得我們考慮以及實(shí)驗(yàn)。
4、頻繁因果搭配知識(shí)庫(kù)還可以有多種提取和構(gòu)建方式,后續(xù)有更多想法可以再進(jìn)行實(shí)驗(yàn)。
如有自然語(yǔ)言處理、知識(shí)圖譜、事理圖譜、社會(huì)計(jì)算、語(yǔ)言資源建設(shè)等問(wèn)題或合作,請(qǐng)聯(lián)系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語(yǔ)言處理項(xiàng)目: https://liuhuanyong.github.io
劉煥勇,中國(guó)科學(xué)院軟件研究所
總結(jié)
以上是生活随笔為你收集整理的因果关系固定搭配知识库项目CausalCollocation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深度学习准备「爆破」著名的欧拉方程
- 下一篇: Hadoop背景、模块介绍、架构