當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)

發(fā)布時間：2024/7/5 编程问答 77 豆豆

生活随笔收集整理的這篇文章主要介紹了中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

ChineseHumorSentiment

chinese Humor Detection or Computation based on corpus and nlp methods, 基于語料庫與NLP方法的中文幽默計算與檢測項目
項目地址:https://github.com/liuhuanyong/ChineseHumorSentiment

項目介紹

幽默多指令人發(fā)笑的品質(zhì)或者具有發(fā)笑的能力，它是一種特殊的語言表達方式，是生活中活躍氣氛、化解尷尬的重要元素。近年來隨著人工智能的快速發(fā)展，如何利用計算機技術(shù)識別和生成幽默逐漸稱為自然語言處理領(lǐng)域研究熱點之一，即幽默計算。幽默計算旨在賦予計算機識別、生成幽默的能力，它涉及信息科學(xué)、認知語言學(xué)、心理學(xué)等多個學(xué)科的交叉，在人類語言的理解乃至世界文化的交流方面，都具有重要的理論和應(yīng)用價值。
幽默無處不在，計算機若能夠理解各種幽默形式，將會極大程度地提高人機交互系統(tǒng)的性能。
本項目將從中文的幽默性出發(fā)，嘗試完成以下兩個目標：
1）建立起一個中文幽默文本語料庫。
2）幽默計算模型的構(gòu)建包括:
幽默等級識別模型
幽默類型識別模型
隱喻類型識別模型
隱喻情緒識別模型

中文幽默文本語料庫的構(gòu)建

程序主目錄:BuildCorpus
語料收集：BuildCorpus/corpus_spider.py
語料整理：BuildCorpus/collect_news.py
相聲小品語料：對話集，BuildCorpus/dialog

語料簡介

數(shù)量：6032個劇本、也稱話題集, 352834條對話
對話舉例：

'''應(yīng)聘男:各位同事大家好！應(yīng)聘女甲:歡迎大家來指導(dǎo)！應(yīng)聘女乙:不管節(jié)目好不好！傻子:我用力過猛了，就變成這樣了！應(yīng)聘男:你拉褲子了？傻子:不是！、、、我使用我的洪荒之力，扶了一個跌倒的大媽！結(jié)果，就只剩下一條褲衩了！應(yīng)聘男:哦！難怪呢！土豪啊！敢吃青島大蝦，敢扶大爺大媽！有錢就是任性啊！這逼裝的我給滿風(fēng)！（2016網(wǎng)絡(luò)火爆熱詞）應(yīng)聘男:這你就不懂了吧？把傻子叫來，不是顯得咱聰明了嗎？咱不是有墊背的了嗎?應(yīng)聘女:哎！對呀！、、、還是你聰明！應(yīng)聘男:那還用說！、、、、、、傻子，來！一會見了人家考官啊！一定要叫“女神”傻子:這次你們不騙我？應(yīng)聘女乙:哎呀！這次不騙你！走啦，應(yīng)聘去！傻子:好的！考官:哦！進來坐下吧！考官:就你這樣子，還龍的傳人啊？傻子:我是、、、恐龍的傳人。傻子:哦！你們X經(jīng)理說了“女人里面的神經(jīng)病，就叫女神”考官:你、、、你這人是不是傻啊？傻子:我才不傻呢！要說傻，孫悟空才是千古第一傻人！傻子:他在蟠桃園里把七仙女定住，他媽的，那傻叉竟然去吃桃了！傻的都不可原諒了！這要是我、、、、、（欲言又止）考官:這要是你！你會怎樣啊？傻子:這要是我，我一定偷他一顆桃樹種回家，以后就不用買桃了！ '''

中文幽默計算模型

模型思想:采用四層雙向lstm進行網(wǎng)絡(luò)搭建,給出一個初步的baseline.以下是訓(xùn)練實際情況.

模型訓(xùn)練集測試集訓(xùn)練集準確率測試集準確率備注

幽默等級	6436	1610	0.8891	0.6137	5分類
幽默類型	5938	1460	0.9357	0.7096	3分類
隱喻類別	3515	879	0.9166	0.8089	2分類
隱喻情緒	2904	726	0.8134	0.5399	7分類

總結(jié)

1,一直在想如何更多地從社會語言學(xué)的角度去進行自然語言處理的研究和探索工作,幽默計算可以是其中一個,本項目是對該想法的一個實現(xiàn).
2,本項目完成了幽默語料庫的構(gòu)建工作,并使用基本的雙向lstm模型,訓(xùn)練了四個模型,準確率還有很大優(yōu)化空間
3,本項目后期將逐步加入Attention等機制,對現(xiàn)有模型基礎(chǔ)進行更新,嘗試是否可以進一步提高準確性
4,本項目的受到大連理工大學(xué)信息檢索實驗室工作的啟發(fā).

any question?
請聯(lián)系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語言處理項目: https://liuhuanyong.github.io/

總結(jié)

以上是生活随笔為你收集整理的中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Android官方开发文档Trainin
下一篇：【论文翻译】统一知识图谱学习和建议：更好

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)

ChineseHumorSentiment

項目介紹

中文幽默文本語料庫的構(gòu)建

語料簡介

中文幽默計算模型

總結(jié)

總結(jié)