中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)
ChineseHumorSentiment
chinese Humor Detection or Computation based on corpus and nlp methods, 基于語料庫與NLP方法的中文幽默計算與檢測項目
項目地址:https://github.com/liuhuanyong/ChineseHumorSentiment
項目介紹
幽默多指令人發(fā)笑的品質(zhì)或者具有發(fā)笑的能力,它是一種特殊的語言表達方式,是生活中活躍氣氛、化解尷尬的重要元素。近年來隨著人工智能的快速發(fā)展,如何利用計算機技術(shù)識別和生成幽默逐漸稱為自然語言處理領(lǐng)域研究熱點之一,即幽默計算。幽默計算旨在賦予計算機識別、生成幽默的能力,它涉及信息科學(xué)、認知語言學(xué)、心理學(xué)等多個學(xué)科的交叉,在人類語言的理解乃至世界文化的交流方面,都具有重要的理論和應(yīng)用價值。
幽默無處不在,計算機若能夠理解各種幽默形式,將會極大程度地提高人機交互系統(tǒng)的性能。
本項目將從中文的幽默性出發(fā),嘗試完成以下兩個目標:
1)建立起一個中文幽默文本語料庫。
2)幽默計算模型的構(gòu)建包括:
幽默等級識別模型
幽默類型識別模型
隱喻類型識別模型
隱喻情緒識別模型
中文幽默文本語料庫的構(gòu)建
程序主目錄:BuildCorpus
語料收集:BuildCorpus/corpus_spider.py
語料整理:BuildCorpus/collect_news.py
相聲小品語料:對話集,BuildCorpus/dialog
語料簡介
數(shù)量:6032個劇本、也稱話題集, 352834條對話
對話舉例:
中文幽默計算模型
模型思想:采用四層雙向lstm進行網(wǎng)絡(luò)搭建,給出一個初步的baseline.以下是訓(xùn)練實際情況.
| 幽默等級 | 6436 | 1610 | 0.8891 | 0.6137 | 5分類 |
| 幽默類型 | 5938 | 1460 | 0.9357 | 0.7096 | 3分類 |
| 隱喻類別 | 3515 | 879 | 0.9166 | 0.8089 | 2分類 |
| 隱喻情緒 | 2904 | 726 | 0.8134 | 0.5399 | 7分類 |
總結(jié)
1,一直在想如何更多地從社會語言學(xué)的角度去進行自然語言處理的研究和探索工作,幽默計算可以是其中一個,本項目是對該想法的一個實現(xiàn).
2,本項目完成了幽默語料庫的構(gòu)建工作,并使用基本的雙向lstm模型,訓(xùn)練了四個模型,準確率還有很大優(yōu)化空間
3,本項目后期將逐步加入Attention等機制,對現(xiàn)有模型基礎(chǔ)進行更新,嘗試是否可以進一步提高準確性
4,本項目的受到大連理工大學(xué)信息檢索實驗室工作的啟發(fā).
any question?
請聯(lián)系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語言處理項目: https://liuhuanyong.github.io/
總結(jié)
以上是生活随笔為你收集整理的中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: 【论文翻译】统一知识图谱学习和建议:更好