行业动态

上海大学语义智能实验室中文突发事件语料库

发布时间 : 2021年1月21日 20:20

        中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

        CEC 采用了 XML 语言作为标注格式,其中包含了六个最重要的数据结构(标记):Event、Denoter、Time、Location、Participant 和 Object。Event用于描述事件;Denoter、Time、Location、Participant 和 Object用于描述事件的指示词和要素。此外,我们还为每一个标记定义了与之相关的属性。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。

        该语料库的研究与开发由国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)资助。

(原文链接:https://github.com/manduner/CEC-Corpus)


南京农业大学人文与社会计算研究中心 领域知识关联研究中心 corpus.njau.edu.cn   苏ICP备11055736号-3苏
邮箱:corpus@njau.edu.cn  邮编:210095  地址:中国南京卫岗1号