新时代人民日报分词语料库(NEPD)向学术界免费开放

发布时间 : 2021年1月18日 12:01

语料库是由人工或机器标注好的真实语言材料组成的数据集，是开展与自然语言有关研究的有效工具和手段，在当前同时也是人工智能算法的训练集，直接决定了机器学习的运算效果。

在汉语通用语料方面，由北京大学计算语言研究所俞士汶先生主持构建的1998年1月人民日报语料为精加工人工语料，在业内最具代表性，影响力也最大，曾获得过包括国家科技进步二等奖在内的一系列奖项。但是，随着20多年时光的流逝，业界迫切需要与时代发展同步的新语料。在此背景下，南京农业大学人文与社会计算研究中心以2015上半年（1-6月）及2016年1月、2017年1月、2018年1月共9个月的《人民日报》发表的全部文章为对象，构建了新版人民日报语料——新时代人民日报分词语料（简称New Era People's Daily Segmented Corpus，NEPD）。NEPD规模现已超过2300万字，全部由人工标注，是目前世界上规模最大的汉语精加工通用语料库。

南京农业大学人文与社会计算研究中心领域知识关联研究中心 corpus.njau.edu.cn 苏ICP备11055736号-3苏
邮箱：corpus@njau.edu.cn 邮编：210095 地址：中国南京卫岗1号

资讯与动态

百科专栏

行业动态

成果展示

新时代人民日报分词语料库(NEPD)向学术界免费开放

发布时间 : 2021年1月18日 12:01