语料库是由人工或机器标注好的真实语言材料组成的数据集。开展与自然语言相关的研究,语料库是有效的工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。在中文信息处理的研究中,训练语料通常由通用语料和领域语料组成。在汉语通用语料方面,由北京大学计算语言研究所构建的1998年人民日报语料最具代表性,影响力也最大。但是,随着时间的推移,1998年所构建的精加工人民日报语料,在词汇的时效性、完备性和覆盖度上均需要进行更新、补充和增加。
在这一背景下,以2015至2018年《人民日报》发表的文章为对象,我们构建了新版的人民日报分词语料。因为新版语料库收录的全部是进入新世纪以后的《人民日报》文章,而且均为2012年以后即中国特色社会主义进入新时代以后的文章,为区别于北京大学的1998年人民日报语料,将该语料命名为新时代人民日报语料(New Era People’s Daily Segmented Corpus,简称NEPD、NEPD语料或NEPD语料库)。为促进语料资源的开放和共享,NEPD的相关语料将对学界公布,供学术研究用,并且后续还将不断补充最新语料[1]。
参考文献:
[1] 黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.