什么是语料库？

发布时间 : 2021年1月17日 20:22

语料库是由人工或机器标注好的真实语言材料组成的数据集。开展与自然语言相关的研究，语料库是有效的工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。在中文信息处理的研究中，训练语料通常由通用语料和领域语料组成。在汉语通用语料方面，由北京大学计算语言研究所构建的1998年人民日报语料最具代表性，影响力也最大。但是，随着时间的推移，1998年所构建的精加工人民日报语料，在词汇的时效性、完备性和覆盖度上均需要进行更新、补充和增加。

在这一背景下，以2015至2018年《人民日报》发表的文章为对象，我们构建了新版的人民日报分词语料。因为新版语料库收录的全部是进入新世纪以后的《人民日报》文章，而且均为2012年以后即中国特色社会主义进入新时代以后的文章，为区别于北京大学的1998年人民日报语料，将该语料命名为新时代人民日报语料(New Era People’s Daily Segmented Corpus，简称NEPD、NEPD语料或NEPD语料库)。为促进语料资源的开放和共享，NEPD的相关语料将对学界公布，供学术研究用，并且后续还将不断补充最新语料[1]。

参考文献：
[1] 黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.

南京农业大学人文与社会计算研究中心领域知识关联研究中心 corpus.njau.edu.cn 苏ICP备11055736号-3苏
邮箱：corpus@njau.edu.cn 邮编：210095 地址：中国南京卫岗1号

资讯与动态

百科专栏

行业动态

成果展示

什么是语料库？

发布时间 : 2021年1月17日 20:22