行业动态

北大中文语料库介绍页面

发布时间 : 2021年1月17日 20:20

 CCL语料库由北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)开发,期间得到了北京大学计算语言学研究所、中科院计算技术研究所等单位同仁的大力支持和帮助。CCL语料库建设工作先后得到多项课题的资助,包括:(1)教育部“教育振兴专项资助项目”:现代汉语句子结构规则研究及其辅助软件环境的开发(200110);(2)北大中文系211工程子项目“中国语言文学教学和基础理论及应用研究”;(3)教育部人文社会科学重点研究基地重大项目:基于大规模汉英对齐语料的语言研究与教学平台。

 CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。主要功能特色在于:支持复杂检索表达式(比如不相邻关键词查询,指定距离查询,等等);支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可以从网页上下载查询结果(text文件)。

 CCL汉语语料库总字符数为783,463,175,其中现代汉语语料库总字符数为581,794,456。

(原文链接:http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai)


南京农业大学人文与社会计算研究中心 领域知识关联研究中心 corpus.njau.edu.cn   苏ICP备11055736号-3苏
邮箱:corpus@njau.edu.cn  邮编:210095  地址:中国南京卫岗1号