行业动态

中科院语料库介绍页面

发布时间 : 2021年1月19日 20:20

 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC。 CLDC是由中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言语音资源库。为中文信息处理等基础研究和应用开发提供支持,促进技术的不断进步。CLDC由国家高科技研究规划发展项目(863)"中文平台总体技术研究与基础数据库建设" (2001AA11401)、“中文平台评价技术研究与基础数据库建设” (2004AA114010) 和国家重点基础研究发展规划项目(973)"图象、语音、自然语言理解与知识发掘"(G19980305)等项目启动,隶属于中国中文信息学会,接受中国中文信息学会语音资源建设和管理工作委员会的业务指导和监督管理。

 CLDC的目的是建成能代表当今中文信息处理国际水平的、通用的语言信息与知识库,具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。在建立和收集语言资源的基础上,形成一套统一的系列化的标准和规范,推荐给需要的机构或研发人员。目前,CLDC的资源库已经大量服务于教育、科研、政府研究部门和工业技术开发中,为中文信息处理的基础研究和应用开发提供了强有力的支持。

 中国科学院自动化所的嵌入式语音合成系统采用了CASIA汉语疑问句语料库、CASIA汉语情感语料库、CASIA-863语音合成语料库、ASCCD-汉语普通话朗读语篇语料库、CADCC-汉语普通话自然口语对话语料库等中文信息资源作为开发系统的训练语料。

(中科院语料库:http://www.chineseldc.org/contact.html)


南京农业大学人文与社会计算研究中心 领域知识关联研究中心 corpus.njau.edu.cn   苏ICP备11055736号-3苏
邮箱:corpus@njau.edu.cn  邮编:210095  地址:中国南京卫岗1号