成果展示

新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较

发布时间 : 2019年12月20日 11:56

摘要:[目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论]从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。

作者:黄水清, 王东波

出处:《图书情报工作》 2019年第24期5-15,共11页

关键词:新时代人民日报分词语料; 语料库; 句子长度; 词汇分布; 齐普夫定律


南京农业大学人文与社会计算研究中心 领域知识关联研究中心 corpus.njau.edu.cn   苏ICP备11055736号-3苏
邮箱:corpus@njau.edu.cn  邮编:210095  地址:中国南京卫岗1号