成果展示

好文分享:新时代人民日报分词语料库下关键词抽取及分析研究

发布时间 : 2022年3月30日 18:00

  摘要:[目的/意义]面对海量的新闻文本,通过提取少量能表征其内容的关键词,来帮助用户快速掌握新闻内容,是关键词提取的首要任务。[方法 /过程]本文以新时代人民日报分词语料库中部分语料作为研究对象,主要对比TF-IDF、Text Rank、LDA、LSI、Rake、Yake六种无监督关键词抽取方法的抽取效果,并对抽取结果进行分析。[结果 /结论]结果显示:在Pooling评价方法下,TF-IDF算法以及Yake算法在大规模人民日报关键词提取任务中表现最优,Text Rank算法性能尚可。另外,通过对政治、经济、社会类别下的关键词进行分析,可快速发现、梳理当月的重要事件。本文的研究可为新闻报刊语料的关键词提取分析提供参考。

 

  作者:周好,王东波,黄水清

  出处:文献与数据学报,2022,4(01):21-34

  关键词:关键词抽取;新时代人民日报分词语料;无监督抽取方法


南京农业大学人文与社会计算研究中心 领域知识关联研究中心 corpus.njau.edu.cn   苏ICP备11055736号-3苏
邮箱:corpus@njau.edu.cn  邮编:210095  地址:中国南京卫岗1号