摘要:[目的/意义]面对海量的新闻文本,通过提取少量能表征其内容的关键词,来帮助用户快速掌握新闻内容,是关键词提取的首要任务。[方法 /过程]本文以新时代人民日报分词语料库中部分语料作为研究对象,主要对比TF-IDF、Text Rank、LDA、LSI、Rake、Yake六种无监督关键词抽取方法的抽取效果,并对抽取结果进行分析。[结果 /结论]结果显示:在Pooling评价方法下,TF-IDF算法以及Yake算法在大规模人民日报关键词提取任务中表现最优,Text Rank算法性能尚可。另外,通过对政治、经济、社会类别下的关键词进行分析,可快速发现、梳理当月的重要事件。本文的研究可为新闻报刊语料的关键词提取分析提供参考。
作者:周好,王东波,黄水清
出处:文献与数据学报,2022,4(01):21-34
关键词:关键词抽取;新时代人民日报分词语料;无监督抽取方法