研究方向:主题发现/关键词提取/舆情分析
联系方式:: 17125039@bjtu.edu.cn
Github:: liuyijianleo
研究方向:主题发现/关键词提取/舆情分析
联系方式:: 17125039@bjtu.edu.cn
Github:: liuyijianleo
摘要:
全国政协提案是我国政治制度非常重要的机制之一,每年全国各级政协委员都要提出提案,仅北京市2018年公开的提案就有798件,全国各级政协委员提出的提案总数更多。采用技术手段对政协委员形成的提案进行热点主题发现,并根据这些热点主题进行舆情统计分析,可以挖掘相应的社情民意,为政协委员提供技术信息的参考。
目前,关于提案的热点主题发现和采用技术手段对热点主题进行舆情统计的相关研究尚未见到。本文设计了一套政协提案及其相关舆情分析系统,为政协委员提供信息技术支持。本文主要工作包括以下几个方面:
(1) 对政协提案划分主题并提取关键词。编写网络爬虫程序,从政协提案网站采集了提案数据;根据政协提案的结构特点对提案进行向量化表示,使用K-means聚类算法对提案进行聚类,每一类表示一个主题;设计了两种关键词提取算法从每个主题中分别提取出三个关键词,分别简称“长词”和“短词”,并设计对比实验分析了两组关键词的有效性,结果表明“长词”比“短词”更能反映主题内容。
(2) 设计、训练情感分类模型并预测所有未标注数据的标签。开发爬虫程序,采集了每个“长词”的微博舆情数据并保存为结构化文本格式;设计了基于双向LSTM的情感分类模型,训练模型,在测试集上达到了90.45%的准确率,远远高于基于传统机器学习算法的情感分类模型在该数据集上的测试准确率。
(3) 对政协提案的相关舆情进行统计并可视化。在上述工作的基础上,对获取的微博舆情数据进行了统计:从关注度演进趋势和关注度大小、情感演进趋势和情感倾向等角度对每个主题的相关舆情进行了统计分析。
成果: