前言:中文期刊网精心挑选了银行舆情工作总结范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
银行舆情工作总结范文1
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的Kmeans++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。
关键词:
潜在狄里克雷分配;主题模型;Kmeans++聚类;聚簇评价;热点话题
0引言
作为Web 2.0技术迅猛发展的产物,网络论坛使人们能更多地参与到日常话题的互动中,因此论坛成为了重要舆情的发源地与传播地。及时地发现舆情有利于政府部门的治国理政,也为企业的发展决策、危机公关处理等提供了舆论向导,因此热点话题挖掘成为了舆情监测领域的一个重要研究方向。
对于热点话题挖掘的问题,相关研究人员进行了大量的研究。丁伟莉等[1]对博客用向量空间模型建模后使用SinglePass算法进行聚类来发现其中的话题;邱立坤等[2]在对网络论坛中文本数据用向量空间建模并聚类后利用点击数与评论数对结果排序来发现热点话题;王伟等[3]对用传统向量空间模型表示的网页信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚类算法进行两次聚类来发现热点舆情。以上研究中都用到了向量空间模型表示文本,它并没有融入语义信息,这会使得语义不相关的信息出现在同一聚簇中,从而造成了主题信息的丢失,影响了聚类的效果。席耀一等[4]与刘嵩等[5]在对论坛话题追踪时利用知网语义库为词汇加入了语义信息,并用它作为文档表示模型来计算文档的语义相似度[6],这种方法在很大程度上缓解了主题丢失的问题,但论坛信息的快速更新使得这种融入了监督成分的方法仍然不能达到理想的效果,而且维护知网语义信息也是个难题。刘霄等[7]通过利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)主题模型为Twitter数据建模来发现突发的热点话题,PLSA成功地利用概率统计的方法来为文本建模,但它并没有在文档与主题的层面上给出一个合适的概率模型,PLSA中文档的主题分布与主题中词的分布是模型的参数,它们会随着文档增多而增加,这样它只能生成给定文档集合上的模型,在新的文本加入时还要重新训练,另外当训练集有限的情况PLSA还可能会出现过度拟合的现象[8]。
本文热点话题挖掘的研究对象是网络论坛数据集,它不同于新闻网页中经过专业编辑处理过的文本,它有着自己的特点:1)口语化,帖子者来自不同的地方,也有不同的经历与背景,在表达同一观点时措辞会有很大不同,经常会有错别字或网络新词汇产生,这就使得词汇噪声较多;2)篇幅差距较大,有些帖子的论述比较多,另一类只通过帖子的标题来传达信息,这会造成词汇矩阵稀疏的问题。
针对以上研究中的不足以及论坛文本数据的特点,本文采用潜在狄里克雷分配(Latent Dirichlet Allocation,LDA)主题模型对论坛文本数据建模,在对数据集进行聚类基础上提出基于主题聚簇的评价方法对聚簇进行排名。该方法在考虑主题的关注度同时,还对聚簇内部所含主题的突发性与主题纯净度加以考虑。通过对最有可能出现热点话题的聚簇进行信息抽取后设计话题展示的方法来完成热点话题挖掘任务。
1系统整体框架
对论坛文本集预处理后用LDA主题模型建模,将文本表示由高维词汇空间映射到了低维主题空间,这样就去除了词汇噪声的影响,之后用处理规模相似的训练集进行聚类实验,从对聚类的速度与效果两方面考虑得出合适的主题噪声阈值与聚类中心数目,然后用优化聚类中心选择的Kmeans++算法对主题空间中表示的文本集合进行聚类,之后通过主题聚簇用评价方法对出现热点话题可能性赋予权重,最后从最有可能出现热点话题的聚簇中用本文提出的描述方法提取出热点话题信息作为展示。
2论坛热点话题挖掘
2.1论坛文本建模
2.1.1LDA主题模型
LDA主题模型是一种三层贝叶斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以无监督的学习方法从文本集合中发现其中隐含的语义信息。
根据LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主题模型求解模型的过程就是在给定模型参数的条件下,最大化式(2)中描述的每个文档的生成概率的问题:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困难的问题,很难有精确的解法。实践中常用到的有两种不精确的解法:一种是基于变分法的EM(EstimationMaximization)算法求解[8];另一种求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一种,其理论基础是马尔可夫链收敛定理,通过构造符合马尔可夫链细致平衡条件的状态转移矩阵,让任意给定的初始分布通过转移矩阵迭代转移,使其收敛到目标分布。Gibbs Sampling算法采样公式推导起来简单而且实际应用中运行效果也十分理想。
Gibbs Sampling求解方法采用了与式(2)提到的方法所不同的思想,它不直接将φ与θ作为模型参数来估计,而是先计算后验概率p(z|w),再对模型隐含变量进行估计。以下是Gibbs Sampling算法求解LDA模型变量的步骤。
2.1.3论坛文本建模
本文采用了JGibbsLda[10]LDA建模工具对预处理后的论坛文本数据进行建模分析。参考文献[11]中LDA主题模型参数的经验值,取α=50/K, β=0.1,其中K为指定的潜在主题数,Gibbs Sampling的次数N设为1000。
Gibbs Sampling算法结束时会产生两个矩阵:
大小为M×K的文档——主题分布矩阵,其中M为论坛文档集数目;大小为K×Nw的主题——词的概率分布矩阵,其中Nw为文档集中词汇表的大小。
2.1.4主题噪声去除
通过对文档集主题分布矩阵观察发现,每个主题分布中会出现一个或几个突出的主要主题,其他次要的主题所占的比重可以忽略。为了突出主要主题的影响,采用了以下规则对主题噪声进行去除:假设每个文档的主题分布中概率值最大的为主要主题记作Tmain,它的概率记作P(Tmain),设定阈值δ,对于除主要主题外的其他任何主题Ti,如果P(Ti)
2.2主题空间Kmeans++聚类
传统的Kmeans聚类算法中,聚类中心的选择是个关键的步骤。大多数用到的随机选择的方法会导致每次聚类的结果有差别而不能很好地反映聚类的真实情况,所以对映射到低维主题空间的论坛数据采用优化聚类中心选择的Kmeans++算法[11]对论坛数据进行聚类。Kmeans++算法如下:
设D(x)为文档x到已有的聚类中心中最近的距离;X为数据点集合;
步骤1从X中随机选择一个点作为第一个聚类中心c1;
步骤2以概率分布D(x)2/∑Xx=1D(x)2选择数据点x∈X,并将它作为新的聚类中心ci,更新D(x);
步骤3重复步骤2直到找到K个聚类中心;
步骤4执行标准的Kmeans聚类算法对数据进行聚类。
对于最优聚类中心数的确定,可以在已知处理数据集规模条件下进行聚类实验,从中心数的设定对聚类质量与速度的影响选出最优值。
2.3主题聚簇评价方法
为了发现热点话题,本文提出了一种主题聚簇评价方法对出现热点话题的可能性进行权重赋值。
假设聚类中心各个主题分量的概率分布矩阵表示如下:
其中:C为聚类中心数;K为主题数;p(k,c)表示主题k分配在聚类中心c的概率,k∈K,c∈C且对于任意c∈C,∑Kk=1p(k,c)=1。
尽管聚类算法已经将主题描述不相关的帖子分开,但依然存在一些主题,它们在每个簇中的分布情况非常均衡,这样的主题因为其普遍性而少了突发的特征,本文采用主题在各聚簇中的分布均衡情况来描述主题突发性。
定义1设C为聚类中心总个数,p(k,c)为聚类中心c中主题k的概率分布值,那么主题k突发度PromDeg(k)定义如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
当得到了各个主题的突发度后,将各维度中主题的突发度与其所占的概率加权求和,很容易得到总的主题突发度,用它作为衡量聚簇主题突发性的标准。
定义2假设PromDeg(k)表示主题k的突发度,p(k,c)为聚簇c中第k维主题的概率值,其中k∈K,K为主题数,那么聚簇c的主题突发度为:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主题聚簇中,可以将聚簇表达的信息表示为在主题上一定概率的混合,纯净度高的聚簇可以更清楚地表达主题信息,而热点话题聚簇会因为其主题的聚集趋势明显而使得纯净度高。信息熵是信息论中度量信息量的概念,系统的状态分布越有序,信息熵越小。以聚簇的主题信息熵为依据,定义衡量聚簇主题纯净度的标准。
定义3假设K为主题数,p(k,c)为聚类中心c在第k维主题的概率,那么聚簇主题纯净度Purity(c)为:
其中γ为平滑值,防止主题信息熵为0。
为了衡量聚簇的热度,融入人为参与因素,赋予聚簇不同的关注度权重,文本采用单位时间内点击数与回复数来对聚簇的关注度进行描述。
定义4假设T2为采集时间,T1为发贴时间,φ为调整回复数与点击数的权重,repNum、clickNum分别是帖子的回复数与点击数,N为聚簇中包含的帖子总数,那么聚簇c关注度AttenDeg(c)为:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
将聚簇主题突发度、主题纯净度、关注度三个评价标准综合进行考虑可以得到每个聚簇含有热点话题可能性的归一化的评价公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j个聚类。
2.4热点话题提取
对聚簇按出现热点话题的可能性排序后,通过找出与聚类中心所描述的主题拟合程度最高的帖子,并抽取出最能描述热点话题的标签,来完成热点话题挖掘的工作。
由于聚类中心反映了聚簇中的平均的主题分布情况,通过找出与聚类中心语义相似度最大且关注度最高的帖子作为包含热点话题的帖子样例。本文使用JensenShannon散度[12]来计算帖子主题分布与聚类中心之间的拟合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,请明确。
其中M(k)表示两概率分布中同一维度上的概率均值,可用式(13)来表示:
M(k)=12(P(k)+C(k))(13)
其中:P为帖子在主题空间的概率表示,C为聚类中心在主题空间的概率表示,K为主题空间的维数。
最后找出聚簇中占比重最大的主题,统计出在此主题下出现频率最高且出现概率最大的若干个词汇作为热点话题的标签化描述。
3实验与结果分析
3.1主题噪声阈值与聚类中心数的确定
对主题空间中表示的文本进行聚类时,不同的主题噪声阈值与不同的聚类中心数目选择会对聚类的质量与速度产生不同的影响,而目前并没有合适的规则对两个值进行选择。通过对不同的主题噪声阈值与聚类中心数进行训练,选择出最优的聚类参数。
聚类效果的评价标准采用平均聚簇内误差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇内部的样本点越集中,聚类质量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 为聚类c中的第n个样本点,xc为聚类中心。
实验中选择了2763篇论坛帖子作为训练集,聚类采用Kmeans++算法,主题噪声参数范围设为[0,1],聚类中心的数目选择为[5,100]。图3与图4分别显示了不同的主题噪声与聚类中心选择对聚类质量与速度的影响。
实验结果表明:聚类中心选择不同值时,当主题噪声阈值在区间[0,0.7)时,聚类结果的ASSE值会显著降低,阈值在区间[0.7,1)时,ASSE值不会发生明显变化,为了考虑次要主题对话题描述的意义,将主题噪声阈值设置为0.75;图4中的峰值显示当主题噪声阈值设置过大,聚类中心数目较少时聚类时间开销较大且不稳定,当阈值过小,聚类中心数目多时也会出现相同的状况,考虑到聚类质量相对较优的情况下,参照图中时间开销较低的区域,将聚类中心数目选择为50,这样就可以在保证聚类质量同时提高聚类算法效率。
3.2聚簇评价与热点话题发现
本文采用的实验数据来自用户活跃的天涯论坛的经济论坛、股市论坛、理财前线、房产观澜这4个版块,通过网络爬虫采集了从2013年7月1日到7月5日的帖子共11200篇。采用LDA主题模型对预处理后的数据进行建模,主题个数K取100,模型的参数选择原则为2.1.3节中所述。主题噪声阈值设为0.75,之后将数据用Kmeans++算法进行聚类,聚类中心数N设为50,最后对主题聚簇用评价方法对出现热点话题的可能性进行权重计算。
为了详细分析主题聚簇评价效果,在图5中列出了2013年7月2日当天排名前4的聚簇各评价因子权重。从图中分析得出:虽然有些主题聚簇的突发性与纯净度得分高,但关注度很低,可以判断这是一类灌水贴,不能当作热点话题;而热点话题的特征是关注度高,而且突发度与主题纯净度得分也比较高。图中标注的是排名最高的4个话题聚簇的主题词依次是:大盘、板块、期货;货币、流动性、银行;百姓、货币、物价;收益率、期限、风险。
4结语
本文基于LDA主题模型与Kmeans++聚类算法,提出了一种在论坛中挖掘热点话题的方法。主要工作总结如下:
1)将LDA主题模型用于论坛文本数据建模中,挖掘其中语义信息,解决了论坛数据中词汇噪声多的问题,同时避免了文本表示中矩阵稀疏的问题。