前言:中文期刊网精心挑选了互联网舆情监控分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
互联网舆情监控分析范文1
关键词:舆情监测;移动互联网;推送技术
中图分类号:TP309
近些移动互联网和移动终端快速普及,移动互联网的概念是相对于传统互联网而言。移动互联网可以使用随身携带的移动终端随时随地乃至在移动过程中获取互联网服务,较传统互联网有着很大的优势[1]。
正是由于当前获取互联网服务的方式更加便利、多样,使网络舆情形成更加迅速,对社会影响更快,同时预警也更困难[2]。
目前从海量的互联网信息中获取最新舆情信息,并及时发现负面报道和不良言论已经有了成熟的技术,但是传统的舆情预警系统,往往需要依赖于PC平台并靠专人值守监测,而舆情本身带有很大的突发性和不可预见性,即时的舆情报警成为当前舆情监测领域主要难题。就传统舆情预警系统而言,如果无专人值守或者在不能使用电脑的情况下,往往不能第一时间获得最新的舆情信息[3]。
本文系统将传统的舆情预警系统和移动互联网相结合,发挥移动互联网优势,可以使用户全天随时随地不间断获取最新舆情,且无需专人值守,突破了舆情实时预警的难点。并给出了系统实际运行的实验结果。
1 系统设计
基于移动互联网的舆情预警系统分为服务器端和移动平台客户端两个组成部分。系统结构如图1所示:
(1)舆情数据采集。服务器端主要负责从新闻网页、论坛、博客获取需要舆情信息,并存储在服务器端的舆情数据库中;(2)移动终端获取舆情数据。移动客户端是安装在移动终端的App应用程序。可以获取服务端提供的数据,客户端有支持两种获取数据的方式:1)客户端请求数据。在客户端启动时会向服务端发送请求,请求舆情数据。服务端收到请求后将舆情数据库中的数据按时间将最新的舆情数据生成Json文件提供给客户端。客户端接收此Json文件,在客户端进行解析,解析提取相应的数据显示在客户端上。用户也可手动刷新舆情列表,以获得最新舆情。上述是移动终端传统获取信息的方式,是通过客户端请求,即轮询方式;2)推送通知。和传统轮询方式不同,推送通知则是由服务器告知手机,手机再进行获取,信息获取效率相对要提高很多[4]。
当服务端数据库有更新时,利用推送通知技术向移动平台发送推送通知,并以提示音和弹出框提醒用户,告知用户有新的舆情消息,提示用户开启客户端浏览。
图1 基于移动互联网的舆情预警系统结构
推送技术具有很大的优势,它由服务端发起,使得舆情信息主动地去寻找用户,告诉用户什么时候有舆情消息什么时候该去使用客户端浏览,为用户节省了大量的时间,当有新的舆情消息时,根据推送消息的提醒用户点击查看。
本系统将最新的移动互联网技术与现有的舆情预警系统相结合,突破了传统舆情预警系统不能保证用户随时随地即时收到最新舆情的技术难题。
2 关键技术
2.1 推送通知流程
推送通知整体流程,如图2所示。Provider是指舆情监控系统的服务端,App是指舆情监测客户端,PNS(Push Notification Service)是指推送服务器,Device是指移动终端设备,Device Token是指设备令牌用于推送认证。
图2 推送通知流程
舆情预警推送通知过程分为六个阶段:
(1)舆情客户端向操作系统注册推送通知服务;(2)移动终端操作系统向PNS注册自己的设备和应用,并获得Device Token;(3)舆情预警客户端将Device Token发送给舆情监控服务器;(4)舆情监控服务端把待发送的消息、目的Device的标识打包发给PNS;(5)PNS在自身的已注册推送服务的Device列表中,查找有相应标识的Device并把消息发到对应的Device;(6)Device的操作系统把发来的消息传递给对应的客户端,并弹出提示。
2.2 推送通知认证
推送认证机制,实际上包含两层。一层是物理连接上的认证,另一层是Device设备令牌的认证。
图3 SSL/TLS链接
(1)物理连接上的认证:SSL(安全套接层)/TLS(安全传输层协议)链接。
Device在开启Push的时候,会连接PNS建立一条SSL/TLS加密链接。每一台正常的Device都有一个独有的设备证书,而PNS也有一个服务器证书。两者建立的时候,会验证彼此的证书有效性。TLS链接一旦建立,在没有数据的情况下,只需要每隔15分钟进行一次保活的握手,因此几乎不占流量。而一旦意外链接中断,Device会不断尝试重新建立TLS链接;(2)Device设备令牌的认证PNS判断推送消息该发给哪台Device的依据是“目的Device的唯一标识”,这个标识就是Device Token。设备令牌是每次建立TLS连接时,PNS通过前一层次(TLS层)里提到的每台正常的Device唯一的设备证书(Unique Device Certificate),并用令牌密钥(Token Key)加密生成的。在令牌生成了之后,PNS会把Device Token返回给Device,而客户端则把返回来的Device Token直接发送给Provider。当Provider有消息要发送时,需要将消息和Device Token一起发送给PNS,而PNS再依据Device Token,找到相应TLS链接的Device,并发送相应的推送消息。
2.3 发送推送通知
Provider发送给PNS的数据格式为JSON,结构如下:{“aps”:{“alert”:“舆情信息”,“alertid”:“1005”,“badge”:1,“sound”:“default”}}
JSON格式解释如下:alert:舆情信息的标题;alertid:该条舆情信息的id;badge:未读条数的数值计数;sound:通知到达时提示音。
PNS接收到消息体和Device Token后,将尝试向制定设备发送推送通知。如果其尝试向某个设备发送通知并且失败了,它会将通知放入队列。当设备重新和PNS建立TLS链接时PNS会将队列待发送的通知发送给该设备。
3 实验
3.1 实验过程
使用本系统进行一全天的舆情采集及预警实验。当舆情系统服务端采集到最新舆情时,更新数据库,同时向客户端发出预警,弹出提示框及发出提示音。如图4所示。
图4 最新舆情信息推送通知
3.2 实验结果及分析
全天系统共采集到需要预警的舆情信息862条,如表1所示。经测试在移动终端全部及时第一时间收到预警。
表1 预警实验
舆情爆发时段 预警数
9:00之前 252条
9:00-18:00 406条
18:00以后 204条
表2可知本文系统在舆情预警上有明显优势,可保证用户随时随地获取最新舆情。
表2 本文系统与传统系统进行功能比对
移动舆情预警系统 传统舆情预警系统
无需专人值守 需专人值守
全体自动报警 无人值守无法报警
可随时随地获取舆情预警 离开机房就无法获取舆情信息
4 结束语
本文系统与传统系统相较主要有两大优势:一是移动性,用户可随时浏览最新舆情信息;二是推送通知服务,可以使用户第一时间收到舆情预警。两者结合可以实现全天舆情预警,突破了传统舆情预警系统的瓶颈。
本文所介绍的系统目前已经在iOS平台上投入使用,取得良好的用户口碑,提升了用户体验。其必将为舆情预警领域未来的发展提供了有力的技术支持,为用户提供更多便利。
参考文献:
[1]史波.移动互联网环境下公共危机信息传播行为的影响因素研究[J].情报杂志,2013(06):14-18.
[2]彭劭莉,张乐.突发事件网络舆情预警研究综述[J].情报探索,2013(06):51-54.
[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009(03):115-120.
[4]李庆诚,商盛立.手持阅读终端电子资源Push系统设计与实现[J].计算机工程与设计,2009(06):1483-1487.
作者简介:莫倩(1972-),男,博士,副教授,研究方向:数据挖掘和中文信息处理;熊硕(1989-),男,硕士研究生,研究方向:数据挖掘和中文信息处理。
互联网舆情监控分析范文2
关键词:网络舆情;网络爬虫;网络资源;爬虫测速;主题更改
中图分类号:TP391.3
21世纪是信息科学技术飞速发展的世纪,互联网在生活中的应用越来越广泛,尤其是随着智能手机逐渐普遍,人们能够通过移动互联网更加便捷地获得外部资讯。网络舆情是当前网民们针对热点社会事件以及社会政治经济状况等内容反映出的态度总和。“管中窥豹,时见一斑”,可以说网络舆情就是当前社会现状的放大镜,针对这些态度思想及政治倾向的社会舆论信息的收集整合,是分析社会动向、研究人民需求的重要手段。
互联网引擎搜索技术并未完全成熟,在很多具体环节仍旧存在着缺点,严重制约着网络舆情监测工作的全面展开。传统的网络爬虫技术在进行网络信息的获取时,对其内容的处理精确性和不足,存在着无用信息过多和部分关键信息缺失的情况。因而,针对网络爬虫技术进行研究,提出更为有效的优化措施是一项十分必要的工作。
1 互联网舆情检索技术
现阶段建设的网络舆情监测系统基本涵盖了所有互联网领域的基本技术,是一项复杂而庞大工程。但从系统的功能实现上看,舆情监测系统的关键技术是由互联网信息采集技术和文本信息抽取技术构成的。
1.1 互联网信息采集技术简介
作为互联网搜索引擎获得信息的基本技术,信息采集技术的实现方法包括元搜索和网络爬虫两种模式。这也是当前网络舆情监测信息获得的主要途径。
所谓元搜索技术,就是在检索过程中将多个网络搜索引擎以串联的方式运行,监测方提交的搜索条件被初步处理后,分送给这些串行的搜索引擎,由其各自完成对相应数据库信息的检索工作,在获得初步搜索结果后,再将这部分信息进行二次加工,通过去重、排序、过滤等方式完成冗余信息的处理。元搜索技术在检索信息全面性方面要明显优于单搜索引擎技术。同时,元搜索技术在进行信息检索时并不需要对所有互联网信息进行搜索,具有明显的效率优势。
1.2 网页信息抽取及预处理技术
作为网络信息获取的最终步骤,对检索程序获得的网页信息进行抽取和预处理是搜索信息全面的重要影响因素。所谓网页信息抽取及预处理技术是将网络信息中包含的自然语言根据检索条件进行提取,从中获得需要的实体、关系、事件等要素,最终并用易于理解接受的规范化形式对结果进行记录和展示。现阶段一个成熟的互联网网站,其页面通常包括导航栏、正文标题、正文内容、相关链接、推广信息、版权公告等。而在这些内容中,真正吸引用户的是正文标题和正文内容,也就是切合用户需求的主体信息。在获取网络信息的过程中尽量获得这些主体内容,对其他次要信息进行选择性忽略正是网页信息抽取及预处理技术重要的功能。
2 舆情监测网络爬虫技术简介
作为当前重要的互联网信息采集技术,网络爬虫(We-bCrawler)技术在实际应用中收到了较好的效果。当前各领域构件的舆情采集系统中广泛采用的是Heritrix网络爬虫,这一开源程序允许用户的自主修改移植。Heritrix主要有三大部件:范围部件、边界部件、处理器链。其中,范围部件控制抓取的URL入队过程;边界部件则对选定的URL的收集情况进行监测,进而选择下一个URL,排除已处理URL;处理器链则可视为URL处理器,其工作结果会反馈给边界部件。
网络爬虫的工作流程是从未访问URL队列中选取目标并开始爬行,通过URL的指向作用,引导程序识别目标网页,通过事先认可的网络协议将网页内容爬取抽取出来,然后解析内容其中包括目标网页内的新URL,并将这部分URL添加进未访问列表,完成爬取后获取的内容存放到本地网页库内。
3 提高网络爬虫在舆情监测应用水平的措施
网络爬虫的本质是能够使实现网络信息自动提取代码程序,是网络搜索引擎功能的主要实现手段。网络爬虫包括通用爬虫和面向主题爬虫两种,当前网络舆情监测使用的面向主题网络爬虫程序,会通过网页分析算法对非设定主题链接进行排除过滤,提高了搜索的精确性。当前,网络舆情监测中的面向主题爬虫技术的主要研究对象的行业领域的URL搜索策略问题。
3.1 改善爬虫网络利用率的解决方案
网络爬虫的利用率是当下舆情监测工作的重要限制因素,高效的爬虫利用能够更为便捷地获得全面而准确的信息。
为了准确掌握爬虫工作的效率,我们在爬虫中加入测速的方法,对爬虫抓取速度进行监测和工作特征数据进行分析。根据监测结果,在抓取速度较慢的阶段,采取相应措施进行修正,保证程序对网路资源的高效利用。这一解决方案的具体实现步骤如下:
(1)爬虫抓取速度监控。抓取速度是进行衡量信息获取水平的重要衡量因素,影响爬虫的网页抓取速度主要有两个因素,分别是抓取页面的大小和抓取这些页面所耗费的时间。因而,可以根据基本的换算关系定义网络爬虫抓取速度B:B=PT,式中:T为爬虫进行抓取的时间间隔;P代表该时间间隔内抓取页面的大小。
(2)爬行策略更改。40%正常水平的抓取速度是十分低效的,这时必须采取相应的措施进行解决。常见的措施主要包括:减少爬虫的线程数;暂停当前爬虫的运行,选择适当的时间继续爬行;更换爬行网站。
3.2 改善爬虫主题覆盖率的解决方案
当前的社会热点层出不穷,具有一定的突然性,同时在人们的讨论和交流中会进一步发酵,产生的信息量很大。为了保证网络舆情监测工作的顺利进行,就要求爬虫程序具有较高的抓取的覆盖率。另外,在进行网页内容的抓取过程中,爬虫程序需要执行网页与主题相关度的计算,会影响爬行速度。所以在进行网络爬虫抓取优化时,通常会使用在传统爬虫中加入主题更改模块的形式,即保证了抓取速度的同时也提高了主题覆盖率。
3.3 系统设计与测试
通过以上分析可知,提高爬虫系统工作效率的关键是在其内部添加测速模块和主体更改模块,由此可完成设计方案的优化。该爬虫在传统爬虫的基础上添加了爬虫测速模块和主题更改模块。
4 结束语
网络爬虫技术是当前舆情监测系统中使用的重要技术,在网页内容获取方面发挥了重要作用。限制这一技术进一步发挥作用的主要原因是爬虫程序的网络资源利用率的问题。同时,网络舆情监测检索突发性和大数据性特征,要求爬虫抓取信息的过程更为迅速,主体覆盖面也要更广。本文通过在传统爬虫中加入了爬虫测速监控模块和主题更改模块的形式,进行了抓取速度和覆盖率的监测实验,其结果表明,这一优化方案有效提高了爬虫程序的执行效率和信息获得的全面性,是一种值得认可的检索技术。
参考文献:
[1]王桂梅.主题网络爬虫关键技术研究[D].哈尔滨工业大学,2009.
互联网舆情监控分析范文3
行业信息化
最佳舆情产品奖
中科点击秉承自主创新的理念,以坚强的党性、灵敏的嗅觉和高度的社会责任感与使命感,专注于垂直搜索引擎技术、海量数据分析挖掘技术、自然语言智能处理技术和网络渗透侦探技术等方面的研究和突破。
在全球一体化和互联网技术不断发展的背景下,如何提升突发事件应对能力,加强危机传播管理和口碑建设,已经成为各级政府部门、社会组织、企业及个人在新形势下的全新挑战。
中科点击(北京)科技有限公司(简称中科点击)秉承自主创新的理念,以坚强的党性、灵敏的嗅觉和高度的社会责任感与使命感,专注于垂直搜索引擎技术、海量数据分析挖掘技术、自然语言智能处理技术和网络渗透侦探技术等方面的研究和突破,经过近10年的研究与积累,开发出了具有自主知识产权的软件产品军犬软件(ADSoft)。
军犬网络舆情监控系统能够一站式地在第一时间针对境内、境外网站的各种网络载体(如新闻、论坛、博客、微博)等全面部控监测,经系统对海量数据进行智能分析、稳准狠快地把互联网读懂、读薄。其核心功能可总结为“352231”。
三大采集:定向采集,是指针对指定站点进行采集;非定向采集,是指针对特定关键词进行采集;境外采集,是指针对在国内不能访问的境外站点进行采集。
五大分析:包括分析是否与“某市”相关,是否属于“某市”舆情,是否属于“某市”负面舆情,是否属于热点舆情,以及每条舆情或某个事件专题的传播路径等。
二个平台:网络舆情专用平台、掌上舆情平台。
两种报告:指基于网络舆情平台中的数据、图表生成的简报专报。
三种预警:包括短信预警、邮件预警、弹窗预警三种方式。
一套标准:舆情业务办理标准。
该系统的成功开发与运用,为政府部门加强互联网信息监管,监测涉军(警)、涉独、反恐、维稳、打击“两非”,以及实现对重点组织、重点人群和重点信息的定向监测,应对突发公共事件,维护党、政府、单位、领导及地区形象,把握舆论导向,掌控社情民意,甚至引导网民的上网行为等均提供了坚强的技术保证,也为政府部门在当今错综复杂的内外环境和纷繁无序的互联网世界中拨云见日,掌握监管的主动权,提供了极大的便利与可能。
互联网舆情监控分析范文4
关键词:网络舆情;高校;思想政治教育
截至到2014年6月,中国互联网网民数量达6.49亿,CNNIC(中国互联网络信息中心)于2015年2月了《中国互联网络发展状况统计报告》,其中主要部分互联网网民是在校学生,因此高校大学生已经成为网络舆情的主要力量,因此当前高校大学生思想政治教育亟待解决的问题是利用网络舆情引导大学生思想动态导向。
1高校网络舆情
1.1高校网络舆情的内涵
高校网络舆情的内涵是利用网络平台,将关系到大学生自身利益的事件以及突发新闻事件,迅速汇聚各类网络意见和网络舆论意见的总和,通常这些网络舆情具有一定程度的群体共识,意向性观念,倡导激励,思想和政治观点的负面影响和积极的推动作用,具有普遍的社会价值判断和独立。
1.2高校网络舆情的特点
网络舆情依托于互联网,与传统的社会舆情相比具有以下特征:(1)及时性与互动性:在互联网时代,微博、QQ等社交网络的使用,使得重大事件发生后第一时间往往在网上进行扩散,同时网民会附加自己的喜好及评论,在校园中同样如此;(2)多元性和复杂性:由于网上信息传播的具体方式、舆情主体特征、主观角度不同,导致校园网络舆情呈现出复杂性和多元性的特点。(3)广泛性:网络虚拟空间突破现实时间、空间的限制,使得校园内舆情传播得更快更广,可以极快扩散到更广的范围。
2网络舆情对高校大学生思想政治的影响
2.1高校网络舆情对大学生思想的积极影响
网络空间是学生校园生活的一个重要阵地,学生在网络上表达自己的思想、情绪,记录自己学习生活的点滴,对同学进行评价,对校园及社会重大事件表达自己的态度,所以虚拟空间的网络文化建设,是当前时代背景下校园文化建设的一个重点。高校教育工作者需要充分利用网络优势,引导学生在网络中的正向思维,提升正能量,有针对性地展开学生思想政治工作。正确地引导高校网络舆情,可使得高校师生统一整体思想,提升学校感召力和号召力,聚集校内师生向心力,促进高校学生思想政治教育工作。
2.2高校网络舆情对大学生思想的消极影响
在目前的环境下,网络已经成为信息交流与碰撞,渗透和竞争的主要载体。在西方一些发达国家一直在利用互联网对大学生群体进行思想的渗透,舆论的导向,误导腐蚀舆论的理念,改变学生的人生观,价值观,腐蚀青年学生。一些大学生因为他们较低的辨别能力,不能坚定自己的政治立场,很容易受到煽动和腐蚀,这给高校中思想政治教育带来了很大影响。
3高校网络舆情的引导措施
(1)加强大学生网络道德建设,规范高校网络舆情制度,建立起一套完善、规范的高校网络舆情控制机制并加强对网络舆情的指导。在思想政治方面提高对网络舆情的重视程度,始终坚持将以占领网络舆论的位置用科学的,积极的信息,网络舆论等引导工作,以及学生的日常思想政治教育放在一起。
(2)增强思想政治教育工作者的信息素养,注重舆论工作队伍建设。对高校提出意见加强网络思想政治教育,培养既具有较高层次的政治理论并且熟悉思想政治工作的规律,又精通网络技术,熟悉网络文化,擅长思想政治教育的工作队伍。
(3)优化高校网络舆情环境,建立高校网络舆情交流平台。与其任由学生被动地接受良莠不齐的网络舆论,不如主动为大学生建立一个积极向上的网络环境,形成一个具有极大凝聚力的思想政治教育网络阵地,帮其培养良好的网上行为习惯。高校教育工作者和高校也应该为学生搭建一个有效发泄情绪的平台。通过这个平台,能及时,准确地了解学生的实时动态的心理,有利于采取紧急措施,使学生的心理和性格对健康有益的方向发展。
互联网舆情监控分析范文5
关键词:数据抽取;Hadoop;舆情
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)15-0023-03
Abstract:The public opinion information data with massive, show data sources of unpredictability, article on the HTML page for noise reduction, sub tree construction, and then through the similarity calculation, combined with public opinion simple ontology library, the realization of the data block identification and record the data extract, finally to Hadoop platform for experimental environment and pumping out the algorithm experiment. Experimental results show that the algorithm in the public opinion data mining, automatic extraction of extraction rules has a certain reference value.
Key words:Data extraction; Hadoop; public opinions
1 概述
网络舆情是某些社会事件发生后,在互联网的平台上,民众针对其发展和变化过程的不同阶段逐渐产生和发酵的社会态度,并借助于诸如论坛、博客、微博、微信、新闻跟帖等此类便捷的网络媒体进行关注、表达或宣泄。由于网络媒体的自由性和实时性,互联网的便捷性和随意性,网民针对社会过程中的各种问题,越来越多的倾向于借助网络媒体跟帖、转发、投票等方式畅所欲言,淋漓尽致地发表观点,在极短时间造成内凝聚共识,并诱发行动,直接影响社会。[1]同时由于阅历和思想认识水平的局限性,网民们往往会在短时间内难以认识事情背后复杂的社会,并认清其心理动因,从而造成非理性和过于主观的声音占据上风。从目前各领域内的一系列突发事件来分析,人们通过网络媒体进行传播爆发出的舆论能量不容小觑。各级行政机关、企事业部门都越来越重视互联网舆情的监测,各专家学者也从不同方面对舆情进行分析研究,如从政策机制、评估体系策略[2]、用户行为特征、网络舆情传播模式的研究和引导;技术上主要集中在网页抓取、内容分析、语义识别、数据挖掘、主题识别与跟踪等算法的研究等。在这在互联网技术飞速发展,影响力日益巨大的时下,网络已化身为思想文化的集散地和社会舆论的增强器,我们应充分认识以其为载体的新媒体的社会影响力。因此,对于如何快速、准确的发现互联网上潜在舆情信息并对其进行有效监测、监控及正确引导势在必行,本文通过对已有技术和知识进行分析总结的基础上,引入了云计算技术,对以面对与高校相关的网络舆情信息的数据抽取的关键技术进行了研究。
2 研究现状
随着互联网技术的飞速发展,特别是互联网的普及应用,我国的网民数量、网站数量以及网络信息资源的容量以爆炸性的趋势增长。据中国互联网络信息中心2016年1月的《第37次中国互联网络发展状况统计报告》[3]显示:网民通过各类移动设备进行网络行为的用户占全体网民总量的90.8%,规模达到了6.06亿,其中手机占移动类网民的91%。同时,以互联网为工具进行新闻获取阅读的用户规模为5.55亿,手机网络新闻用户规模为4.60亿,相较于去年年底将近增长11%。如作为网络环境下对新闻快速传播形成热点话题的微博、微信、来往等App应用借助于手机等无线设备,极大促进了网民对网络舆情的接触度和传播速度,从而使Web成为一个以大数据为基本特征的全球化信息中心。这些在许多领域具有重要价值的海量数据具有多样性、异构性且动态变化等特征,单纯地依赖人工的方法难以及时、迅速地完成海量web信息的收集、 web舆情的发现及进一步的跟踪。
针对网络舆情监测迫切需要分析挖掘的这些海量数据,按其信息蕴藏的深度,可分为SurFace Web和Deep Web两大类[4][5]。Surface Web是将各个独立的HTML静态网页通过超链接进行连接,其内容能够为当前的通用搜索引擎直接索引和检索而无需与网络数据库进行交互;而Deep Web面向的是网络服务器中的网络数据库,Deep Web的内容页面在被查询时才由Web服务器主动与数据库服务器进行交互而动态按照某一特定的HTML布局生成后返回给提交查询请求的访问者。随着信息化的不断跨跃推进和互联网技术的持续快速发展,以网络数据库形式存储的资源成指数级增长,如今人们也已访问网络数据库成为信息获取的主要方式和方法。[6] Deep Web形式的数据内容分布于商业、经济、计算机、教育、新闻媒体、娱乐等不同的领域;网络媒体以BBS论坛、微博、微信、来往、博客、播客、新闻、跟帖等各种形式载体和展现,此类海量存储在Deep Web背后的网络数据库数据已成为了供政府及企事业单位进行辅助决策的来源。但由于网络数据库隐藏在Web服务后端的隐蔽性,及各个Deep Web站点在网页展现形式和表述质量的差异性,使得当前存储DeepWeb数据的网络数据库搜索引擎只能实现大约33%左右覆盖搜索,因此如何有效的、快速的且准确地在浩瀚的网络数据库中抽取信息资源成为当前舆情研究中首当解决的问题。
3 基于大数据的数据抽取的相关技术
3.1 数据抽取
数据抽取,也称之为网页信息提取,主要是从HTML源码中去除一些如广告、标语等噪声信息,提取出标题、作者、正文等有用的信息。及时准确的信息提取为舆情系统提供可靠的数据源,数据抽取在web 舆情发现中至关重要,,它为舆情系统准确地发现相关信息提供基础。信息的抽取过程按自动化程度一般可分为人工、半自动化及全自动化三种方式。网页信息抽取是一种针对网络数据库中的数据通过分析、加工网页的结构实现信息数据的提取的过程。由于网页的复杂性、多样性以及程序员构建过程的随意性和习惯性,使得信息展现的模版不确定性和多样性,针对不同的网页模版抽取规则也不尽相同,信息抽取的方法也越来越多,按其实现原理大致可分为基于HTML结构、基于自然语言处理和基于本体几类方式[7]。
3.2 Hadoop
Hadoop是由Apache基金会开发的一个开源的分布式系统基础架构,其核心为实现为海量数据提供了存储的分布式文件系统 (Hadoop Distributed File System,HDFS)和为海量数据提供了计算能力的分布式计算MapReduce。Hadoop为程序开发者提供了简单易用的接口,用户只需编写 Map函数和Reduce函数即可实现分布式计算,而无需考虑诸如由Hadoop负责处理的任务调度,负载平衡和通信等问题[8]。
HDFS是能部署在廉价的机器上的分布式文件系统,用户不需知道文件的实际存储位置就能够访问分布在不同机器上的文件,具有高容错性、高吞吐量、能自动处理失效节点的特点。HDFS包含三种类型的角色:用以实现系统命名空间的管理和客户端文件访问管理的Name Node,用以实现管理节点文件存储的Data Node 和用于需要操作分布式文件系统文件应用程序的Client。MapReduce是包含一个主服务器Job Tracker和多个从服务器Task Tracker的主从式架构,Job Tracker是一个master服务,负责调度、监控和管理Task Tracker,并给空闲的Task Tracker分配Map任务和Reduce任务。
4 抽取框架
实现上主要对查询结果列表页和内容页进行信息提取,提取过程中使用自建的简单本地体库抽取方法来实现抽取,主要过程为:数据清洗、数据块识别,结果集抽取,抽取规则构建。
4.1 数据清洗
一般情况下,一个查询结果页面可能包含多个数据块,如宣传数据块、数据信息数据块、位置数据块、导航数据块等。其文档中含有一些对抽取没有价值的信息,如样式表标签、图片标签、命名空间标签、内容标签、表单标签、媒体标签、表格标签等,直接对此类有大量无用节点的HTML代码进行解析而生成的网页标签树会十分臃肿,因此首先将列表结果页和内容结果页文件进行“瘦身”解析成标签树,并采用广度优先遍历方法对标签树中所有节点进行降噪处理,其过程如下:从根节点开始出发,直至发现表示正文开始的body标签节点,将当前节点及其子树提取后向下遍历,判断读入节点是否是噪音节点,如果是则将该节点及其子树删除,循环直至到达树末尾。经过上述过程的降噪处理,可以将网页标签树中明显的以上所提及的无用信息标签及其间的内容删除,从而降低了计算量,并极大简化了后续算法的输入。
4.2数据块识别和数据记录集抽取
一般情况下,每个查询结果页面一般只有一块区域是用户所关心并希望可以获取的,这部分即为该页面的数据信息部分,而其他的模块则认为是对用户数据块信息顺利的获取的干扰因素,因此如何准确的识别出数据块在HTML页面的位置的至关重要。在完成对标签树清洗处理之后,我们需要发现并定位标签树中的数据块,此数据块包含查询结果。分析比较多个经过清洗生成的查询结果的标签树后发现:对于标签树中,某一父亲节点T具有越多的结构相似的子树越多,当比重超过一定的阀值,则该节点将越会是我们所关注的数据块,针对这一思想实现如何快递自动识别出的兴趣数据块,算法描述如下:
输入:节点T下的两颗子树T1、T2
输出:子树T1、T2的相似度Sim(T1,T2)
算法:
1)初始化SumT1、SumT2、DisumT12;
2) 循环T节点直至遍历所有的子节点{
3) 如果两个节点的标签相同{
4) Sum T1++; Sum T2++;
5) }
6) 如果两个节点的有节点但标签相同{
7) Sum T1++; Sum T2++; Disum T12++;
8) }
9) 如果T1节点树有节点而 T2节点树无节点{
10) Sum T1++; Sum T2++;Disum T12++;
11) }
12) 否则{
13) Sum T2++; Disum T12++;
14) }
15) Sim(T1,T2)=(SumT1+ SumT2- DisumT12)/( SumT1+ SumT2)
16) }
互联网舆情监控分析范文6
关键词:网络舆情;网络舆情技术;金融业
1、网络舆情
1.1网络舆情定义
关于网络舆情的概念,国内已有研究对其进行了界定,但尚未形成共识,不少研究还存在滥用混用概念的现象,对深入地进行网络舆情研究造成了不良影响,因此研究网络舆情,有必要先理清其概念。
目前,关于网络舆情的定义主要有两大阵营。其一是军犬舆情系统创始人彭作文给出的网络舆情定义是以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。网络舆情六大要素:网络、事件、网民、情感、传播互动、影响力。其二是曾润喜在网络舆情管控工作机制研究一文中给出的网络舆情定义是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。其别强调了舆论与舆情的区别,舆论是人们的认知、态度、情感和行为倾向的集聚表现,是多数人形成的一致的共同意见,是单种意见的集合,即需要持有某种认知、态度、情感和行为倾向的人数达到一定的量,否则不能认为是一种舆论。而舆情是人们的认知、态度、情感和行为倾向的原初表露,可以是一种零散的,非体系化的东西,也不需要得到多数人认同,是多种不同意见的简单集合,这也是最容易将二者混淆的地方。当舆情产生聚集时就可以向舆论转化,因而对舆情的管控就是要使舆情不转化为舆论或转化为良性舆论。
这两种定义虽然强调的侧重点不同,但是我们不难发现其阐述网络舆情的核心都是网络、事件以及人对事件的反应。所以对于网络舆情的研究,我们要基于网络,针对事件,收集、监测和分析人对事件的反应,以便于相关部门能及时对问题采取相应的解决措施。
1.2网络舆情特点
网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、电子公告板(BBS)、博客(Blog或Weblog)、聚合新闻(RSS)、空间、电子邮件(Email)、其他社会性软件平台等。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有以下特点:
1)直接性,通过BBS、新闻点评、博客网站和个人空间,网民可以立即发表意见,下情直接上达,民意表达更加畅通;
2)突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;
3)偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
2、网络舆情技术在金融行业中的应用
2.1网络舆情技术
网络舆情技术是有效掌控网络、促进社会主义和谐社会建设的重要技术手段。目前,网络舆情技术主要包括:话题检测、话题跟踪、自动摘要、趋势分析、舆情预警等。
1)热话题检测:可以根据新闻来源的权威度、发言时间的集中程度等参数,发现指定时间段内的热门话题。并可以根据主题关键词和回帖数进行整体语义分析,识别出所有敏感话题。
2)话题跟踪:可以对文章进行聚类,分析新发表文章、帖子是否和已有文章主题是同一话题。
3)自动摘要:可以对所有文章、话题倾向自动分析,形成摘要。
4)舆情趋势分析:可以针对某个主题分析人们在不同的时间段内的热度。
5)突发事件分析:可以对突发事件进行跨时空的全面分析,得出整个事件发生的全貌并对事件的下一步的趋势进行预测。
6)舆情报警:可以对突发事件、涉及内容安全的敏感话题进行及时发现并产生报警。
7)舆情统计报告:根据舆情分析引擎处理后得到的数据生成相应报告,用户可通过浏览器进行浏览,并提供了检索功能,可以根据指定条件对热点话题、倾向性等自己感兴趣的话题进行查询,得到话题信息的详细内容,提供决策支持。
2.2网络舆情技术在金融行业中的应用
网络舆情技术从诞生起就显示出巨大的威力,涉足面也愈来愈广,已经从单纯的社会领域走入了专业性更强的金融投资领域。由于信息通讯技术和互联网的发展,互联网金融信息对金融市场的影响已经越来越不容忽视。这些信息关乎着整个金融行业的发展和稳定。
为了金融行业更好的发展,我们接下来探讨一下网络舆情技术在金融行业中的应用。
2.3辅助投资工具
目前很多人把网络舆情技术视为新的理财工具,并不夸张,某一个新事件的发生或者是网络上对某支股票的热议都在很大程度上左右着金融实践者们的行为,同时进一步影响着股市变化的趋势。
申银万国研究所首席经济学家杨成长认为,网络舆情技术在我国的逐步推广,将对金融创新、衍生产品等有促进作用。他表示,“未来的资本市场将逐渐转型为市场股民化、股民网络化。”
中科精诚总经理梁正之则表示,“目前网络舆情这一技术仅为一些监管部门运用,未来我们将研究如何逐步向机构投资者和中小投资者推广应用。”
中科院计算技术研究所网络重点实验室副主任余智华表示网络舆情技术是基于内容的智能分析技术,金融行业可以建立一个与当前流行的股票软件和金融市场信息采集分析系统功能定位完全不同的信息跟踪分析技术。并且通过系统监测互联网上的相关新闻报道、相关评论等,跟踪分析这些信息与金融市场之间的关联关系,将这些信息按照知识模型体系进行分析与组织,为投资者及相关机构提供便于分析利用的、相互关联的信息来源。
2.3.1声誉风险管理
近年来,我国各金融机构按照国家有关金融监管制度,初步建立了金融稳定工作协调机制,制订了应对突发事件的相关应急预案。然而,随着社会的不断发展,互联网已经成为思想、文化、信息的集散地和社会舆论的放大器。同时由于中央和地方政府对网络舆情的高度重视及积极回应,互联网业已成为政府治国理政、了解社情民意的新平台。金融机构如何建立有效的声誉风险管理体系,实施有效舆情监控成为当务之急。尤其是近两年来,金融行业的“声誉危机事件”屡见不鲜,致使相关金融机构形象受损、信用度滑坡,并严重影响了金融安全和社会稳定。
为更好地净化网络舆论环境,维护金融稳定,进一步帮助金融机构树立品牌形象、加强声誉风险管理,网络舆情技术在金融行业中的应用必不可少。它能有效防止负面信息的肆意传播和舆情失控,协助金融机构提高网络舆论引导能力,营造积极向上的舆论环境,为金融机构快速健康发展提供强有力的舆论保障。
2.3.2辅助决策管理
辅助决策管理系统主要作为相关管理机构的辅助决策工具,通过网络舆情技术,收集分析金融市场信息,并与传统的金融分析数据相结合,以决策主题为重心,以传统金融分析方法为基础,网络舆情技术为辅助,构建决策主题研究相关知识库、政策分析模型库和情报研究方法库,建设并不断完善辅助决策系统,为决策主题提供全方位、多层次的决策支持和知识服务。为金融管理研究机构以及政府部门提供决策依据,起到帮助、协助和辅助决策者的目的。
3、可能存在的问题
虽然网络舆情技术给金融行业带来了新的发展机遇,对净化网络舆论环境,维护金融稳定起到了积极的作用,但同时也可能会带来新的问题。
1)舆情技术的准确性问题。网络舆情技术发展至今,还没有一个准确性的检验标准,其准确度到底达到什么水平,尚不可知!尤其相比对一目了然的公司财务报表、年报这类结构性数据进行预测,运用舆情分析技术对纷繁复杂的非结构性数据——网络舆情进行分析,真的可以提升预测的准确性吗?
2)网络舆情技术给网民带来的安全性问题。通过网络舆情技术所收集的信息难免涉及到网民个人隐私,这些信息该如何管理?是否会给网民带来困扰?
3)对于相对复杂的财务数据结构,对其跟踪和挖掘技术也要求甚高。
参考文献:
[1]刘毅.网络舆情研究概论[M].天津:天津人民出版社.2007.09
[2] 马海兵.网络舆情及其分析技术[N].光明日报.2007.01.22.
[3]贾孟飞.基层网络舆情监测工作的实践与思考[J].银行家.2010,(12)
[4]章栋兵.互联网舆情分析关键技术的研究与实现[D].武汉:武汉理工大学.2010