前言:中文期刊网精心挑选了社交媒体文本分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
社交媒体文本分析范文1
可以肯定,该分析师的结论完全基于标准的定量数据的分析。但他不知道的是,当天早些时间,已经有一则关于“这家公司将被另一家公司以每股60元的价格收购”的通告。由于该分析师没有监控和分析文本数据,例如新闻,于是他的建议误导了客户。
类似的事情近年来经常发生。
企业一直依赖于存储在关系型数据库中的结构化(可量化的)数据来分析其商业运作、竞争状况以及全面的业务运营环境。实际上,企业所依赖的仅仅是其所能获得信息的极少一部分,甚至还未达到20%,而这些未被分析到的信息却以非结构化(定性的)数据形式广泛存在。
可实现的BI圣杯
时至今日,许多企业已经意识到,如果有方法可以收集、集成、查询和分析那剩余的80%非结构化数据,决策支持将会得到极大的提升。但这个目标一直难以实现。企业迫切需要一种方法从不同格式的非结构化数据包括Word文档、PDF文件、E-mail消息、短信息、媒体文件、客户服务调查、呼叫中心的记录、PowerPoint Presentation、各种其他类型(非量化)的企业文档中梳理关键的业务信息。另外,收集和分析外部的非结构化数据如来自Web页面、博客、聊天室、及其他社交和新闻媒体等。遇到的挑战就是得寻求一种有效方式将这种非结构化数据和结构化数据进行集成,并将它们一起分析,发现关键的趋势和相关性。
文本分析技术恰恰能够破解这一难题。它是一种将文本数据进行转换,使它们适合于查询以及高级分析所拥有的、为我们所熟悉的功能。它应用语言与统计机制以抽取用于对文档、音频、视频和图像进行分类的概念和模式;它可将非结构化信息转换为适用传统分析机制应用的数据,揭示之前计算机无法处理的大量信息中的意义与关系。
前沿:文本分析及统一存储
业界已有的共识就是定量分析仅仅能够提供一定数量和特定类型的信息用于基本的商业决策。定量的(结构化)数据非常适合于为回答“什么”问题提供信息,但是定性的(非结构化)数据在回答“为什么”问题时却更有用。要了解全面、准确预测,企业对这两种类型的答案都需要。但一些公司仍然保持着独立的结构化数据分析系统和非结构化数据分析系统,这导致了成本高昂,集成延迟,无法综合分析数据,无法做出实时、全面、智慧的决策等问题。
理想的方式是将集成的结构化和非结构化数据存储到同一个地方――最好是一个可以管理多种数据类型以及支持所有关系型商业智能的标准报表、数据挖掘、预测分析和文本分析的优化的分析引擎。单一的存储为IT管理和业务用户带来明显的好处――能够以更短的时间获得一个关于企业的业务环境综合、关联的视图。
因此,需要将文本分析加入到企业的商务智能中,以消除目前让挖掘海量定性的数据变得困难和成本高昂的障碍。
文本分析可以理解为一种语义层的技术,来补充传统的商业智能。BI长期关注定量数据,而文本分析将BI报表、分析和可视化功能扩展到占80%的、以文本和其他非结构化形式存在的业务信息。它使得任何书面或口述的材料可以被分析,包括电子邮件和文本消息,Web页面、博客、论坛以及其他社交和新闻媒体,联系中心记录以及调研反馈,保修和保险索赔,企业报表和申请以及法律文档和科技文献。
系列实践证明,统一的文本和定量数据存储可以消除那些在文件系统中管理非结构数据的系统管理员进行逻辑设计的复杂性,也消除了一旦文件系统损坏或停机而带来的数据不可访问的风险。中心式的数据访问意味着更稳定和更安全的系统。
现在,技术已允许结构化和非结构化数据存储在统一的分析引擎中,基于该引擎, 涵盖全企业,找到相关的非结构化数据,并将它们从文件格式中抽取出来;对非结构化数据进行预处理并将它们和现有的结构化数据一同加载到数据库中;基于联合的数据存储执行所需的分析,发现趋势、机会、威胁、低效率,以及其他可以带来更好商业决策的洞察力。
数据量迅猛增长,竞争愈发激烈,监管更加严格……那些继续基于对商业环境仅仅20%的理解而运营的企业将发现自己的劣势正在不断扩大。领先的企业将部署领先的技术和高级分析机制,从来自另外80%的信息――不断增长的、传统上未被使用的非结构化数据――中获得洞察力、智能以及其他关键信息中得到更多好处。
案例
eBay的极限分析
霍娜
全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB。多么惊人的数字!对eBay 来说并不只是数据量的增加,eBay分析平台高级总监Oliver Ratzesberger认为,近年来在分析数据领域最大的挑战就是要同时处理结构化与非结构化的数据。
eBay的非结构化数据主要是来自行为分析的数据以及对网站点击率的分析。Ratzesberger表示,这些资料都比过去还要复杂、多变。以追踪点击率为例,近年来大部分的网页都是动态网页,过去只要透过网址就能知道使用者正在看什么网页,但是现在一个网页上的内容变多了,而且每一秒都在变化,这对于分析使用者行为来说,难度也就更高。 Ratzesberger认为,分析点击率信息这一类半结构性和非结构性数据是eBay未来在数据管理方面的工作重点之一。
社交媒体文本分析范文2
关键词:大数据;陶瓷文献;整合模式
江西省社会科学规划一般项目《从文本到人本:“一带一路”境遇下中国陶瓷文化的国际传播策略》阶段性研究成果,景德镇市社会科学规划重点项目《学习型社会视阈下数字阅读“把关人”制度建构研究》阶段性研究成果,景德镇市科技局软科学项目《景德镇陶瓷文化传播力构成体系研究》阶段性研究成果。
在大数据时代,数据已然成为一种战略资源而导引着社会资源的整合模式,基于一切皆为数据、一切皆可量化的整合效率,数据式整合无疑是促进跨文本、跨主体、跨行业、跨时空等诸多跨界式融合升级的基本动力。
中国陶瓷文化博大精深,是中国传统文化的重要组成部分,也是实施“一带一路”战略的重要领域,而陶瓷文献则是陶瓷文化的载体,其整合无疑具有重要意义。
1 文本整合模式:从文献到文化
陶瓷文献的类型众多,包括陶瓷作品、期刊、图书、报纸、古籍、特藏、以及电子资源等,它们作为陶瓷文化的载体,记录与保存着源远流长的中国陶瓷文化。当下,融合已经成为包括陶瓷文化在内的社会文化创新与发展的新常态,各种类型的陶瓷文献之间也相互交融,因此,从文献到文化的升级就成为陶瓷文献整合的模式之一。这种语境下的文化既包括陶瓷文化,又不止于陶瓷文化,而是内容、关系、情感、时空、生活方式等诸多要素的杂糅,因而也是陶瓷文化与社会文化相互渗透、相互融合而成的多元文化共同体。
在大数据时代,由于文本数据化,数据相关化,因此从知识文本到智能文本以及从图文文本到图像文本的升级就是陶瓷文献整合的路径之一。
首先,智能文本
智能化是高科技时代的一个高频词汇,智能终端、智能家居、智能系统、智能生态等等已经进入百姓生活之中。就陶瓷文献整合来看,智能文本主要包括智能编辑的文本以及智能终端的文本。在大数据时代,数据无时无处不在,一切皆为数据也必然要求一切皆可量化,因为身处海量数据之中的用户其个性化需求显得更为迫切,所以只有精准才能赢得用户。而智能文本则堪当此任,其中,智能编辑的文本是基于智能算法与思维而能够实现个性化与规模化、以及专业化与便捷化等多元价值互动的文本,包括智能生成的文本、智能推送的文本以及智能服务的文本等。
就陶瓷文献来看,智能生成的文本是指陶瓷文献的科技性、艺术性、知识性、文化性、情境性等多元内容能够实现智能组合而不受主体、专业等限制;智能推送的文本是指能够基于用户的各种行为,包括点击、搜索、阅读、发送、评论、收藏等行为,而进行智能推荐的文本;智能服务的文本是能够为陶瓷生产、交易、投资、消费、管理等各种产业和社会活动提供服务的文本。比如基于陶瓷艺术品拍卖与收藏的数据而预测当前艺术品市场的投资热点,以及基于陶瓷用具的产销数据而设置时尚生活的议题。
智能终端的文本主要是适用于智能手机的移动文本,它包括生产、生活、学习、工作、休闲娱乐、社交、投资消费等各种场景的文本。比如,手机一卡通、手机支付、手机位置服务、手机知识推荐:移动阅读、移动检索服务、移动参考咨询、移动学科服务、移动二维码、移动视听展示和移动特色资源、移动门户服务等各种服务。这些移动文本可以消除陶瓷博物馆、档案馆、图书馆、展览馆、文物局等时空的限制而进行实时实地传播。
其次,视频文本
陶瓷既是艺术之物也是生活之物,既具有工具理性也具有价值理性,既是金木水火土的结晶也是科技、艺术、文化、经济等的浓缩,其自然景观和人文景观皆美不胜收,其物质文化和非物质文化都光辉璀璨。以瓷都景德镇来看,“三面青山一面水,一城瓷器半城窑”;“陶舍重重倚岸开,舟帆日日蔽江来”等展开了一幅幅美轮美奂的画卷。
视频文本可以包括数据图、网络在线演示、互动图标、图片、动漫、视频短片、影视剧等文本,是从图文传播向图像传播的转型。这些不但是传承陶瓷文化的绝佳载体,而且是讲好陶瓷故事的有效形式。借助于形、声、色、画等众多元素的视频文本能够将兼具物态、生态、活态等多元、多变形态的陶瓷文化展示得淋漓尽致,也能够将动人、感人、催人奋进的陶工故事、城市故事甚至民族故事等陶瓷故事演绎得惟妙惟肖。比如,陶瓷物质结构的演进,包括石器、陶器、铁器、铜器、银器、陶瓷等;能量结构的演进,包括森林、水土、河流、光、热、风等;工艺结构的演进,包括陶瓷七十二种工艺流程及其革新;组织结构的演进,包括官与民、行与帮、地缘与业缘等;社会生态结构的演进,包括作坊、窑址、矿坑、民居、里弄、店铺、街道、集市等;这些结构相互交织而形成动态的陶瓷文化图谱,适于视频文本进行传播。
2 人本整合模式:从文化到人化
从以信息为中心到以人为中心,以及从以传者为中心到以用户为中心的转型,是大数据、云计算时代媒介传播的新模式、新课题。
首先,关系人模式。
泛在网络环境下,用户不是分散的用户,而是相互关联、相互交融的网络式用户,因而也是无所不在、无所不能的关系人,既可以是公共关系人,也可以是社交关系人。
其一、公共关系人。公共关系是企业开展社会化经营的重要资源,而在公共领域与私人领域日益交融的环境中,公共关系存在于一切领域,公共关系人也日趋细分而多样化。主要表现在:从名人公关到人人公关,任何人均可以是公关人。比如,就企业公关而言,对于企业员工与投资者,可以通过企业生活与家庭生活的互动而实现内部公众式的公关;对于企业所在社区,可以通过公共信息、公益活动等而实现社区公众式的公关;而对于消费者、受众、用户等,则可以通过消费者、体验者、宣传者以及咨询者等多元角色的互动而实现市场公众式的公关。
从品牌公关到微公关,任何时空均可以是公关领域。在传统媒体时代,品牌是企业以及城市公关的法宝;而在微博、微信主导的微时代,微公关则颇为盛行。主要表现在:微平台、微终端,包括微博、微信等平台以及拍客、播客等新终端;微内容,包括信息、知识、思想、经验、情感、情趣等内容;微形式,包括图片、照片、视频、微电影、微电台、时尚秀等形式;微空间,包括物质、文化、心理、情感、情绪等多重空间。
其二、社交关系人。以个体为中心的社交平台是对企事业等组织边界的超越,因而人人皆社交,无社交不传播;同时,社交平台的开放性、便捷性、分享性以及聚合性等属性使得其成为有效的生产、营销平台而渗透于各种生产经营领域。进一步而言,社交平台开创了社会生产生活的新空间,社交关系人成为新宠。主要表现在:社交平台加快了传受互动,从而信息类内容、关系类内容、话题类内容等不断增生;社交平台加快了虚拟空间与现实空间的互动,从而传播场域也就成为传播场景;社交平台加快了生产方式与生活方式的互动,从而促进了个性化的生产方式与生活方式。总之,社交关系人是传受互动、产消一体等多元角色的交互,是口碑文化、粉丝文化等多元文化的体现。
其次,体验人模式。
体验是用户时代传播与营销的基本模式,它既可以促进跨媒介形态传播,也可以推动跨文化形态传播。而就中国陶瓷文化传播来看,体验主要包括物态文化体验、生态文化体验以及活态文化体验。
其一、物态文化体验。从器物形态来看,陶瓷既可以是工艺之物,也可以是生活之物;既可以是科技的结晶,也可以是人文创意的体现;既可以是实用之物,也可以是纪念之物;从而也是各种体验之物。比如,在瓷都景德镇,陶瓷不但是城市文化的载体,瓷灯柱、大型城雕、陶艺青铜雕塑、山体陶瓷壁画、巨型生肖瓷雕等城市环境到处可见;而且是企事业组织文化与行业文化的载体,瓷书、瓷画、瓷板、瓷瓶、瓷杯等陶瓷语言可以诠释独特的企业文化、行业文化以及地域文化。
其二、生态文化体验。天人合一,主张自然与人的和谐,追求季节气候、地理环境、材料的自然美感、以及人工的巧作这四种因素的完美结合,是中国陶瓷文化艺术的基本审美标准,从而形成丰富多彩的生态景观。生态系统可以为社会生产提供取之不竭、用之不尽的物质与能源,光、热、风、水、土、矿、森林、河流、地形地貌等被人类利用以创新陶瓷生产方式;生态系统可以为陶艺创作提供灵感,梅兰竹菊、青绿山水、花鸟虫鱼等皆是陶瓷艺术创作的基本题材;生态系统还可以为人的生存与发展提供新的生活空间,观光旅游、休闲度假、养身保健、怡情悦性等生态模式倍受青睐。
其三、活态文化体验。无论是物态文化,还是生态文化,其价值都是通过人的行动才能充分展示出来,活态的人是陶瓷文化的集中体现。活态文化体验可以包括:工艺主体的传授、表演、展示,瓷器、瓷画、瓷乐、瓷舞、瓷饰、瓷瓯杂技等都可以传播瓷韵瓷味;社会与时代主体的跨时空交互,中国陶瓷文化源远流长,流派众多,宋、元、明、清等朝代均有各自特色,而通过跨时空交互,历史的厚重与时代的脉络则能得到体验;人文主体的交流,活态的陶瓷文化既可以包括专业技艺与知识,也可以包括经验、感悟与创意,还可以包括民风民俗等民间、民生文化,因此知识的教育、思想的讨论、技艺的切磋、经验的传受、节庆活动的举办、方案的设计等均是人文交流的形式。
3 资本整合模式:从媒介到中介
大数据不仅仅是一种数据,而且更是一种思维。比如,用户思维、简约思维、极致思维、迭代思维、流量思维、社会化思维、平台思维、跨界思维等等。因此,大数据时代,媒体不仅需要实现媒介内容与业务的转型,而且需要实现思维与观念的转换,也就是资本的升级。进一步而言,媒体不仅仅是作为信息与内容的传播者,而且是作为产业和社会的重构者;不仅需要对信息资源进行整合,而且需要对产业资源和社会资源进行整合;不但需要实现传受互动,而且需要促进产城一体;从而实现信息媒介到社会中介的转型。因为信息流、商品流、物质流、人才流、技术流、资金流、服务流等在大数据的无限覆盖下而相互交融从而形成共生共荣、互联互通、相互嵌入的融合生态,进而虚拟与实体之间、产品与服务之间、媒介与中介之间的边界也日趋模糊,都成为社会网络的一个个节点。
因应这种媒介与中介交融的趋势,传媒实施资本整合就是要实现从媒介资本向社会资本和创意资本的升级。
首先,社会资本的整合模式:从大众到小众。
大数据的全体样本分析与全媒体、全民参与、全球聚合等是相辅相成的“全”时空类型传播模式,从而大众也日益细分而成为小众。与前者相比,后者是传受互动、产消一体、个体与社会对接、民族与世界交汇等等多元交互式的社会群体。
社交媒体文本分析范文3
摘要 通过对大学生的2683条“说说”进行文本分析,并结合深度访谈发现,新媒介已嵌入到大学生日常生活管理的各个领域,大学生对新媒介的使用呈现出“随时随地”、“物尽其用”、“为我所用”的图景。在新媒介的使用中,大学生也充满了“个体自理性”,即从自己的目的、认知乃至想象出发,有选择地、自我矫正式地使用新媒介管理日常生活,而这有利于提高大学生自我管理的绩效和促进自我发展。
关键词 新媒介;自我管理;QQ说说
中图分类号G206 文献标识码A
作者简介 汪黎黎,怀化学院外语国学院讲师,湖南怀化418008;姚劲松,怀化学院文学与新闻传播学院副教授、副院长,湖南怀化418008
1)基金项目:湖南省高校辅导员工作研究会辅导员专项课题重点项目“新媒体环境下的大学生自我管理研究”( FDY11013);怀化学院青年基金项目“新媒介环境下的大学生个体自我管理研究”( HHUQ2009-37)
一、问题的提出
按照Manz的界定,个体自我管理是指一整套认知和行为策略,其能帮助个体改变工作和生活环境、建立自我激励的机制,从而推动个体不断朝着理想的绩效水平发展。自我管理是强调在具体的阶段性目标或长期的整体目标(如自我发展)导向之下,采取自我评估、自我认知、自我监控、自我激励、自我悦纳等认知与行为策略,调节自己的思想、情绪、心理、行为乃至与环境的关系,从而实现既定的目标。
据CNNIC的报告显示,截至2013年12月,大学生周上网时长达到25.1小时/周,大学生群体使用各类交流沟通应用的比例均高于其他群体,是交流沟通类应用的主力军。此外,有研究显示,大学生对自媒体非常熟悉且依赖性较强,47%的受访大学生“手机绝不离身”,37.4%的大学生“天天登录,形成习惯”,40.4%的大学生“在无聊时登录”。呵见,随着互联网的快速发展和电脑、手机、IPAD等终端的不断普及,新媒介正在潜移默化地影响、改变着大学生的日常生活,随时随地收发信息、浏览网页、沟通交流、互动娱乐正日益成为他们的一种生活方式。那么,大学生是如何挖掘、利用新媒体这一平台来管理自我、发展自我的?或者说新媒介与大学生的日常生活管理产生了怎样的勾连?这种勾连对大学生的自我管理又有哪些影响?高校学生管理工作者应怎样引导大学生利用新媒介管理白我?这是本文所关注的问题。
二、研究设计
在已有研究中,较多地采用自我报告式的测量方法,但被试者的自我报告可能会与实际的网络使用行为存在较大差异。如Ebersole的研究发现,学生自我报告的网络使用动机与专家检查到的实际网络使用行为存在很大差异。所以,本文试图从大学生实际生产的网络文本人手,采用文本分析法,并以深度访谈作为辅助研究手段。
鉴于新媒介是一个模糊而动态的概念,本文以是否接入互联网作为界定新媒介的标准,只要用计算机、手机、IPAD等终端通过有线或无线的形式接人了互联网,便属于新媒介使用行为。大学生对大部分网络运用的使用率较高,新媒介使用行为多元而复杂。所以,本文拟通过研究大学生对“QQ说说”(以下简称“说说”)的使用,以管窥大学生对新媒介的日常使用经验及其给大学生带来的影响。选择“说说”的理由如下:一是“说说”是腾讯公司开发的一款与QQ即时通讯相关联的工具,随QQ-起内嵌到电脑、手机、IPAD等多种终端中。此外,“说说”(最多140个字)与QQ签名(最多50字)能同步更新,且可同步到腾讯微博上。可见,“说说”具备新媒介的特征。二是由于与QQ相关联,“说说”在大学生中拥有较高的普及度和用户粘性,而操作简单、使用QQ时随手、创作门槛低、能得到QQ好友的关注和互动,又使其较之一般的博客、微博拥有更高的使用率。三是“说说”的公开性和可保存性,为文本分析提供了可能。
在样本选择上,综合考虑年级、系部、性别等要素,采用滚雪球的方式进行选择,即先挑出一个学生作为样本,然后再按一定要求从其QQ好友中挑选出新的样本。最终,样本总体情况如下:共选出12名学生,大一至大四每年级分别有3名,男女各6名,分别来自中文、物信、生物、教育、外语、工商、音乐7个系部。然后,选取一个完整学年度,对12名学生发表的“说说”及互动情况做文本分析。
在统计期间,12名学生共发表“说说”2683条。本文首先结合“说说”的前后语境及整体语境,对其进行逐条阅读、分析,通过资料浓缩,“将具体、零散的资料提炼为具有一定意义关联的资料……寻找类属之间的相关关系,将不同的类属合并成类群”,再根据“说说”的语境①,用NVivo软件对每条“说说”进行编码、归类,编码的内部一致性信度为88.4%。最后,进行相应的统计与分析。
三、研究发现
(一)“随时随地”的使用:嵌人大学生日常生活
“说说”的统计结果显示,大学生对“说说”有着较高的使用频次,在统计的1年时间里平均223.6条,日均0.6条;最多的433条,日均1.2条;最少的123条,相当于3天发1条。
大学生对“说说”的使用呈现出随时(anytime)的特征(图1)。如图1所示,在分析的样本中,全天24个时段里都有“说说”,高峰期主要集中在非睡眠的休闲时段,382条(14.2%)“说说”于睡觉前的22-23点;其次分别为21-22点(7.5%)、12-13点(6.9%)、23-24点(6.1%)。值得注意的是,“说说”的量在学习时段并未明显减少,除上、下午刚上课的第一个小时内,比例相对较低外(8-9点为2.7%、14-15点为3.7%),其余时段的量在4.5%-5.4%之间波动,较为均衡。凌晨1点-6点,仍有少量“说说”在各个时段。在“说说”的渠道方面,分别有1012条(37.7%)通过QQ签名、863条(32.2%)通过QQ空间、808条(30.1%)通过手机QQ空间。至少②有30.1%的“说说”通过手机(图2),在一定程度上说明大学生对“说说”的使用具有随地(anywhere)的特征。
(三)“物尽其用”的使用:勾连大学生日常生活管理
文本分析发现,“说说”实际上已经嵌入到大学生日常生活的各个领域,与他们的思想、情感、心理及日常的生活、学习、社交等产生了广泛的关联。按照质化分析资料整理中的“互动模式”方法,结合“说说”的语境,经梳理、浓缩、寻找关联、循环修正等,最终提炼、总结出“说说”在日常信息管理、观点与愿望表达、情感管理、目标管理、关系管理等方面,勾连着大学生的日常生活管理(图3)。
文本分析发现,785条(29.3%)“说说”与大学生的日常生活信息相关联。可见,利用“说说”管理日常生活信息,是大学生最普遍的应用,也是最重要的应用之一。大学生主要在三个层面利用“说说”管理日常生活信息:一是日常生活记录(占总数的23.1%,下同),主要记录大学生的日常生活状态、遇到的各类事件、各种见闻、旅行游记等,大多是只言片语、碎碎念式的随手记录与,相当于一个日常生活的“记事本”、一个信息“平台”。二是信息公告(2.5%),即告知公众的信息,具有非常明确的信息传播取向,其目的就是为了传达和告知,而不是单纯的记录,相当于一个“公告牌”。下面这句便是典型代表:“通告:本人不慎发现自己近日有严重避世倾向,原因不详,在言行上如有冒犯或得罪,纯属无心,还请诸君见谅。”三是信息储存与分享(3.7%),储存、分享有价值的或有趣的信息,包括名人名言、歌词、台词、流行话语、老师课堂话语等;分享与QQ好友密切相关的信息。此类信息具有明显的分享取向,相当于一个供大家传阅的“摘抄本”。
研究发现,“说说”亦是大学生用以表达观点、抒发感悟和管理情感的重要场域。513条(19.1%)“说说”关联大学生的观点与愿望表达,其中444条(16.5%)是来自日常生活的所思、所想、所感、所悟,及少量对时事发表的观点和看法;69条(2.6%)是大学生在日常生活中表达的个人心愿、各类祝愿等,如希望考试通过、尽快病愈、求顺利等。492条(18.3%)“说说”关联大学生的情感管理,包括心情呈现与表达(7.7%)、情感宣泄与释放(4.4%)、心理活动呈现(3.8%)和自我情绪调节(2.4%)。在这里,大学生记录、呈现、表达着日常生活中的喜怒哀乐,宣泄与释放着各种情绪,呈现着内心深处的想法、疑虑、焦虑及内心的独白与交流等,安慰着自己、悦纳着自己以调节情绪。可以说,观点表达的管道、抒发感悟的空间、管理情感的场地,使“说说”非常鲜明地呈现出大学生“自留地”的色彩。他们在这块“自留地”里,生产着自己的话语、观点、思想和情感,甚或视之为倾诉对象而习惯性地“对话交流”乃至恣意释放情感,以此展示并塑造着自己的个性,也建构着一个自我的世界。
大学生把“说说”作为一个以具体目标为导向的自我管理工具,是本研究的一个重要发现。426条(15.9%)“说说”关联着大学生的目标管理,内容包括目标设计(1.5%)、自我激励( 6.2%)、自我监控/规范( 5%)、自我反省(3.1%)。具体表现为,用“说说”记录日常生活中确定的具体目标尤其是学习中的总目标、分目标等;记录围绕确定的绩效和目标,对自己的思想、情绪、行为等进行的自我监控、自我规范、自我反省、自我激励甚至自我惩罚等。随手粘上一句:“没能力,分心的事很多,不过我会继续努力的,小小的心,大大的梦,加油!”如此,用“说说”进行目标管理,也就将原本属于心理层面的自我管理过程外显化,既可实现“记录在案,以资对照”的自我管理效果,也可通过这种外显与公开,将公众的关注、监督、评价等自我以外的因素引入,共同促使目标达成。
令人意外的是,大学生还充分挖掘并塑造了“说说”的社交、关系管理等功能。371条(13.8%)“说说”关联着大学生的关系管理,被用来传递指向特定人或人群的信息。这些信息,既有各种温暖的节日祝福、生日祝语,也有向特定人传递的普通信息、表达的谢意,还有少数针对性的指责、泄愤甚至谩骂。为什么会选择这种公开化的渠道传递个人信息?小婷在访谈中如是说:“在‘说说’上祝福别人会让别人觉得自己在公开场合表达对他(她)的爱,会觉得自己很重视他。’’可见,大学生选择用“说说”来传递个人信息,而放弃短信、QQ即时聊天等私密渠道,其潜意识里希望的不仅只是传递信息,而是将信息背后隐含的传受者之间的关系公开化,借此来管理、强化一种关系。
综上,“说说”的文本分析显示,尽管“说说”只是QQ即时通讯工具附带的一个信息平台,但其功能却被大学生给予了最大限度的利用与开掘,使其与大学生的日常生活管理产生了广泛的关联,达到了物尽其用的效果。阿晨在访谈中对“说说”做了如下描述:“‘说说’是一个倾诉者、一个陪伴者、一个记录者、一个苦难的承受者,有点儿像一个朋友、一个平台、一个日记本。我们记下了很多之前需要自己一个人承担、很少分享的事儿。”
(三)“为我所用”的使用:凸显大学生的主体性
从整体上看,“说说”与大学生的日常生活管理发生了广泛的关联,但并不意味着大学生对“说说”的应用是同一的、均质的。尽管12个学生对“说说”的5个功能都有不同程度的应用,但使用的偏好和运用的力度存有差异(表1)。这种差异,说明大学生在日常生活中对“说说”的使用较多地呈现出“为我所用”的利己目的。也就是说,在这块“自留地”里,他们往往从个人目的、意愿出发,有指向、有选择地使用“说说”为自己服务。
研究发现,大学生对“说说”相较于其它媒介具有哪些优势,能在哪些方面更好地满足自己的需求等问题,都有着自己的体验和认知。这既构成了他们使用“说说”的基础,也是他们各取所需、有所侧重地使用“说说”的关键所在。结合深度访谈及“说说”文本,简要分析3个学生样本。
阿晨,大一,他认为,“说说”的优势在于能够隐晦含蓄地传递不能明言的观点和态度。基于“社交”取向的认知,他更多地用“说说”来维系、管理日常生活中的关系(占总数的29.5%,居首位),而其它的“说说”也大多有着一定的“社交”指向,即使是发表信息、释放情感,也是为了向特定的人或群体证明自己的存在、维系自己的身份或寻求一种群体认同。如他在“说说”中以倾诉的口吻,充分表达、释放了对靓颖的感情,其目的并非仅在于在“自留地”里恣意释放情感,而更在于寻求一种“凉粉”的身份认同感,因为其QQ好友里有几十位“凉粉”,这些信息是为他们而发。
小黎,大四,她认为“说说”可以表达、发泄情绪,能及时跟大家分享自己的生活经历,并认为“说说”的优势在于:“是希望引起别人关注的一种方式,而且比QQ给人更多的期待,因为没有直接对话,所以发‘说说’的当事人会在期待中等待别人的回复”。可见,与阿晨的认知不同,小黎并没有预设信息的回复者,而是对“说说”公开、延时传播带来的“谁会回复”充满期待。这种寻求关注、充满期待、获悉自己的关注者、寻求未明确对象交流的整个过程,或许正是她使用“说说”的重要原因。基于此,她主要用“说说”来没有特定传播指向的信息,较均衡地使用“说说”来表达观点与愿望(28.7%),表达、释放情感(28.7%),记录、分享信息(24.2%)。相反,对有特定传播指向的目标管理(指向自我,2.5%)、关系管理(指向特定人,11.5%)使用较少。
阿毕,大三,他认为“说说”是为了记录自己的生活、“寻找被关注的优越感”,是一种“感情的寄托”,“每天一有时间都会不自觉地去看,也许看起来漫不经心,也不会经常去评论,但是这已是一种习惯了。”基于此,他对“说说”保持着较高的使用率,日均1.2条,且强调自我、有些个性的他还将“说说”完全构筑成一个“自我”的空间,含目标设计、自我激励、自我反省、自我监控/规范在内的,鲜明指向“自我”的“说说”居于首位(40.6%),而在情感管理、观点与愿望表达中也大多是“自我”的情感与观点。正是对自我的强调,“说说”日渐成了他的感情寄托和精神支柱。
综上,基于对“说说”的认知、体验乃至想象,大学生有选择地、“为我所用”地使用着“说说”,并在使用中进行自我纠偏、自我矫正与自我调试,呈现出较强的能动性,充分凸显了他们的主体性。孙冉的研究认为,“出于利他目的的作者似乎更偏爱于日记;出于利己目的的作者似乎更偏爱于日志”,这也为本文提出大学生使用“说说”呈现出“为我所用”的利己目的,提供了一定的证据。
四、结语与讨论
总体而言,本文以大学生对“说说”的使用为例,通过对“说说”进行文本分析,并结合深度访谈,勾勒了一幅新媒介勾连大学生日常生活管理的总体图景。基本结论是:伴随着移动新媒介、移动互联网的快速发展与普及,新媒介与大学生的生活产生了全面而深入的勾连,已嵌入到大学生日常生活的各个领域,日渐成为Weiser眼中的“影响深远的技术”一一“是那些能够消失的技术,它们将自身编织人人们的日常生活中,以至于人们很难将其区分出来。”同时,大学生的新媒介使用是一个能动的“意义”行为:他们能最大限度地发掘新媒介的价值,用以满足日常生活管理的需要并延展日常生活空间;他们对新媒介有着自己的认知、体验与想象,并将其投射到使用行为中,有选择、有目的、有取向地利用新媒介的各种优势,并能在一定程度上自我纠偏、自我矫正使用行为,从而实现“为我所用”的利己目的。简要地说,新媒介勾连大学生日常生活管理的图景可浓缩为:“随时随地”、“物尽其用”、“为我所用”,而勾连之间呈现的是大学生的主体性与能动性。
社会认知理论中有一个重要的概念叫“个体自理性( personal agency)”,认为个体具有主动选择信息、决策判断并做出目标导向行为以实现既定目标的能力。Bandura认为,个体的自我管理功能正是通过对个体自理性的实践才得以展现。前面的研究揭示,大学生能够从自己的目的、认知乃至想象出发,有选择地、自我矫正式地使用新媒介管理日常生活,体现出他们对新媒介的使用具有较强的“个体自理性”。
社交媒体文本分析范文4
前几年在某大型跨国公司管理团队时,我意识到“大数据”在HR管理中的作用。在管理团队薪酬时,IT系统不仅处理薪酬流程,还提供对标数据支持决策:调薪周期开始时,公司把调薪预算从上到下分解到各级经理,经理会具体分析每个下属员工应该分配多少预算。一般会考虑:一、员工当期绩效表现,二、目前在公司内同类工作岗位中所处薪酬水平?三、与同行和竞争对手的同类岗位相比处于什么水平?经理根据业务需要确定是否要努力保留一位员工,通过预算分配使员工处于合理的薪酬水平。这个系统不仅提供了公司内按职位角色细分的薪酬分布曲线,同时提供了行业薪酬分布曲线,使管理人员能直观看到员工调薪前后在公司内及市场上的薪酬“分位值”。
公司如果有规范的职位职务体系基础容易统计内部薪酬分布,行业的数据一般来自大型HR咨询公司的薪酬数据库。做跨公司的职位职务对应匹配却是件有挑战性的事情――你怎么知道A公司的八级软件工程师相当于B公司的十级咨询顾问呢?传统上,我服务的那家公司是定向的对标指定,即人工对应到具体同类型公司的同类型岗位。随着技术的发展,现在时髦的基于文本分析的“大数据分析”能够解决更广泛的职位匹配问题,再结合薪酬数据库,能够提供更准确做薪酬对标。可以预计,这种对标方法会成为一种更加普及的应用。
HR咨询公司薪酬数据库的客观性和准确性往往存有争议,大企业做对标时一般会购买几家咨询公司的数据,相互参照使用。然而,现在互联网上各种“晒工资”网站越来越多,例如,基于互联网的大数据分析可能颠覆传统的薪酬数据库服务,企业能够更加实时、准确地做职位薪酬对标,提升人才管理水平。
HR部门的价值从后台服务职能,发展到帮助业务部门挖掘、培养、发展人才,成为企业业务的驱动者,人才相关数据的分析为这样的工作方式转型提供了可能性。不仅是薪酬数据分析,从下图所示的HR相关数据可以产生很多分析机会。
例如某些专业岗位招聘如何选择候选细分人群,需要在用人成本、人才质量、使用风险以及细分人群供应量等不同因素中平衡,可以通过数据挖掘方法,根据不同人才寻源策略确定相应的候选人细分对象;又如雇主品牌建设,通常员工敬业度调研结果中薪酬是一个抱怨因素,可是,实际薪酬水平以及期望薪酬水平与员工的敬业度、员工绩效之间有多深的关联?不同的薪酬或者奖金结构方式会对敬业度产生什么影响?再例如提高招聘质量,国外某保险公司对数百例初级销售人员聘用后的实际业绩分析发现,应聘人资质与业绩相关度较高的因素有:简历文本质量(语法准确、表述清楚)、教育经历完整性、高端产品销售的经验、过去类似工作的成功、不确定环境下工作的能力等,并有意思地发现大学档次、大学成绩、推荐人资质等因素与业绩相关度不高。除此之外,在员工保留因素、销售人员绩效、出勤率预测、继任计划、人才管道计划、高潜力人才挖掘等人力资源管理领域,数据分析都有广泛的应用。
社交媒体文本分析范文5
[关键词] 文本分析;投资者情绪;股票收益;影响研究
[中图分类号] F640 [文献标识码] A
Influence Research of Investor Sentiment on the Stock Market in the Short Term
CANG Yuquan, YIN Xudong
Abstract: With the development of the Internet, listed companies release information in the social media platform, and investors review these information and formulate investment strategies. The majority of investors now are irrational, lack of real information channel and professional knowledge of investment theory, and susceptible to network public opinion and produce "sheep-flock effect". The study analyzes the comments of Eastmoney Guba by means of Chinese text analysis technology, the construction of investor sentiment index, and the influence of investor sentiment on the stock market in the short term. The empirical results show that investor sentiment really affects stock returns. This conclusion can help investors to effectively use the Internet information and formulate investment decisions.
Key words: text analysis, investor sentiment, stock returns, influence research
引言
“羊群效应”是一种比较特殊的非理,在一个投资群体中,单个投资者总是参照相似投资者进行操作,在他人买进时买进,在他人卖出时卖出。我国的股票市场仅仅发展了二十余年,还处在新兴市场阶段,信息的披露制度不完全,市场投资环境、股票交易制度、股票市场监管存在缺陷,市场呈现非有效性。在社会化媒体中的关于股票的信息鱼龙混杂,真实的信息广泛传播,虚假的信息传播的更快,范围更广,这些信息相互影响,极容易形成“羊群效应”,因此确定网络舆情对股票收益的影响有重要意义。
本文试图通过中文文本分析技术,分析网络舆情与股票市场的关系,具有如下作用:一是有利于提高市场的有效性,验证不同性质的网络舆情对股票收益的影响,对股票市场的变化具有解释和预测作用;二是为投资者提供投资决策依据,互联网成信息传播的高速通道,同时加快了谣言的传播速度,考虑网络舆情对股价造成的影响有利于投资者辨别有效信息,对市场形成有效判断,做出有效的投资决策。
本文结构如下:第二部分是文献回顾;第三部分是理论分析;第四部分是模型选择、指标设计和数据选择;第五部分实证分析结果;第六部分是文章结论。
一、文献回顾
根据有效市场假说,市场中的理性投资者将会对该市场中的每一条信息进行充分评估,不仅历史数据和当前基本面数据不会影响股价,那些突发的虚假信息也不会对股价造成冲击。现有的研究结果表明股市是弱有效市场或是半强有效市场,网络舆情将会对股票市场产生怎样的影响呢?
基于网络舆情的股票市场研究主要以互联网社交平台上与股票市场相关的信息为研究对象,研究分析二者的相互作用,并进一步分析网上的股票相关信息对股票市场的预测能力和解释能力。Wysocki(1998)以3000多支股票为样本,对946000条股评进行分析,研究结果发现股评数量对次日的股票交易量和异常收益率的变化有一定的解释和预测作用。Vivek Sehgal、Charles Song(2007)验证了网络情绪和股票价值具有相关性,表明股市近期价格波动和网民的情绪密切相关。Johan(2011)对美国大型社交网站Twitter进行数据挖掘,用格兰杰检验发现公众的情绪状态的日变化与道琼斯工业平均指数收盘值的每天的变化显著相关。Sabherwal等(2011)采用WallStreetPit-Thelion网络聊天室中每日讨论前十的10只热门股,该网络聊天室设计奖惩制度赋予发帖者不同的信誉等级,尽可能减少交易噪声。他们发现发帖量不能预测股市交易量、收益率或是波动性,但是股票收益率是可预测的,投资者情绪与同期收益正相关,滞后一期和滞后二期的投资者情绪与收益负相关,引起后期股票收益的急剧下降,可能是由于市场的修正作用。此外他们还发现:行情看涨指数的绝对值与同期波动性和随后一期、两期的波动性负相关,说明投资者的情绪越极端,股票波动率越小;行情看涨指数的绝对值越大(投资者情绪越极端),小单交易就越多。李玉梅等(2011)对通讯行业的上市公司的截面数据进行分析,研究表明在线股票评论的数量和投资者的情绪可以在一定程度上解释个股的异常收益率,股评的数量对股票异常收益率,涨跌额和交易量变化有一定的影响。段江娇等(2014)根据帖子内容中的词汇与词库中各个档次的关键词进行匹配,计算各个档次关键词出现的次数,取次数最多的档次作为帖子的情绪。通过构建向量自回归VAR模型,检验了投资者情绪指数、分析师推荐指数和上证指数收益率之间的动态关系,研究发现分析师推荐指数的上涨会导致股指收益率短期上涨,投资者情绪指数的上涨会导致股指收益率的下降。
从表4中可以看出当在舆情事件发生后,股票成交量变动不能用投资者情绪指数来解释,正可能是由于现在中国的股票市场悲观情绪弥漫,但市场的下跌空间也有限,多数投资者选择了持股不动操作策略。对于事件发生后的平均收益率的3因素回归模型发现,股票换手率的变动能够显著影响该支股票的收益率,这与早期的研究结论一致。在考虑到投资者情绪指数的4因素回归模型中,情绪指数在95%置信区间上显著,说明投资者情绪在短期的确会影响到股票市场的收益,这间接表明中国股市存在大量的非理性投资者,他们的非理性情绪将会对股票市场带来显著影响。同时上市公司的规模指标和有效评论数量的系数在三个模型中均不显著,这说明在短期,对股票市场影响较大的是投资者情绪。
五、研究结论
本文以东方财富网股吧为样本,采用中文文本情感分析技术从中抽取出大多数投资者对股票市场未来走势的涨跌情绪倾向,计算投资者情绪指数,使用该指数研究股票收益和成交量的相互影响。研究结果表明:舆情事件爆发的当天市场投资者关注度最高,在事件爆发后3-4天投资者对于该支股票的关注度降到低点,随后新的舆情事件又会吸引投资者的眼球;情绪指数与股票的收益存在正相关关系。投资者情绪指数表现乐观(悲观)时,股票收益会在短期内出现上涨(下跌);投资者情绪指数无法解释股票成交量在短期的变动,原因可能是当下市场悲观情绪蔓延,除非出现重大利好或是利空消息,投资者最佳的投资策略是选择持有手中的股票不做任何交易。
投资者情绪指数可以成为预测短期收益的有效指标,网上蕴含着大量类似于投资者情绪指数的信息,合理运用这些信息能辅助投资者进行有效的投资决策。随着中国股票市场的快速发展,互联网在股票市场的影响能力日益增加,本研究的实证结论对帮助投资者正确、有效地理解和使用互联网并辅助投资决策具有重要现实意义,并且可以帮助投资者提高投资决策能力。如何更好、更及时地挖掘互联网有效信息,分析网络信息与股票市场的深层次关系是今后研究的重要内容。
[参 考 文 献]
[1]Fama and mon Risk Factors in Returns on Stocks and Bonds,Journal of Financial Economics,Vol.53,1993
[2]Wysocki P D. Cheap Talk on the Web: the Determinants of Postings on Stock Message Boards[J]. Working Paper, Univercity of Michigan. 1998
[3]Mikkelson and Partch,W.Mikkelson,M.Partch.Stock price effects and costs of secondary distributions. Journal of Financial Economics,14 (1985),P165-194
[4]Lakonishok,J.,ShleiferA.,and Vishny R. .The Impact of Trading on Stock Price.Journal of Financial Economics,Vol.32,1992,P23-44
[5]李晓明,朱家稷,闫宏飞.互联网上主题信息的一种收集与处理模型及其应用[J].计算机研究与发展,2003(12)
[8]赵静梅,何欣,吴风云.中国股市谣言研究:传谣、辟谣及其对股价的冲击[J].管理世界,2011(11)
[9]徐琳.网络舆情对股价波动影响的实证研究[学位论文[D].西南财经大学,2013
社交媒体文本分析范文6
关键词:网络舆情;舆情监测;指标体系
有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。
1 网络舆情监测来源
网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:
(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。
2 监测指标构建原则
网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。
3 监测指标体系
(1)主题聚合
按照内容相关度准确关联聚合舆情信息,是准确把握舆情整体走向、媒体与网民言论态度的前提。主题聚合即指依据信息内容实现信息的分类与聚类,是舆情话题发现与话题追踪的基本支撑。从技术实现角度,主题聚合涉及信息内容分析,大多都是基于词语匹配的聚分类方法实现舆情话题发现与追踪等主题聚合功能。然而,文本中存在大量词形不同,但意义关联的近义词、同义词与相关词,内容相同或相近的新闻、帖文会出现在不同的页面与帖文。舆情信息中包括大量短文本,特别是网民回帖评论,存在明显的语义特征稀疏问题。分类体系只限于关键词本身,不具备主题词的语义描述,容易影响聚分类的准确率与召回率,主题聚合指数的性能会受到明显限制。一个解决方法是构建语义知识,并扩展语义计算模型提高分析的准确程度;利用当前的最新技术,比如深度学习方法,通过构建具有多隐层的学习模型,以海量舆情数据作为训练集,学习扩展语义特征,提升内容分析的准确程度。
(2)热度
舆情热度衡量舆情被关注的程度与传播范围。舆情热度主要包括舆情关注度、传播覆盖度、舆情权威度等二级指标。一些研究提出地域关注度指标[3],但网民IP地址对于第三方采集系统是难以大范围直接获取的。其中,舆情关注度采用主题内容下舆情信息的关注数量衡量,具体是篇目、浏览、回复数量的综合加权值,一般以线性累加和公式计算。该指标主要从网民角度,衡量舆情内容的被关注程度和感兴趣情况。覆盖度是指主题信息在采集来源站点中出现的比例。舆情信息来源站点是经过筛选的,代表舆情在整个监测范围内的传播程度。由于信息来源规模与特点不同,所以需要对来源类型预设参数再进行比例计算。权威度指舆情信息的来源权威度,比如人民网的权威度较高而小型商业新闻网站的权威度低,知名公众人物的博客权威度较高。权威度通过预设参数区分主流媒体、论坛、博客、微信公众号的来源指标。最后,将以上二级指标综合加权,进行标准化处理得到主题热度。
(3)内容倾向
内容倾向是信息内容中包含的观点态度,内容倾向指标用于统计舆情信息中的各类情感倾向类型数量。倾向类型主要分为两类:正面(褒、支持)、负面(贬、反对)。文本中的句子不仅包括情感词,而且包含一些具有较强情感色彩的形容词、程度副词、感叹词、否定词等影响判断情感倾向的因素。区分舆情的倾向性,需要构建情感词库作为智力支撑,才能提高情感判断的范围与准确性。比如鄙视、侵犯属于负面动词,而拥护、赞扬属于正面动词,安全、漂亮属于正面形容词。“鄙视这种言论”,“这种装置不安全”,可以依据其中的动词形容词判断情感倾向。
传统手工构建的情感词典覆盖面有限,难以满足实际运用。考虑到技术实施的快速性、易用性以及语义问题。借助已有情感词典构建基本情感词库,运用Word2Vector工具将语料库(比如已采集舆情信息、维基百科知识)转换为词向量,计算其他词语与已知情感词的语义距离,构建情感词特征空间[4]。通过扩展情感词库,判断广泛的情感倾向。舆情信息中的回帖或评论大多由较短句构成,其中句子s中的情感词表示为,s的情感类型。其中,表示词wi的倾向类型。如果wi前面否定词个数是奇数,则反置wi的极性倾向。将倾向性判断问题转化为文本分类问题,这样可以有效判断各种长短文本的情感倾向,得到主题信息的情感态度频率分布与内容倾向趋势。
(4)预警
网络舆情表现为海量的网络信息,舆情变化程度对应相应数据的特征与趋势。所以,监测分析数据变化可以描述舆情的影响趋势,对网络舆情进行危机预警。当前,网络舆情事件处理存在应急准备不足,报送时间不及时,突发事件响应速度慢等不足。一个重要原因是网络舆情预警能力相对较弱。舆情监测需要增强舆情信息的分析和预测,将工作重点从单纯的收集有效数据,向深入研判与预测舆情的趋势方向拓展。常用的思路与方法是:预设时间窗口,获取主题信息数量,内容敏感程度,负面倾向性评价数量比例,传播范围等基本特征与指标。计算历史窗口下的信息增长率、增长梯度等变化程度,评估舆情信息的数据变化趋势并制定预警级别。进而,以数据挖掘为核心技术,应用不同的数据模型方法,比如传统的多元回归、贝叶斯网络、决策树、支撑向量机等预测舆情发展趋势。如果大于某阈值或符合预定模式,认为需要预警,即从海量网络数据中预判出潜在的危机隐患。
参考文献
[1] 王铁套,王国营,陈越. 基于模糊综合评价法的网络舆情预警模型[J]. 情报杂志,2012, 31(6):47-51.
[2] IRI网络口碑研究咨询机构介绍及研究方法[EB/OL]. http:///wiki/网络舆情指数体系.
[3] 李雯静,许鑫,陈正权. 网络舆情指标体系设计与分析[J]. 情报科学,2009 (7):986-991.
[4] 黄仁,张卫. 基于word2vec的互联网商品评论情感倾向研究[J]. 计算机科学,2016(6):387-389.