前言:中文期刊网精心挑选了大数据分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
大数据分析范文1
大数据在如今社会已经成为热点词汇,不仅在计算机领域,在其他各个行业都能够得到运用,为各个行业提供便捷,为了让大数据能够得到充分利用,下文将对大数据分析相关方面进行讨论。
一、大数据与大数据时代
(一)大数据大数据是在当今科技飞速发展的情况下,一种新兴的信息数据处理技术。随着社会科技的进步,各行各业对于数据的应用也越来越广泛,传统的数据处理技术耗时较长且精准度较为低下,已经不能满足现代科技对数据应用的要求。新时代的大数据系统具有超大的数据容量,同时兼容半结构化与结构化的数据,远远超出传统数据库管理系统的管理能力。因此新的大数据技术就此诞生。大数据在发展过程中,具有比为鲜明的特点。与传统数据处理技术相比,大数据具有数量庞大、多样化、速率快、价值高的特点。在信息处理的速度不断加快的当今社会,这样的特点为大数据的广泛应用打下了坚实基础。由于数据的数量较为庞大,且各种数据近年来的增长趋势呈指数型,其数据的种类和形式也各有不同。其次,合理利用大数据技术,能够在一定程度上降低成本,提高效率,因此,大数据处理各项关键技术的进一步的开发与利用已成为了提高自身效率,实现核心竞争力的重中之重。
(二)大数据时代大数据时代是指在物联网技术、计算机技术、数据信息处理技术的基础上,通过互联网途径,大量收集并处理分析数据资源,而形成一种新型的信息时代。大数据时代的主要核心内容是对庞大的数据体系进行处理以发挥价值,从而提升数据分析效率以及数据应用价值。大数据时代是由多种信息技术共同组成,可以有效地避免数据处理中不同步、使用不方便的情况发生,具有高效可靠的数据处理、整合、分析及汇总的功能。因此,大数据时代的新型数据处理技术可最大程度的对数据进行分析与挖掘,极大提高处理数据的效率。
二、大数据时代与统计学
(一)大数据时代与统计学的关系统计工作是集数据的搜集、整理、分析和解释为一体的系统的过程。大数据与统计二者互相依存,通过统计的方法和原理对数据进行整理和分析,提高数据的精确度和适用度,以此来实现数据的价值和利用率。由此看来,大数据与统计学的联系既紧密,又存在区别。大数据与统计学的关系甚为密切,它们都是关于数字的学科。统计学为大数据提供了了施展方向,而大数据将统计学引领至更深更广的空间。共性之一就是社会与数据。几乎所有的行业与大数据都有着密切联系,这些联系或直接或间接,而人们正是通过获取数据并进行分析,从而才能得到商业知识和社会服务等能力。大数据与统计学的区别。首先,信息规模不同。大数据的分析对象是与某事物有关联的所有数据,要求数据量庞大。统计学则是用样本来分析和推断总体的数量特征。在大数据时代,则可以通过各种方法和渠道获得全面而又完整的的信息资料,从而完成更多从前无法完成的事情。其次,动静标准不同。数据经过了搜集、整理、分析的过程就很有可能因为精确性不足而被认为失去了用处。而大数据时代,则不必再担心这个问题,数据的精确性和原始性不在被过分重视,人们可以接受复杂数据。第三,数据搜集形式不同。在以往数据搜集形式主要是抽样调查,方法局限。而在大数据时代,特点是信息爆炸和互联网飞速发展,这一情况得到改观。最后,思维方式不同。大数据时代人们的思维发生转变,人们开始更多的关注事物的相关关联。
(二)大数据对统计学研究工作的影响首先,大数据丰富了统计学的研究对象。在大数据时代,我们既可以以结构化数据作为测量单位对文本、图像和视频等进行分析,还可以对非结构化数据实行分析。其次,大数据影响了统计学的工作进程。统计数据需求丰富,原有的统计抽样分析不能在适应时代的发展,而现代科技方法如透过传感器自动收集数据等方法取代了传统方法,更加便捷有效。
三、大数据数据分析理念
(一)统计学的应用随着现代科技的发展,传统的大数据已经不能满足人们对数据处理的要求。传统的抽样数据调查不能满足大数据的数据处理以及知识发现。因此,新技术及思维的引进就显得尤为重要。新的统计学思维以及知识的应用能够很大程度的提高大数据分析的效率。摒弃对传统的小数据样本的依赖,不在用传统的统计工具对数据进行全部分析。而是对数据进行针对性的分析,使数据分析更加精准,并且能够更加全面的体现数据的价值。我们利用统计计算工具对数据进行分析从而判断数据的变化趋势。统计学的应用可以,为数据分析提供科学的参考依据。
大数据分析范文2
这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。
这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。
做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。
这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。
但有,些事情是“大数据”不擅长的,下面我会一一道来:
数据不懂社交
大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。
计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。
数据不懂背景
人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。
数据会制造出更大的“干草垛”
这一观点是由纳西姆塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。
大数据无法解决大问题
如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。
数据偏爱潮流,忽视杰作
当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。
数据掩盖了价值观念
大数据分析范文3
(兖州煤业榆林能化有限公司,陕西榆林719000)
[摘要]随着信息技术的发展与应用,各种数据信息通过互联网、云终端、交际圈、物联网等之间的大规模传递,人类进入到一个大数据时代,数据信息之间的传递影响着人们的决策成本,传统的信息不对等所造成的差距条件已经消失,而不起眼的数据却能够创造巨大的价值。本文对大数据时代背景下数据分析理念进行分析和指导。
[
关键词 ]大数据时代;数据分析理念;分析
[DOI]10.13939/j.cnki.zgsc.2015.22.074
在传统的商业运作模式中,在运营过程中对自身经营发展的分析只停留在数据的简单汇总层面,缺乏有效地对客户网络、业务范围、营销产品、竞争对手优劣等方面进行深入解析;而在当今大数据时代,通过所接收的大量内部和外部数据中所蕴含的信息中透露的市场弹性,可以预测市场需求,进行分析决策,从而制定更加行之有效的战略发展计划。“大数据”是一个量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。在当今信息时代,很多企业用户在实际应用中把多个数据集放在一起,已经形成了PB级的数据量;数据类型广,数据来源种类多,且数据种类和格式日渐丰富,囊括了半结构化和非结构化数据,早已打破传统的结构化数据范畴,如何在大数据时代背景下进行科学有效的数据分析这需要加强对市场的了解,对泡沫经济的规避,了解数据所传递的信息真假。
1数据化决策的兴起与运用
在大数据时代,信息之间的爆炸增长,使得各种信息传递非常之快,只需要拿起网络终端就可以了解到地球另一边发生了什么。文字、图形、影像都化作数据流在网络中以电信号的方式传递着信息。数据流在传递各行各业的信息同时形成了渗透于各行业的核心资产和创新驱动力。在大数据时代,企业所拥有的数据集合规模及数据的分析和处理能力决定着企业在市场中的核心竞争力。
因此通过数据分析进行决策渐渐成为新的分析理念,例如,在支付宝上进行对电影票房的投资,这些投资通过对导演往期作品和演员的表演张力,及投资方的选角等数据进行分析,预测电影的票房,选取投资可获利的电影,进行票房投资,从而获取票房分红。我国的石油油田根据地震技术的收集数据,进行科学统一规划的分析处理,形成对地下油田的分析建模,能够有效直观地展示地下油藏的分布情况,从而选择油井的开采点。中国人民银行通过对人民币汇率的涨幅,进行数据分析,来制定符合中国国情的外汇货币政策,对货币进行宏观调控,这能够有力的保护人民币升值时,在国际贸易市场中国进出口贸易所面临的压力。在大数据时代背景下,通过直觉和经验进行决策分析的优势不断下降,在商业、政治及公共服务领域中,通过对大数据进行数据分析从而做出符合时代背景的决策,已成了目前的潮流。
2数据分析理念及方法
(1)数据分析要引入统计学思想。在大数据时代背景下,传统的抽样分析已经并不适用于对大数据的分析中,在大数据时代应当要转变思维,转变抽样思想,样本就是总体,要分析与某事物相关的所有数据,而不是依靠少量数据样本,这样才能够在最大限度地明白事物发展变更过程,能够对数据所表露的信息进行更好地处理[1]。要更乐于接受数据的纷繁芜杂,不再追求精确的数据,这并不是说其严谨性降低了,而是往往不起眼,不符合常理的数据更能够反映实际的情况。通过对数据网络之间的联系进行分析,不再探求难以捉摸的因果关系,通过数据的分析处理更能够反应数据的变更。这些想法都与统计学相关通过所收集的数据,进行有效的分类处理,能够更好地反应事物的变化,更有利于做出决策[2]。
(2)数据分析流程。在实际的数据分析过程中,因大数据贯穿区域较广,在地域和行业之间穿插交错,颠覆了传统的线性数据收集模式,而形成了颠覆传统的、非线性的决策基础,这种决策方式要求我们通过对数据进行收集,将各行各业所收集的基本信息,转化为数据,将数据经过初步的整合分类,做出符合当地当时的数据信息,将数据进行深层次的技术处理,将处理过后的信息化为知识,运用到实际的决策中去。在大数据时代,数据的积累并不会贬值,而且还会不断增值,为了更全面、深入地了解研究对象,往往需要对数据进行整合,这就使得数据的积累尤为重要。
(3)数据分析对统计学的意义。在大数据时代背景下数据分析理念能够有效地对数据流进行合理地分类处理,进行科学的统计行为,统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,这就意味着所有有用的数据信息均来源于数据分析处理之后的结果。大数据的数据分析理念扩宽了统计学的研究范围,而不仅仅只是实现数据的对比,而是从根本上丰富了研究的内容,如:一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop,满足大多数常见的分析需求,对传统的统计工作有着四个转变。统计研究过程的转变,使统计过程成为收集与研究。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,统计研究工作思想的转变,数据的收集不断增加,信息的录入不断升级,其对系统资源,特别是I/O会有极大的占用。这就使得能够更好地进行数据分析处理决策[3]。
3数据分析过程中注意事项
3.1数据分析要明确变量
将数据收集进行处理是为了明确市场中的某一个变量意义,这就使得在进行数据分析的时候要能够明确地找寻变量存在前后所发生的变化,通过数据对比可以知道该变量在大数据的市场中所存在的影响因素。是否对市场有着风险或有利于市场的开发利用,能够在数据分析后做出合理决策。
3.2统计中不再追求精确的数据
大数据时代下,数据的不精确性不仅不会破坏总体信息可靠性,还有利于进行剥丝抽茧,从而了解总体情况。大数据时代,越来越多的数据提供越来越多的信息,也会让人们越来越了解总体的真实情况。错综复杂的数据能够反映数据之下到底是泥潭还是机遇。数据之间传递的信息良莠不齐,如果要一一追求准确性不利于统计工作的开展,因此可以将个别的异常值剔除。大数定律告诉我们,随着样本的增加,样本平均数越来越接近总体,这就使得样本与总体的差异性很小,更加符合实际情况。
4结论
综上所述,大数据包含结构内外的海量数据,随着云计算平台进行大规模收集处理,通过建立数据库的手段,对数据分流,使用数据挖掘等方法进行处理、分析,使得所数据结果更加符合显示状况。数据分析理念是通过阐明存在于世界、物质、感官享受上的复杂网络关系,从而做出符合时代背景的分析决策。
参考文献:
[1]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
大数据分析范文4
一、网络安全现状及主要问题
当前移动互联网、大数据及云技术等更新进程不断加快,数据量成指数级增长,人们对于大数据时代下网络安全的相关问题也越来越关注。信息技术创新发展伴随的安全威胁与传统安全问题相互交织,使得网络空间安全问题日益复杂隐蔽,面临的网络安全风险不断加大,各种网络攻击事件层出不穷。2016年,我国互联网网络安全状况总体平稳,未出现影响互联网正常运行的重大网络安全事件,但移动互联网恶意程序数量持续高速上涨且具有明显趋利性;来自境外的针对我国境内的网站攻击事件频繁发生;联网智能设备被恶意控制,并用于发起大流量分布式拒绝服务攻击的现象更加严重;网站数据和个人信息泄露带来的危害不断扩大;欺诈勒索软件在互联网上肆虐;具有国家背景黑客组织发动的高级持续性威胁(APT)攻击事件直接威胁了国家安全和稳定。由于大数据网络安全攻击事件仍呈高发态势,而且内容多又复杂,利用大数据分析技术特有的特点,为大规模网络安全事件监测分析提供计算支撑力量,并且对海量的基础数据进行深度挖掘及分析处理,及时监测发现网络安全事件,实现对整体网络安全态势的感知。
二、大数据基本概述及分析技术
(一)大数据基本概述
随着信息技术全面融入社会生活,整个世界的信息量正在不断增多,而且增长的速度也在不断加快。所谓的大数据是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理分析的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的规模之大,其在获取、存储、分析等方面已经远远超出传统软件工具能力范围,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征,分别是大量化,多样化,快速化,价值密度低。
(二)HadoopMapReduce大数据技术
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。HadoopMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",其来源于函数式编程语言或者矢量编程语言里的特性。Mapreduce是一个计算框架,其表现形式就是具有一个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是最终需要的结果,计算模型如下图所示:
(三)Spark大数据分析技术
Spark是一个基于内存计算的开源的集群(分布式)计算系统,Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。由于是基于内存计算,效率要高于拥有Hadoop,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。Spark是继HadoopMap-Reduce之后新兴的基于内存的大数据计算框架,相对于HadoopMapReduce来说,Spark具有一定的优势。一是计算速度快。大数据处理首先追求的是速度。官方指出“Spark允许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍”。二是应用灵活。Spark在简单的Map及Reduce操作之外,还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习算法。同时,用户可以在同一个工作流中无缝地搭配这些能力,应用十分灵活。三是兼容性好。Spark可以独立运行,除了可以运行在当下的YARN集群管理外,还可以读取已有的任何Hadoop数据。它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。开发者可以在同一个应用程序中无缝组合使用这些库。五是实时处理性能强。Spark很好地支持实时的流计算,依赖SparkStreaming对数据进行实时处理。SparkStreaming具备功能强大的API,允许用户快速开发流应用程序。而且不像其他的流解决方案,比如Storm,SparkStreaming无须额外的代码和配置,就可以做大量的恢复和交付工作。随着UCBerkeleyAMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,近年来国内外开始关注在Spark平台上如何实现各种机器学习和数据挖掘并行化算法设计。
三、基于Spark技术的网络安全大数据分析平台
(一)大数据分析平台整体架构
本文提出了基于Spark技术的网络大数据分析平台,该平台分为五层,即数据接入层、解析处理层、后台分布式数据存储系统层、数据挖掘分析层、接口层,整体架构图如图3。其中,数据接入层提供多源数据的接入。解析处理层负责对接入的多源数据进行解析。后台分布式数据存储系统层负责所有数据的存储、读取和更新的功能,提供基本的API供上层调用。数据挖掘分析层基于Spark等引擎,实现分布式数据关联分析、特征提取、统计分析等安全事件挖掘能力,同时提供实时检索与溯源能力。接口层为用户可以查询的功能,其中包括数据上传、查看、任务的生成、参数设定等。
(二)网络安全大数据分析平台实现相关技术
表1网络安全大数据分析平台实现相关技术结语总而言之,当前基于大数据下的网络安全面临着越来越多的挑战,因此我们必须高度重视大数据时代下网络安全问题,应对好大数据分析处理工作。本文从当前网络安全现状及面临的问题出发,浅析HadoopMapReduce和Spark大数据分析技术,提出基于Spark技术的网络安全大数据分析平台,实现对海量数据的快速分析,该平台具有高效、高可扩展性,具有很强的适应性。
作者:陈平阳 单位:国家互联网应急中心福建分中心
参考文献:
[1]国家计算机网络应急技术处理协调中心。《2016年我国互联网网络安全态势综述》。2016.04.19
[2]邓坤。基于大数据时代下的网络安全问题分析。《课程教育研究:学法教法研究》,2016(18):15-15
大数据分析范文5
关键词:预测分析 大数据处理 大数据应用 数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2017)06(c)-0053-03
随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展,传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心,正在使各个领域变得越来越可感知,并走向智能化。大数据将会发挥自身独特的优势,带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。
1 大数据分析的五个基本要素
1.1 大数据预测性分析
大数据技术的主要应用是预测性分析,如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣,保险公司通过数据预测被保险人是否会违规,地震监测部门通过对大数据的分析,预测某地点发生地震的大致时间,气象部门利用数据预测天气变化等。预测是人类本能的一部分,通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据,大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作,伴随着大数据的出现,并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统,大数据预测分析将起到越来越重要的作用。
1.2 数据管理和数据质量
大数据分析跟数据质量和数据管理紧密相关,而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保证。
1.3 可视化分析
普通用户和大数据分析专家是大数据分析的直接使用者,因此他们对大数据分析的基本要求就是要可视化,因为他们想通过可视化分析获得可观的大数据特征,让用户直观看到结果。
提高解释信息的能力可以通过数据的可视化展示来实现,而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易,而图形或图表能够在短时间内展示数据之间的相关信息,并为用户提供所需的信息。
1.4 语义引擎
语义引擎是把现有的数据标注语义,其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用,好的语义引擎能够使大数据分析用户快而准地获得比较全面的数据。
数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性,必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息,使语义引擎能挖掘出大数据的特征,在此基础上科学建模和输入新的数据,来预测未来的可用数据。
1.5 数据挖掘算法
大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式,能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据价值也就无从f起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值,并且这些算法能够处理大数据的数据量,也可以满足处理大数据的效率要求。
2 大数据处理方法
大数据处理技术在社会的发展中占有重要的地位,现在有很多的研究者对大数据处理技术进行研究,将大数据处理技术与交互设计结合,让交叉科学得到发展,计算机技术的进步,让交叉技术被广泛应用,并引起了很多人的重视,例如:计算机技术可以在艺术中被应用,进行色彩搭配,还可以将计算机技术应用到垃圾分类里,这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起,将传统的调研方式和测试方式应用到交叉科学领域,这种方法的研究可以为用户调研和测试方法提供依据,能够减少人工的成本。大数据处理方法其实有很多,笔者根据长时间的实践,总结了几种基本的大数据处理方法,如非结构数据处理法、自然语言处理法等,该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述,包括3个阶段,分别是信息采集、网页预处理和网页分类。
2.1 信息采集
信息采集主要是根据相关主题由固定的专业人士来完成,其采集的数据只能用于所针对的主题和相关的模块,出于对效率和成本的考虑完全不必对整个互联网进行遍历,因此,模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性,并测算其是否值得访问;然后研究以哪种相关策略访问Web,以在采集到主题相关页面的同时,尽可能地减少采集到主题无关的页面。
预先设定好种子链接是信息采集的基本方法,充分使用HTTP协议下载被访问的页面,运用分析算法对页面与主题的相关性进行分析,然后确定待访问的相关链接,预测可能指向主题相关页面的链接,最后循环迭代地运用不同的相关策略访问网页。
2.2 网页预处理
网页预处理最主要涉及到网页去重处理,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重是先抽取文档对象的特征,再对文档内容进行分解,将文档的特征集合表示出来,然后有目的针对特征集合的压缩编码,通过将哈希编码等文本转为数字串映射方式,为后续的特征存储以及特征比较提供方便,这样可以起到减少存储空间,提高比较速度的作用,最后就是计算文档的相似度,此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征,通常是一组关键词,或者是关键词加权重的组合,调用相应的算法,转换为一组关键代码,也被称为指纹,若两个页面有大数量的相似指纹,那么可以预测这两个页面内容具有很高的重复性。
2.3 网页分类
网络时代,人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类,方便人们更好地使用网络资源,使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类,通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务,文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等。
网页分类方法有SVM分方法和朴素贝叶斯方法,其中比较推荐的是支持向量机分类方法(SVM),该算法主要基于统计学理论及线性分类器准则之上,从线性可分入手,再扩展到线性不可分的情况。甚至有时会扩展到使用非线性函数中去,这种分类器统称为支持向量机。近年来,支持向量机分类方法越来越多的受到网页分类技术人员的青睐。
3 大数据分析在行业活动中的应用
非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。
3.1 电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
3.2 地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
3.3 证券行业
某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
3.4 金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。
4 结语
大数据处理数据的基本理念是用全体代替抽样,用效率代替绝对精确,用相关代替因果。证券、微商、地产等行业每天都会产生巨大的数据量,大数据分析与处理已成为大数据技术的最重要的应用,通过大数据技术从海量数据中提取、挖掘对业务发展有价值的、潜在的信息,找出产品或服务未来发展趋势,为决策者提供有力依据,有益于推动企业内部的科学化、信息化管理。
参考文献
[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.
[2] 国际电子商情2013年大数据应用与趋势调查[Z].
[3] 大数据时代来临:国内IT企业布局已然落后[EB/OL].新浪网,2012-06-01.
[4] 大数据时代降临[EB/OL].半月谈网,2012-09-22.
[5] 王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74.
大数据分析范文6
研究和应用面临三大挑战
我们根本目的是从大数据中挖掘出价值。从政府角度来说,要进行大数据的有效管理,制定包括安全在内的各种公共政策,这就是政府要作为,从数据的获取、标准、规范、安全、保障等等方面研究。作为高校和科研院所来说,最核心的是要进行大数据的分析和处理,也就是智能化的挖掘、关联、融合、算法分析这些核心技术的探索和研究。作为企业界来说,要结合各自的领域,开展大数据的应用挖掘以及融合应用。所以说我们要形成一个数据是基础、平台是支撑、分析挖掘是核心,最根本的是要实现目标导向、问题驱动,实现效率的提升和经济效益社会效益的挖掘和发挥。
世界顶级大国都把大数据核心技术的研究作为未来抢占大数据产业自主知识产权的一个核心制高点来探索研究。第一从理论和技术角度来看,传统的计算理论和传统的数据处理分析技术难以完全适用。一方面是大数据和传统的中小规模的数据有本质的特征上的差别。第二在传统的计算平台计算范式方面也有根本性的转折。我们知道传统的数据量是中小规模,现在都是ZB级,10的18次方超大规模的数据量。从数据的结构来说,从传统的结构化朝大量的非结构化方向发展,从过去以静态为主朝着流数据发展,从单一的数据源朝着多元异构的方向发展,从多媒体朝着跨媒体融合的方向发展。这些数据特征的变化使得我们传统计算理论难以适应。从计算平台和计算范式来说,从过去的集中存储向现在的各地多数据中心的分布式存储方向发展,从多线程并行朝着多机协同的方向发展,从存储和计算相分离朝着数据和计算紧密深度融合的方向发展,从计算密集型或者数据密集型朝着两者混合的密集型方向发展,从静态全量计算朝着动态流式计算的方向发展,这些变化都是大数据分析中将要面临的理论和计算方面的挑战。在大数据分析与处理方面核心技术严重缺乏,我们熟悉的大数据处理核心技术的底层的核心软件、核心系统,像Spark、Hadood、Hbase这些著名的开源商用软件几乎全是被国外垄断,我们国家在这个领域缺乏自己的自主知识产权。第三,难以适配工程化应用的需求,比如大数据算法在工程化技术方面还处于基本空白状态。我们虽然有很多好的大数据算法和核心技术,但是应用到实际当中工程方面的适配还处于空白或者盲点。另外缺乏适用于大数据分析的工程化工具和快速的部署手段,核心技术与产业需求存在缝隙,缺乏面向行业的智能大数据决策支持工具和成熟的工程化解决方案,这些方面都是我们今后研究的重点和难点。
西安交通大学申请到了大数据分析技术国家工程实验室,在大数据的基础算法、核心技术、数据产品研制、行业工程应用特别是高端人才培养方面打造国内一流的科研和人才培养的平台。
教育大数据的研究应用
下面介绍一下国家工程实验室过去几年在教育领域大数据的研究应用方面所做的工作。
第一,陕西省高等教育大数据平台的研究与应用。西安交通大学为全省建立了高等教育大数据的汇聚分析和应用的数据中心,可以把全省所有高校的办学状态数据、政府管理部门的各方面的教育统计数据以及互联网上的有关教育的数据汇聚到一起。在这个平台上不仅有办学的管理状态数据,而且有各类慕课课程资源以及师生的信息管理平台,还有大量的互联网开放数据聚集在这个平台中。在这个平台上我们面向教育主管部门、高校开放为用户提供各种各样的学习、管理、质询、统计分析等应用。这个平台的数据还可以跟教育部评估中心、教育部规划司、财务司、学生司等相关司局进行互联互通,打通了数据之间的壁垒问题。在这个基础上,我们实现了全省高等教育数据的汇聚,从而打破了各高校数据的孤岛。另外可以建立横向关联比较分析、纵向自我历史比较分析,提供高校、政府管理部门、社会科学精准的数据服务,以及为他们的科学服务提供分析。
在这个平台上,我们开展了四项典型应用。第一,为全省本科高校进行教学质量的审核评估工作,运用互联网+大数据技术建成了覆盖全省高等职业教育、本科教育和研究生教育,包含办学条件、师资队伍、学科专业、课程教学、毕业就业等全方位一体化的质量监测网络,省级高等教育监测的大数据平台,开展了用数据和事实说话的省级学校两级高等教育的质量常态监控。第二,服务陕西省“一流专业”申报、评审与评估等方面的基础工作,这个工作现在把全省的教学状态的数据全部收集到这个系统里。第三,开展陕西省教育经费绩效分析与评估,这项工作我们已经进行了三年,对各个大学办学的基本绩效以及办学的成效进行实时在线的科学精准的统计分析,为政府决策绩效奖励提供支撑服务。第四,毕业生就业质量的跟踪和评价。已经建成了全省就业质量大数据分析应用服务,并且以这个系统为基础,高校毕业生就业状况的报告,过去需要大量的人工工作,现在基本上在这套系统上自动生成就业质量报告。
另外,MOOC中国平台在现实上的应用也是我们的重要努力方向。我们的目标和理念是做政府想做社会愿做但是单一高校做不了的事情,根本目的是打造互联网教育公共服务体系的2.0版本。目前这个联盟已经有117所高校加盟,超过10000门视频课程,超过10000注册用户,300经营讲师,收集客户端下载量超过900万。MOOC中国这个平台正在为服务国家“一带一路”的人才培养提供服务,我们在MOOC中国的平台基础上成立了由中国工程院和联合国教科文组织授予我们的国际工程科学支持的培训,在泰国建立东盟中心,面向“一带一路”开展包含中国文化、语言、教育、技术等特色资源,在这个特色资源中我们特别构建了六大主题数据库,为中国的企业走向“一带一路”提供各种服务。
通过互动交流、实践应用等多种形式对丝路国家来华留学的留学生以及中国企业走向“一带一路”国家发展的工程技术人才培养各种各样的技术人才。这个平台在技术方面突破了知识地图导航学习、知识汇聚核心关键技术,为用户提供可视化的知识声音导向的个性化资源推荐和服务。
课堂教学质量监测大数据平台。我们通过把课堂教学质量的实时各类数据,包括学生评价的数据、督导评价的数据等实时录入这个大数据平台。在这个平台上我们可以实现过去对课堂教学质量模糊宏观的评价,到通过大数据的精准分析实现量化精准的评价;从过去部分随机抽查课堂教学变成全面覆盖,从过去期中期末两次监测变成实时、常态、持续的监测,从过去的事后评价变为实时、动态的在线评价。在这样的基础上,我们一方面可以挖掘一些教学质量好、受学生欢迎的老师,也可以对不负责任、课堂教学质量不高的老师提出惩戒,实现精准督导。