前言:中文期刊网精心挑选了大数据技术范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
大数据技术范文1
一、分布集群数据库在大数据中的应用
目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。
二、在线规则更新系统的应用
在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。
三、大规模并行处理技术的应用
大规模并行处理技术主要用于编写和调试现代处理器的程序,而不是本地汇编程序,所有的书面代码都是从C/C++语言翻译成一个低级的核心汇编程序。在大数据应用中,会产生很多数据,在数据的分析和计算中,应该结合编程技术,标准语言是面向传统体系结构的,这就是为什么编译器不能使用所有可能的DSP体系结构以最佳效率生成代码的原因。为了获得一个良好的优化代码,有必要直接在低级汇编语言上编写代码。为了简化编写程序的任务,可以在某个处理器上使用面向代码生成器。使用一个专门的汇编代码生成器,使用并行结构化的编程语言可以获得比在C/C++中翻译的应用程序更高效的代码,生成高效的汇编代码,该代码积极利用DSP内核的并行性和其他特性。低级汇编代码是由所有编译器生成的,但是它们与传统的基于文本的语言(如C/C++)一起工作。大数据应用环节,在数据分类和计算中,当两个计算操作在不同的操作单元上执行时,才能在一个dsp核心的vliw命令中并行执行两个计算操作。根据运算执行单元的不同,计算运算可分为op1和op2两种类型。属于不同组使得在一个命令中执行两个操作成为可能。第一种类型包括由算术和逻辑单元执行的操作,第二种类型包括由乘法器、移位器ms执行的操作。在模板中,标记“1”表示第一种类型的标识,标记“2”分别表示第二种类型。如果两个操作具有不同的类型并且没有数据依赖关系,则可以进行并行化,DSP核心的并行性是通过在一个核心中存在多个操作单元来保证的。在大数据计算和分析中,如果有足够多的通用寄存器来执行这两个操作,并且它们可以并行执行,代码就会并行化,提升数据计算的效率。
大数据技术范文2
“大数据时代的预言家”维克托近日在北京面对一万多名技术信徒再次预言。
显然,这三大经典的技术信条在大数据时代面临动摇,
技术信徒的思维模式也即将发生颠覆。
那么,大数据对技术信徒意味着什么?
他们又将如何面对这一颠覆性的变革?
“技术汇成一条大河,一波推动另外一波。”IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生带着对技术的满腔痴迷这样形容道。
一波未平一波又起,移动、社交商务、云计算、大数据等先后涌现的新趋势正在融合成一股巨大的潮流,将所有的行业IT化,进而推动商业和社会的演进。这也就意味着“科技是第一生产力”在当下有了更深层次的涵义——“IBM认为,在由新一代技术组成的智慧运算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。” IBM全球副总裁兼大中华区软件集团总经理胡世忠为企业新发展出谋献策。
由2012年的“软件技术峰会”改名为2013年的“技术峰会”,在这么一个盛会上,IBM试图展示的内容涵盖范围更为广泛——移动应用、大数据、云计算、DevOps软件持续交付、应用整合、社交商务、专家集成系统等热议话题,上百场技术主题演讲、28场分论坛、22场动手实验室和80个未来产品的现场演示,再加上被誉为“大数据时代的预言家”的《大数据时代》作者维克托·迈尔-舍恩伯格以及数十位来自IBM的院士、杰出工程师、相关领域的全球首席技术官和首席架构师的现场分享,IBM 2013技术峰会再次成为技术精英们关注的焦点。 大数据的新信条
《大数据时代》作者、牛津大学网络学院互联网治理与监管专业教授维克托·迈尔-舍恩伯格的出现着实让场内数以万计的技术信徒激动了一把。作为深刻洞察大数据给人类生活、工作和思维带来的大变革的第一人,维克托以价格预测网站的例子作为开场白,论证了大数据已经悄然在大众的身边出现并给他们的生活带来改变。
“全体性、混杂性和相关性是大数据的三个主要特点,而且这三个特点是互相加强的。”维克托归纳出了大数据对应的思维变革。收集和分析更多的数据才能获取足够的数据隐含的细节,这些细节恰恰是随机抽样所错失的。“干净”的、高质量的数据不再是标的,大数据需要我们摒弃对宏观上精确性的追求,转而获得微观上的准确性,即接受混杂的数据。最重要的是,人们不再沉迷于追寻数据之间的因果关系,即不再纠结于为什么,而是直接获得“是什么”的答案,并通过应用相关关系,更好地捕捉现在和预测未来——抽样因错失细节得不偿失,盲目追求精确性已经过时,执着于因果关系丧失机遇。
如何在大数据时代生存?维克托指出了两个关键点:一是意识到技术或者规模并不是成功的充分条件。遗忘规模经济,因为它的效益会逐渐淡化。20年前,一个公司只有拥有上十万台的服务器才能提供搜索服务,但在大数据时代,由于云计算的便利性,不拥有实体服务器的公司,如前文提到的,它只有30个员工,但它有能力为其上10亿的用户提供数据分析。二是为了在大数据时代获得胜利,大数据的思维模式不可或缺,工具的力量不容小视,分析能力是必要的。蓝色被谷歌选为搜索窗口的色彩,但蓝色实际上有51种,而且这51种蓝色人依靠裸眼无法明确区分,却能在心理层面给人带来不同的感受。经过大数据分析,谷歌发现原本由人工选出来的蓝色会导致谷歌损失200亿~300亿美元的收入,因为这一种蓝色并不最具备诱惑力,无法激起人们点击的欲望。
大数据的力量需要具备大数据的思维模式,并有效利用大数据的工具去发掘。IBM杰出工程师、InfoSphere Stream高级开发经理James R Giles阐述了IBM对大数据的看法:“我们正一步步走到了一个新纪元——大数据时代。如同对待自然资源一样,我们需要开掘、转变、销售、保护大数据资源;不同的是,大数据资源是无穷无尽的,我们不能任由大数据淹没自己,而应该在获得洞察需求的驱使下获得价值。”
大数据的类型广义而言有移动数据和静态数据,还有结构性数据和非结构性数据,这对应着不同的处理方式。“技术人员的责任是,能够去管理这些数据,能够理解这些从不同的数据源而来、不同类型的数据,能够分析这些数据,得出结论,让其提供决策支持,为企业拥抱新的大数据时代提供技术支撑,以保证管理、安全、商业的持续性。” James R Giles号召技术人员积极行动,以大数据的思维模式展现技术的价值和魅力。
找到内在联系
技术的趋势总是融合,也只有有机融合才能形成合力,发挥更大的威力,而实现这一合力的前提是明确各个趋势之间的内在联系。
“实际上,社交商务、移动、大数据、云计算是一体化的。”毛新生建议技术人员用一个全面的、融合的范式来沉着看待和应对纷繁的热点技术,理解这些热点会如何影响整个IT的走向,进而明晰IT如何可以很好地支持各行各业的业务转型和创新,“让每个行业都可以从新的技术转型当中获得足够的原动力”。
从贴近最终用户的角度来看,移动技术、社交技术改变了商业机构与其雇员、客户进行互动的方式。“就我个人的经历而言,航空公司的移动应用可以提供更好的客户交互。我是西北航空公司的粉丝,因为它家的移动应用服务很贴心,比如查询航班信息、根据我的喜好预留位置、定制化地进行社交推荐等。”毛新生以一个普通消费者的感受证明了企业通过移动应用收集并利用用户行为数据所带来的服务质量的提升。
移动催生了“一种崭新的服务交付端点”,即为用户提供了更多样化的服务体验点,让用户随时随地可以利用碎片化的时间去获得业务服务,也为企业带来了全新的服务交付渠道。移动这个渠道提供了更为丰富的全样性数据,在此基础上,大数据分析就更可信。“移动所具备的碎片化特点会带来更大量的用户行为信息。当把所有的人的行为结合在一起,就可以做群体的社会性分析。社会性分析会得到比较准确的群体特征。而群体特征足以获得很好的交叉销售与线上销售机会。”毛新生认为移动与大数据结合给企业提供了新的商业机会。
移动的设备无处不在。人、汽车,甚至建筑物、道路、桥梁,它们无时无刻不在提供数据,这就是新的数据源,是它们引领我们来到维克托所描述的更为广阔的大数据世界。
移动和社交商务的便捷性使得企业的整个业务流程变得非常自动化,用户可以享受自助服务,对应到企业端就意味着业务流程对前端的需求要反应得更为迅速,也意味着各个业务系统之间无缝连接,否则没有办法支撑以最终用户为中心的服务体验,但跨部门和跨应用的整合实属不易。进一步延伸开来,对用户体验的追求是无止境的,合作伙伴的API和服务可以作为补充,这即是“跨企业边界”的行为。这种行为必然导致大规模的用户访问。这些整合和外部拓展都需要云计算提供灵活有效的基础。没有云计算,移动前端的体验、大数据分析的效果都会大打折扣。“云的基础设施使大规模互动、大规模数据处理、大规模应用可以更好地服务我们。”毛新生指出。
环境变化加速,竞争更加激烈,要求企业的反应速度越来越快,应用以及端到端解决方案快速改变。毛新生饶有兴致地介绍道:“这个改变有多快呢?我们有的客户尝试以天为周期去改变,这意味着应用和业务流程的设计、开发、部署、测试、维护的整个过程要大大加快,也就是所谓的DevOps。只有把敏捷的开发和运维结合起来,生命周期变得以天为周期,才能响应新的商业环境。”
“移动、云计算、大数据、社交商务之间的紧密联系让我们应该以整体的眼光来审视它们。”胡世忠坚信,它们的组合可以创造可持续的竞争优势,可以迸发变革的力量。
至于一个企业应该从哪里下手来实现这一幅宏伟蓝图?毛新生给出的答案是:“每一个企业,因为它所处的行业或者特定的情况而拥有不同的切入点,有一些企业需要从移动开始,有一些企业需要从云计算开始,有一些企业需要从大数据开始,但是它们是不可分割的整体,只有综合地运用它们,找到适合自己的切入点,一步一步脚踏实地,才能掌握先机,打造竞争力。在这个过程中,要拥有正确的思维,改变既有思维,理解趋势,制定策略。”
例如,银行、保险、零售业这一类和最终消费者打交道的服务业在很大概率上需要先从移动、社交商务入手,从而使其有机会改善和用户交互的过程。而以数据为生的行业会琢磨如何将自己的内容和资源数据增值,而传统的运营基础设施的重资产企业,会追求将资产数字化,得到数据并进行分析,以优化资产的生命周期管理来预防性地降低维护成本,这些企业是以大数据作为切入点的。还有一些企业希望跨行业整合进行业务创新,背后牵扯到它们自身现有的业务模式和新业务模式的整合,这种情况下需要以云的方式构建新的应用、服务、商业流程。
毛新生认为切入点不同只是表象,每一种场景到最后都是综合性的运用,要把这几个技术综合运用起来。从前端开始,首先是利用移动,并借助社交渠道交流,很快这些渠道会得到新的数据,这些新的数据和原有的交易数据和积累的数据结合起来做进一步的数据分析,这就是大数据分析。大数据分析以后可以做社交推荐、关联推荐了。随后,能不能跨界再实现更广泛的销售?跟别的价值链上的合作伙伴合作,那么引入云是解决之道。数据量增大,用户数增多,云的基础设施可以让成本更合理。“所以说,到最后都是综合性的应用,尽管起点不一样”,毛新生说。
对技术人员而言,IT就是交付业务流程的基础,是信息化的工具。它的目标无非是优化业务流程或者创新业务流程。创新到达一定程度后,业务流程的量变会导致质变。“这就解释了为何全球越来越多的CEO将技术视为驱动企业发展的首要因素。” IBM软件集团大中华区中间件集团总经理李红焰强调,技术人员有能力,也有责任将“看不见的技术转变为看得见的享受”。
移动开发的转变
在大数据的带领下我们进入移动时代,企业有了新机遇,技术人员却有了新挑战。为什么移动开发和之前不一样呢?有什么不一样呢?这成为了萦绕在技术人员脑子里最主要的两个问题。
IBM杰出工程师及IBM移动平台首席架构师Greg Truty解答了这两个疑问。他认为,很多企业现在所做的事情与在移动的状态下做的事情是不一样的,移动状态下的任务和规划更具有战略性。移动应用是在不稳定的网络上运行的,所占用的资源更少。用户在移动设备上和非移动设备上的体验是完全不一样的,他们会希望在不稳定的网络上仍然能够获得良好的体验。企业现在需要思考的是,怎么样把大量数据、大量体验变成一些有意义的体验。同时,移动管理的需求也不一样了,开发的特性也不一样了。比如对一个企业来说,移动开发周期更短,有更多设备需要支持,有更多开发方法可供选择,也有更多的工具和库可供选择,这时候企业就需要仔细斟酌,哪些开发方法和工具是自己需要的。
自然而然,对于设备的管理也有了变化,因为应用变化了。“一直以来,客户端服务器的应用架构是企业在使用的。你需要协调在服务器端的服务以及在客户端的服务,挑战非常大。你不可能强迫客户运行你的应用,而必须能协调和兼容原有的系统。这是非常关键的一点。” Greg Truty强调了设备管理的重要性。
此外,产品种类也非常多,新应用层出不穷。Greg Truty 认为多而新的局面下更需要冷静处理:“我们会把应用和数据结合起来,移动和社交网络结合起来,这样做会创造一些新的得到数据的机会,需要进行管理。新的机会、新的技术,给整个IT组织带来了更多的挑战。”
大数据技术范文3
关键词:烟草;数据中心;大数据;Hadoop;Impala
1.大数据技术现状
当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。
1.1大数据技术现状
广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。
1.2大数据技术对烟草数据中心建设的影响
当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。
2.江苏烟草数据中心应用现状
2.1江苏烟草数据中心体系架构
目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。
2.2大数据技术的应用场景分析
随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。
3.基于大数据的自定义数据查询平台实现
3.1设计思路及架构
基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。
3.2技术方案
自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。
3.3系统实现效果
利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。
4.结束语
大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。
参考文献
[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48
[2]刘忆鲁,刘长银,侯艳权.大数据时代下的信息安全问题论述[J].信息通信.2016,181-182
大数据技术范文4
【关键词】数据挖掘 数据分类算法
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1 决策树分类算法
1.1 传统算法
C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。
2 其他分类算法
2.1 Bayes分类算法
Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。
2.2 CBA分类数据算法
基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。
2.3 MIND和GAC-RDB算法分类算法
在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。
2.3.1 MIND算法
MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。
3 总结
大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。
参考文献
[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).
[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).
大数据技术范文5
21世纪,我国的经济进入飞速发展阶段。经济全球化和信息共享推动了各个领域的发展和创新。人们的生活水平不断提高,对生活的质量要求也越来越高。互联网进入家家户户,为人们的生活带去了便利。互联网覆盖面极广。无论是建筑、教育、新媒体,还是医疗、工业,都不同程度的使用了互联网。互联网带动了大数据时代,每天都有海量的信息充斥着人们的生活。如何在大数据环境下保证网络安全技术是本文研究的主要内容。
【关键词】
互联网;大数据;网络安全技术
大数据已经开始影响人们的生活了,人们越来越依赖大数据。在商业领域,大数据成为预测行情、找准营销方向点的重要载体;在公共的服务领域,大数据为人们的出行、旅游、健康、环保等方面提供出参考信息;大数据为人们生活带来了方便、快捷、灵通的消息和服务。但是,也在人们的生活中增添了很多危险的因素。在大数据环境下,人们上网、购物、消费的同时也暴露了个人信息。提高网络的安全技术,在社会发展的同时保障人们的合法权益。
1大数据时代
最早提出大数据的人是维克托•迈尔-舍恩伯格及肯尼斯•库克耶,他们认为大数据是一个巨量资料库。大数据具有大量、高速、多样、价值等四个主要特点,大数据以多元的形式将很多信息资源收集在一起,形成一个实效性特别强的数据组。大数据与云计算的关系密不可分,在大数据需要使用分布式的计算结构时,云计算会帮助大数据进行分布式处理、建立分布式数据库和云存储。在人们的意识里,数据就是简单的信息。在互联网时代到来之后,大数据时代也紧跟着到来。大数据不是简单的互联网信息,在工业设备、汽车、电表、机械等方面安装上数码传感器,随着空气、温度、湿度、环境的变化数码传感器会发生变化,随之产生很多的数据信息,将这些数据汇集到一起进行研究处理就形成了数据库,也就是大数据。大数据的产生对社会的发展有着很大的影响,它可以通过数据间的信息变化,设计出适合生产的软件。将大数据运用到社会的各个领域中,可以节省资源、提高生产效益。企业中可以利用大数据对大量消费者的消费状况有一个详细的了解,找到消费者们共同的消费领域,制订精准的营销方案。大数据时代下,一些小型企业可以借助大数据的优势做服务转型。大数据环境下,企业的创新之路会走的更顺畅更久远。
2大数据环境中存在的问题
随着大数据时代的到来,很多新兴技术和软件应运而生。互联网的普及是人们出门携带的物品越来越少,甚至有人说拿着一部手机就可以走遍天下。无论是购物,还是吃饭,一个手机APP就可以全部搞定。但是,现在的软件都是实名制的,随着使用的数据软件越多,人们的个人信息就暴露的越全面。近几年,网络诈骗的案件层出不穷,人们的姓名、身份证信息、家庭住址等等,都已经不再是秘密。大数据环境下,人们的个人信息被盗取是最大的问题。在2014年,支付宝前技术员工利用职位便利将20万的支付宝用户信息非法卖给了他人,这个事件发生之后,在社会上引起了很大的轰动。人们开始意识到自己的信息并不安全,有了防范心理。但是,骗子的手段也是层出不穷,每年都有很多人因为轻信网络信息,被骗取了大量钱财。海量数据的安全存储问题大数据环境中的数据存储太多,存储数据的系统无法满足大数据的运用。大数据所带来的存储容量问题、延迟、并发访问、安全问题、成本问题等,对大数据的存储和安全保护系统提出了新的挑战。大数据的存储分为结构化存储和非结构化存储。结构化数据的存储中安全防护存在很大的漏洞,诸如物理故障、软件问题、病毒、黑客攻击等因素是威胁数据安全的问题。非结构化数据占大数据总量的80%,在对数据存储进行管理和处理工作中,一般使用NOSQL存储技术。虽然NOSQL存储技术有很大的优点,但是数据的多、杂、乱依然使数据存储工作一团糟。在非结构化的数据存储出现了访问控制和隐私管理模式问题、技术漏洞问题、验证安全问题等。
3提高网络安全技术的措施
出现问题就要解决问题,大数据在促进社会发展的过程中也产生了很多的弊端。找到问题的源头后,就应该付出实践去解决问题。通过对数据进行网络安全监控,提高大数据环境的安全性能。网络安全技术是在数据传输中保证数据安全性的一种技术手段,网络安全技术又分为网络结构安全分析技术、系统安全结构分析技术以及物理安全分析技术和管理安全分析技术。提高网络安全技术,在大数据环境中建立健全的网络安全体系。提高网络安全技术的具有措施有以下几点:
3.1使用入侵检测系统
入侵检测系统是网络安全技术中的新型系统,主要对数据进行实时的入侵检测,是一种保证数据安全、无病毒的防护系统。入侵检测系统分为两类,一类基于主机;一类基于网络。机遇主机的入侵检测系统可以保护重要的服务器,随时监测并可疑连接、非法访问的入侵。基于网络则是用来监控网络主要的路径信息、不良信息。一旦发现入侵现象立马发出警报,并自动采取防护措施。
3.2提高网络安全技术人员的综合素养
“监守自盗”是大数据时代下经常出现的问题,负责保护整理数据的人员成了贩卖数据信息的人。在企业或者媒体平台中,应该对所有的职员进行培训。建立网络数据管理制度,对不遵守制度的人严惩不贷。提高网络安全技术人员的专业能力和职业素养,对企业中的数据进行严格保管,不做有损人民利益和企业形象的事情。
4结语
在这个日新月异的时代中,人们的生活每天都有新的变化。随着大数据时代的到来,人们可以轻松解决很多事情。没有了时间和空间的上的阻碍,经济发展的脚步会越来越快的。将来,大数据在教育、消费、电力、能源、交通、健康、金融等全球七大重点领域都会得到全面广泛的应用。大数据已经成为了国家发展的趋势。为保证大数据能够利国利民的进行,国家的网络安全监测人员需要不断地提升自己的专业能力,加强对网络安全的管理。提高网络安全技术,使人们能有一个健康、安全的生活环境。
参考文献
[1]王元卓,靳小龙,程学旗等.网络大数据:现状与展望[J].计算机学报,2013,36(06):1125-1138.
[2]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(06):1147-1162.
大数据技术范文6
摘要:“大数据”无疑是当下最热门的话题,但随着人们对于“大数据”研究的逐渐深入,大数据技术问题面临严峻的挑战,本文在分析了大数据背景和研究意义的基础上提出了当前大数据面临的技术挑战,并从资源基础观的视角对能耗、算法、安全等几个角度阐述了大数据技术的应对策略。
关键词:大数据;技术挑战;能耗;算法;资源基础观一、引言
随着科学技术的发展和人们需求的不断变化,信息数据量逐年增加,尤其是过去几年结构化数据、半结构化数据等多种类型的数据几乎呈现爆炸式增长。维克托•迈尔―舍恩伯格曾说,世界的本质就是数据,大数据的发展动力主要来源于人类测量、记录和分析世界的渴望。
阿尔文•托夫勒(1980)在其《第三次浪潮》一书中首次提到“大数据”一词。随后在20 世纪90 年代,被称为“数据仓库之父”的比尔•伊蒙(Bill Inmon)明确提出了“大数据”的概念。但“大数据”的说法在当时并没有引起人们的过多关注。2012年3月22日,奥巴马宣称美国政府即将投资2亿美金启动“大数据研究和发展计划”。这项计划的实施更提高了研究者们对于“大数据”的关注度。
二、大数据的研究意义
随着人们对于大数据的关注度越来越热,研究者们发现大数据存在巨大的科学价值和社会价值。一旦思维转变,挖掘数据就能被用来激发新产品和新服务,只要善于挖掘、抽取和利用数据,不仅能够成为企业之间竞争的核心力量,同时也成为国家竞争力的一部分。2009年时,甲型H1N1流感迅速传播,谷歌公司解释了怎样预测冬季流感的传播。这种预测方法在之前是被人们所忽视的,建立在大数据的基础上的一种前所未有的方式,通过对海量数据进行检索与分析,获得了巨大的价值。到2012年为止,Farecast系统的检索了将近10万亿条价格记录在预测美国国内航班的记录,这种预测工具使得购买机票的旅客,平均每张机票科节省50美元,等等都被称为是大数据应用的经典案例。显然,有效挖掘、利用大数据能够产生巨大的科学价值和社会价值,大数据逐渐成为现代社会基础设施的一部分。
三、大数据面临的技术挑战
无数成功的案例,无不证明了大数据带来的潜在价值,而且国家在大数据技术方面已经投入大量的人力、物力等,然而如果没有与大数据相匹配的科学技术带动的话,我们将无法有效利用大数据的潜在价值。
《中国电子科学研究院学报》编辑部在《中国电子科学研究院学报》[1]中讲到大数据的特点时,不仅强调了大数据多样化、海量、快速、灵活等四个特点,更加强调了大数据复杂性的特点,使得对大数据的处理更加艰巨,并且传统的基于网格分布式型数据库的商务智能已经不再适合对大数据进行处理了,所以大数据对软件技术提出了更高的要求。维克托•迈尔- 舍恩伯格在其著作《大数据时代》中也指出这一点,“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,造成数据库的混杂性”[2]。在数据从数据产生到数据的利用经历了许多的过程,而且任何一次数据的筛选与分类都无法回避面临的技术方面的挑战,如图1所示为数据的整个处理流程:图1大数据处理流程
如上图所示,在对源数据进行简单的筛选和抽取后,大量的数据主要以结构化数据、半结构化数据和非结构化数据三种形式存在,虽然目前Hadoop和NoSQL等分布式处理技术已经能对非结构化的数据进行挖掘、抽取并有效利用,但是还没有一个比较全面而完善的解决方案。
四、 大数据技术的应对策略
随着各种分类和存储技术的发展,大数据的研究带来巨大的价值,但是同时也付出了巨大的代价,从资源基础观的角度,大数据技术在带来巨大价值的同时,我们更加应该关注付出的成本,毕竟净价值才是大数据的终极目标。本文主要从资源基础观的角度对大数据面临的技术挑战,从能耗、算法、安全等几个方面来阐述大数据技术的应对策略。
(1)大数据能耗问题的应对策略。吴金红等人在《大数据:企业竞争情报的机遇、挑战及对策研究》中谈到大数据时代即将面临的能源消耗问题。麦肯锡公司经过一年的调查研究,最终在《纽约时报》上发表文章“Power,pollution andthe Internet”.据调查研究,能耗在目前数据管理系统中的费用大约占总能耗的16%左右。我国的“十二五”规划中,明确了对于能源的要求,我们更要节约能源、资源,有效的利用资源。大数据新型存储技术中的闪存和相变存储器PCM,能够有效降低能耗的问题。闪存比磁盘能耗更低,读取数据的能耗只占磁盘的2%,而且写操作也只有磁盘的30%,闪存的出现为目前大数据研究带来的高耗能问题提供了有力的支持。PCM是一种基于微型存储单元的相变存储器,保存数据或代码不需要刷新电流,而且不容易流失,这将或许成为降低耗能更好的选择[3]。
(2)大数据算法问题的应对策略。目前许多传统的数据抽取和存储技术已经不再适用,而且大数据模型中算法的优化需要长时间的积累与沉淀,越早研究就越有利用竞争,越能够降低成本,因此研发具有世界先进水平的大数据算法技术具有迫切的意义。
大数据模型的优化主要核心就是要确定目标函数的参数,通过优化相应的目标函数来优化传统的算法。目前针对算法技术的难题,我们可以采用随机梯度下降模型来优化目标函数,即先找到目标函数f(w),然后采用迭代的策略,从初始点W0开始,沿着目标函数初始点的负梯度方向进行研究,即Wt+1=Wt-αf(Wt),直到不能再继续迭代,则会得到最优解W*。目标函数的形式一般假设为f(w)=∑i=1…nf(w,xi),其中:xi为第i个数据项[4]。随机梯度下降能够有效的处理非机构化数据的并行问题而且对数据的容错性较高。
(3)大数据安全技术的应对策略。在谈到大数据的风险问题时,不可回避的一个问题就是大数据带来的安全问题。资源基础观强调了研发新技术产生价值的同时也要利用技术来降低资源的浪费。在亚洲、南美等新兴市场,数据保护的缺失更加严重。海量数据技术的发展能够有效跟踪网络异常行为,把实时安全和应用联合在一起进行对数据的有效防护。关于数据安全存储的应对策略主要从以下四个方面来队数据安全进行解决与维护:一、数据加密。通过关键技术对数据加密能够有效保护隐私和防止黑客攻击;二、分离密钥和加密数据;三、使用过滤器;四、数据备份。通过以上四个方面对数据端对端的保护,能够有效确保大数据信息的安全[5]。
五、结论与展望
本文对近几年来国内外关于大数据的产生背景和研究意义进行了回顾和总结,并对当前技术面临的挑战从资源基础观的角度提出了一些应对的策略。但目前我国关于大数据的研究还在初期阶段,我们随后将会通过提出更加有针对性的解决措施或相关的评价性研究等方式来降低风险,提高利用大数据的有效性。
参考文献
[1]《中国电子科学研究院学报》编辑部.中国电子科学研究院学报.2013(1).
[2][英]维克托•迈尔•舍恩伯格、肯尼思•库克耶著,盛杨燕等译,《大数据时代》,浙江人民出版社.
[3]金培权等.面向新型存储的大数据存储架构与核心算法综述[J].计算机工程与科学.2013(10).