前言:中文期刊网精心挑选了大数据分析方案范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
大数据分析方案范文1
关键词:供电企业;信息安全;大数据;分析方法;思路;探讨
前言
智能化的电网正在全面地实施建设。随着以大数据为中心的IT技术的不断融入,当前我国的供电企业展开了大数据分析的研究,以便更好地使得大数据应用到整个配网的规划当中。此外,还要根据电网的实际数据情况,把数据应用到智能变电站的建立、智能电网的调度及供电信息的采集等各个方面。进而有效地提高我国供电企业的管理水平及处理业务的能力。然而,信息化新技术在应用的过程中也具有一定的风险因素,所以需要建立大数据的安全分析结构,进而对数据进行相应的处理并把安全分析方法应用到整个供电企业的信息系统中去,进而更好地为供电企业的数据安全提供保障。
1供电企业的信息完全风险分析
大数据作为供电企业的管理工具是一把双刃剑,给供电企业管理提供了便利,提高供电企业的管理水平和管理能力的同时,也给供电企业带来了一定的挑战和风险因素。使得企业数据处理、收集及传输的风险等级提高。若企业内部的数据出现问题,则会使得数据在进行传输的过程中被盗取和窃听,这给企业的管理带来了很大的风险。除此之外,企业在进行数据中进行一定的储存和利用的过程中,也会由于大数据系统的内部维护不到位而带了很大的风险。若企业的数据被长时间地窃听,就会使得不法分子有机可乘,采用各种方法来对数据后台进行攻击和试探,并寻找系统的薄弱之处。最后实行致命的攻击,并造成系统的瘫痪。所以,大数据给在方便企业的信息管理的同时,也带来了一定的信息安全挑战。
2供电企业信息安全大数据所面临的数据安全的需要
传统的电力信息系统逐渐地走向了信息化处理的进程,智能化的电网模式带给了供电企业信息系统数据安全更大的要求。每次进行数据的访问时,都需要确定数据的访问权限,并核实访问者的身份,并查看是否被授权。供电企业的数据信息需要被完整地保护,并保障其不被删除或者恶意的篡改。一旦供电企业发生一定的突发事件,需要大数据平台对数据进行自动的备份,并使数据得到安全的保护。④要采取一定的措施来保证供电企业的数据在运行过程中的安全性不被破坏。⑤要切实保证整个供电企业的信息系统的网络安全,控制供电企业信息系统的基础安全信息网络和供电企业内部比较重要的业务系统的安全。
3供电企业的信息安全大数据分析思路
当前供电企业内容的安全信息系统逐渐地向着对抗型的信息安全系统方式转变,并使得电力系统的大数据网络可以积极地应对外界的攻击。并对潜在的敌人进行分析和识别,并归纳总结当前的供电企业的信息安全大数据的风险类型,从而采取相应的对策,并先发制人,提高安全大数据系统的防御能力。这就是当前供电企业的信息安全大数据的分析思路。大数据的分析和挖掘技术需要不断地融入到大数据的安全分析中去,下图是大数据的安全结构分析思路。供电企业的信息安全大数据分析思路是基于技术的安全分析和理念,是至今为止比较完善的大数据安全分析办法,是供电企业大数据的核心环节,是对相对分散的信息进行采集并实现存储,并对其进行一定的分析,最后把其分析结果进行分发,把所有的安全分析体系结合在一起,并实现安全技术的互动。
4供电企业信息安全大数据安全分析结构的数据处理
供电企业的信息安全大数据的结构具体根据业务的不同分为不同的数据库进行处理。关系数据库是当前最丰富的数据库,是进行供电企业信息安全处理的主要形式。而数据仓库属于一种多维的数据结构,可以允许用户进行汇总级别的计算,并对数据进行观察。事务数据库中记录了每一个事务,并同时附带了一些相互关联的附加表。文本数据库是对图象进行描述的数据库,文本数据库与图书馆数据库类似。而多媒体数据库则是对图像以及音频和视频的存储,并用于存放内容的检索。供电企业的信息安全大数据的存储往往需要先确定好处理的目标,并对数据进行量化的处理,最后对数据进行一定的评估,最后进行结果的展示。将大量的数据进行集中化的处理可以切实地反映出安全数据的指标,并根据指标对安全数据进行相应的评估。
5供电企业信息安全大数据安全分析方法
当前,进行供电企业信息安全大数据安全分析的方法有很多,随着大数据的技术体系逐渐成熟,目前对安全数据的分析算法也变得多样化,很多分析方法比如分类技术方法、序列分析方法等等对大量的数据的分析具有很好的效果。而对于不同的数据库可以采用不同的分析算法进行分析。比如,当利用关系数据库和事务数据库时,就可以利用序列分析的办法进行数据的挖掘和统计;而数据仓库除了需要进行联机处理以外,还需要进行数据的挖掘;文本数据库则是利用模式匹配以及关联分析等方法相互结合来进行数据的挖掘分析。
6结论
针对供电企业的信息安全的大数据分析有很多的途径,在进行供电企业信息安全的大数据分析时,需要对供电企业的安全数据信息进行全面预测,并利用多种分析办法综合处理。随着当前大数据网络技术的不断发展,根据大数据的分析特点进行安全分析的办法也在不断地完善。基于信息安全的大数据分析方法和思路具有很大的发展前景,安全大数据技术的不断革新,使得供电企业的防护网络更加地发达,并逐渐实现了供电企业的大数据信息安全的评估系统的完善,使得供电企业的信息安全大数据发展更为迅速。
参考文献
[1]钟志琛.电力大数据信息安全分析技术研究[J].电力信息与通信技术,2015(9):45-46.
大数据分析方案范文2
大数据市场确实存在。Gartner预测,到2015年,70%的信息基础架构扩展与投资的主要驱动因素是业务分析需求。以前,人们把精力主要放在如何存储好海量的数据上,而没有想到深入挖掘数据的内在价值。随着数据与业务之间的关系越来越紧密,以及一些大数据分析工具不断涌现,数据分析成了企业决策的前提。
大数据不一定是复杂的分析
许多人一提到大数据,首先想到的是复杂的数据分析。这让有些希望采用大数据分析工具的用户产生了畏难情绪,也让有些用户产生了误解,认为大数据分析只是那些拥有复杂业务流程和海量数据的大企业的事。市场研究机构麦肯锡的研究人员表示:“要创造新的重大价值,并不一定要采用复杂的大数据分析方法,有时只要能保证数据的可用性或对数据应用进行基本的分析,就能获得所需的重要价值。”
不同的企业或一个企业内部不同的部门对数据分析和数据价值的理解都不相同。企业处于不同的信息化发展阶段,也会设定不同的数据分析目标,采用不同的数据分析工具。正是基于此,戴尔率先提出了大数据成熟度模型。戴尔公司全球企业级解决方案副总裁Cheryl Cook表示:“这一模型已经得到了业内许多分析机构的认可。所有行业以及所有数据应用都适用于此模型。”
如下图所示,大数据成熟度模型分成五个阶段。第一个阶段,数据处于混乱状态,数据存储无章可循,数据难以访问,企业的信息系统处于高风险状态。第二个阶段,实现数据的保留。在这个阶段,企业被动地对数据进行存储。数据虽然经过一定的处理,但还不具有高质量,数据的访问也会受到一定限制。第三个阶段,实现存储的优化。在这个阶段,通过对存储系统的进一步优化以及基于策略的控制与管理,用户可以逐步发现数据的价值。第四个阶段,实现简单的分析。在存储优化的基础上,用户可以进行数据建模和简单的数据分析,对归档数据进行搜索等。第五个阶段,实现复杂的分析。在这个阶段,大数据分析工具将得到充分应用,用户可以进行比较复杂的建模、分析和决策。经过上述五个阶段,曾经杂乱无章的数据也将经历从数据到信息再到知识的转变过程,最终成为企业决策的重要依据。
这个大数据成熟度模型可以解答人们对于大数据应用的几个疑惑。第一,用户使用大数据分析工具,并不意味着一定要进行复杂的分析。举例来说,处于存储优化阶段的用户就可以实现无障碍的数据访问,并能获得所需的数据价值。第二,大数据的应用要经历一个逐步完善的过程,必须循序渐进,先做好数据存储和优化,然后再进行数据分析。第三,大数据解决方案通常包括两个部分:一是大数据保留解决方案,二是大数据分析解决方案。将两类解决方案有机地结合在一起,才能有效降低大数据分析应用的成本,更好地挖掘数据的价值。Cheryl Cook表示,戴尔可以提供上述两种解决方案。一方面,戴尔可以提供针对结构化和非结构化数据的大数据保留解决方案,主要包括存储虚拟化与整合、应用程序优化、数据保护、灾难恢复以及数据保留与管理解决方案;另一方面,戴尔还能提供支持Hadoop、Cloudera等开源软件的大数据分析解决方案。
记者曾与包括大庆油田、太平洋保险公司等在内的一些用户进行过交流。它们目前都没有计划部署大数据应用。“从全球范围来看,大数据应用还处于起步阶段。”戴尔亚太及日本地区商用事业部企业解决方案副总裁Philip A. Davis表示,“与云计算兴起时一样,可能要经过两三年的市场培育,用户才能逐渐接受大数据应用。”
中国东方航空股份有限公司信息部总经理严振红介绍说:“在大数据的概念出现以前,我们就在做客户数据、经营数据的分析工作。但是客户数据库、经营数据库等都是相互独立的,数据不能共享。现在,我们要做的是将这些系统的数据整合起来,统一进行分析。”
Hadoop不是万能的
简单来说,Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop最独特的优势在于为用户提供了一个分布式的、高容错的文件系统和加速数据处理的办法。随着Web 2.0、社交网站的大规模兴起,人们需要一个高效的处理非结构化数据的平台。Hadoop正好可以满足人们的需求。有些人甚至在Hadoop和大数据之间划上了等号。Hadoop能够解决大数据应用的所有难题吗?
“Hadoop是一个复杂的工具套件。如果没有厂商或专业技术人员的帮助,用户自己部署Hadoop是一件十分困难的事。目前,Hadoop的应用并不普及。互联网用户是最早采用Hadoop平台的。”Philip A.Davis表示,“如果想让大数据解决方案充分发挥其作用,就必须搭建一个高效的信息基础架构,实现信息基础架构的自动化、智能化,同时提高其可管理性。”
Hadoop的应用是有一定技术门槛的。如今,许多IT厂商都推出了基于Hadoop的解决方案包,其目的是帮助用户简化Hadoop的部署与应用。Philip A.Davis表示:“戴尔提供的基于Hadoop的大数据分析方案可以将Hadoop的部署周期从原来的两个月缩短至两天。”
VMware全球高级副总裁范承工也认为,由于缺少精通Hadoop技术的专业人才,Hadoop的部署对于用户来说是一件费时费力的事。如今,VMware可以将Hadoop部署在虚拟化架构之上,将部署工作从半自动化变为全自动化,从而减少了人工干预,使得Hadoop的部署变得更加简单,也不容易出错。
“很多中国企业的CIO认为,大数据解决方案是有价值的,但实施起来确实有许多困难。”戴尔全球副总裁、中国区大型企业及公共事业部总经理容永康举例说,“国内懂得在Hadoop上进行开发的专业技术人员非常少。一些金融行业的用户很想现在就部署大数据解决方案,但是苦于找不到既懂Hadoop技术,又懂得金融业务的专业人才。”
Informatica首席技术官James Markarian表示:“在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop跨越不同平台,用户需要将Hadoop作为其IT大环境中的一部分来管理,并通过Hadoop重复使用他们的开发技巧、资产及数据,同时还要统筹管理全部数据。”
在美国市场上,70%的大数据应用处理的还是结构化的数据。从技术的角度看,虽然Hadoop也能处理结构化的数据,但是目前基于Hadoop的大数据分析解决方案主要还是用于处理非结构化的数据。因此,用户处理结构化数据和非结构化数据通常是用两套不同的分析工具。这种混合的大数据处理模式是一种普遍现象。
从未来的发展看,非结构化数据的快速增长是大数据分析的主要驱动因素。从这个角度讲,Hadoop的应用前景还是十分广阔的。
大数据不仅仅是一个解决方案
大数据分析方案范文3
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。
1 档案领域数据分析师岗位设置的意义
大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。
1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股恐怖分子,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。
1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。
1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。
1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。
2 档案领域数据分析师的岗位职责
档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。
2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。
档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。
档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。
2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。
档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。
档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。
档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。
2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。
档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。
档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。
制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。
2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。
3 档案领域数据分析师的基本素质要求
数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。
3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。
3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。
3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。
3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。
大数据分析方案范文4
为此,近日英特尔与SAP联手,充分发挥彼此在计算力和数据分析应用上的优势,共同打造了大数据实时分析平台。该平台以英特尔架构的开放硬件平台为基础,部署了SAP基于内存的数据库和商业智能技术,提供优异的性能及数据分析速度,帮助企业用户更快地决策或创造新的业务模式及流程,从而捕获新机遇,并进一步降低业务运营成本。
英特尔数据中心及云计算业务产品市场总监贺晓东认为,数据处理需要朝着更快、支持更大的数据量和更高的性价比发展。“英特尔用至强E5和E7来提供对数据分析生命周期的支撑。首先是对核心业务系统、数据库业务数据的收集,如传统的CRM、ERP等,至强E7可为用户提供一个可靠的、稳定的、可服务的平台来满足用户的需求。对于数据进一步的抽取、梳理、存档,以及进行深度挖掘分析,这时需要可弹性扩充的平台,而E5可提供这样的平台。最后对于结果的呈现,可通过台式机、平板甚至手机,形成智能的可视化报告,英特尔的产品线从性能、可扩展性方面都可提供支持。”
据贺晓东介绍,大数据实时分析平台是英特尔中国和SAP中国共同研发完成的,在英特尔的云创新中心,两家公司的团队搭建了HANA加Hadoop测试平台和环境,并做了调优。贺晓东说,用户可以带着自己的数据到这里进行测试,并能跟SAP和英特尔的架构师一起制定一个优化方案和测试计划,以缩短部署时间,并降低前期的成本。
SAP公司数据库及技术平台部售前总监宋一平说:“SAP一直在聆听企业用户在大数据应用方面的需求和困难,并对自身产品和技术不断进行相应的优化与改进,使之能够符合企业用户日益提升的在计算性能与大数据实时分析方面的需求。”宋一平说,SAP中国与英特尔就大数据实时分析平台合作了一年多,利用双方共同搭建的测试环境,为许多用户解决了方案验证、性能测试等问题。
大数据分析方案范文5
【关键词】 大数据 HDFS MapReduce CIMS
一、研究背景
工业化和计算机技术的发展,使制造系统每天产生的数据量不断增加,整个制造业产生的数据量远高于其他行业[1]。面对日益复杂的制造业生产系统,通过保存其运行过程中的中间数据,并对数据进行研究,能够解决当前的系统建模手段无法解决的问题。传统的数据分析方案一般先将数据保存到关系型数据库中,然后借助联机分析、处理等手段为决策提供支持[2]。
当面对制造业的海量数据时,可能会有如下缺陷[3]:
(1)数据来自不同地区的工作站、传感器等,而且数据格式不统一,既有结构化数据,也有非结构化数据,不利于处理;
(2)联机分析处理过程中会有大量的数据移动操作,当数据量达到PB级时,大量数据移动造成的开销变得难以接受。
因此,有必要研究并实现一个能够合并存储异构数据、并且可以完成基于大数据的CIMS数据分析处理的平台。本文将Hadoop大数据技术引入到CIMS海量工业数据的监测和分析中。
二、研究现状
范剑青[4]阐述了大数据独有的特点,说明大数据提供的海量数据给统计、处理以及统计估算和检验带来的问题。Jiang 等人[5]对电子商务网站的大量商品数据进行分析处理,提出了基于Hadoop的协同过滤算法。
Duke能源公司模拟大数据解决方案,使维护专家远程观看设备和记录异常指数,甚至可以及时采取纠正操作,但还不能真正实现大数据分析和处理平台。通用电气(GE)于2013年推出其大数据分析平台,用以将云平台中的工业机器产生的海量数据转化为实时信息,此平台可以认为是第一个能够真正管理工业海量数据的平台,但是难以处理来自多个数据源的数据。美国国家仪器公司和IBM联手推出InfoSphereStreams大数据解决方案,能够以很高的数据吞吐率分析来自多个数据源的信息,但其处理带有一定的数据延时,实时性不佳。
为解决海量数据处理时的实时性问题,本文拟采用开源的Storm流处理技术,并借助类SQL和Piglatin等过程化语言扩展,以实时监控整个大数据平台。
三、大数据技术在CIMS监测与分析平台中的设计
工业应用数据在数据量上远超普通应用,其海量数据存储的要求超过了传统的关系型数据库的存储能力。另外,工业应用数据也由传统的结构化数据扩展到结构化、半结构化以及非结构化数据并存,对这些数据格式以及数据类型都存在不同的工业数据进行采集、分析和处理的方式有别于传统方式,因此需要对监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行分析。
3.1 CIMS海量数据监测与分析平台的设计
在将大数据技术应用于CIMS海量数据的监测与分析时,海量的工业数据不再存放在传统的关系型数据库,而是存放到HDFS分布式文件系统上。因此,软件结构设计要与Hadoop的HDFS文件系统相对应。
3.1.1 软件结构
本文设计的CIMS海量工业数据监测和分析平台(以下简称“平台”)采用Master-slave主从架构,Hadoop集群的NameNode节点作为监测和分析平台的管理节点,完成数据采集、数据分析等各功能的功能模块是工作节点。管理节点管理整个集群的相关信息,并维护包括节点的主机名、IP地址等机器状态。工作节点可以根据工业应用的需求进行灵活的配置,也可以动态增加或减少。
平台主要分为如下部分[6]:客户端、消息中间件、数据查询模块、数据分析模块、数据采集模块以及Hadoop集群。客户端接收用户请求,向平台发出任务请求;数据采集模块、数据查询模块以及数据分析模块是平台的功能组件,分别提供工业大数据分析流程中的对应功能[7]:数据采集模块对外提供数据的访问接口,其功能是从不同的数据源获取数据,并将这些数据存储到Hadoop的HDFS文件系统上。
数据查询模块从HDFS文件系统中查询数据的存储索引,并返回给数据分析模块;数据分析模块中实现不同的数据分析配置方法,并交由MapReduce框架分布式地实现数据分析任务。
3.1.2 系统功能模块
平台中监测和分析的数据一般都是离散数据,所以选择消息中间件作为通信管理模块,消息中间件实现平台中各个模块间的通信。
以功能节点上线为例,由于管理节点存储了所有节点的状态信息,所以为保证整个集群信息的一致性,功能节点上线时需要先向管理节点注册其信息,管理节点会向消息中间件订阅“注册”这一主题,消息中间件接收到订阅请求后会创建相应的队列,并持续监听此队列的消息情况。消息队列中的消息是以文本格式存在的,本文的消息传递方式采用XML。平台中的操作请求都会发送给任务管理模块,由其解析后,再发送给相应的功能模块执行。
数据采集模块从基于HDFS文件系统的Hbase数据库中获取来自客户端的数据,由于工业数据的采集并发量可能比较大,因此要在采集端部署大量数据库;除此之外,ETL工具负责将异构数据源的数据抽取处理进行数据清洗。Hadoop上的数据分析模块能够完成多维分析,由于MapReduce的具备很强的并行处理能力,因此分析维度的增加并不会使数据分析的开销显著增加,这无疑是传统的数据分析平台所无可比拟的。
3.1.3 数据存储方式
传统的关系型数据库不能很好的支持结构化和半结构化的数据,HDFS分布式文件系统克服了这一缺陷,将非结构化数据和结构化数据都以文件形式存放,实现了廉价而又可靠数据存储。
工业数据可能来自多个不同的数据源,平台借助中间件屏蔽了它们之间的异构性,然后将这些原本异构的数据存储到HDFS文件系统中。这种异构数据存储方式不需要昂贵的存储设备,廉价的服务器即可组成可靠的存储集群;另外,存储集群节点同时还是Hadoop集群的工作节点,提高了数据存储节点的利用率[8]。
四、大数据技术在CIMS监测与分析平台的性能优化
软件工程思想中,不能只设计软件的结构,同时要对软件进行不断优化。平台集中了多个数据来源的数据,因此平台间的数据传递吞吐量比较大;另外,平台各个组件间的网络依赖关系比较复杂,合理分配网络资源对提升平台性能有重要的影响。
系统动力学研究复杂系统的结构、功能以及动态行为模式,可以利用系统动力学的相关原理和方法,对本文设计的平台进行模拟仿真研究。
在进行实际的大数据平台仿真分析时,为搭建Hadoop集群本文配置4台服务器,其中一台作为NameNode,其他服务器作为DataNode。具体的配置信息如表1所示:
系统动力学分析软件系统的基本思路是把与系统相关的网络变量转换为因果图及流图,因果图表征了变量间的相互影响关系,流图说明了变量的反馈积累;然后利用DYNAMO方程描述变量间的关系。因果图反应了平台中的反馈回路的正负极性,表示出系统元素间基本的相互影响关系。
基于以上分析,对本文设计的平台进行系统动力学分析如下:由于平台是一个非线性时变系统,影响其性能的因素不仅包括管理节点、消息中间件、Hadoop集群等,还包含网络带宽、服务器配置等客观因素。根据系统建模目的,可以知道系统边界应该包括如下因素:用户请求数目、数据采集模块采集到的输入数据、消息中间件队列中的消息数量、消息中间件路由消息的延迟、Hadoop集群的性能等。
平台的系统边界确定后,接下来需要分析系统边界内的元素间的影响关系,以及它们之间是否有因果关系。经分析可知,用户请求的增加会导致消息中间件队列中的消息增加,而消息中间件路由消息的延迟降低会降低系统中消息传递的整体时延。
消息中间件的工作性能和系统各个模块的工作时延组成正反馈回路,说明消息中间件和系统模块是正相关的,所以平台整体性能的提升依赖于消息中间件和系统模块的合理资源配置。
消息中间件的各种配置参数,比如响应速度、吞吐量等参数对提升平台的分析性能影响很大,在优化消息中间件的各种参数后,比较本文设计的基于大数据的数据分析平台和传统的工业数据平台的性能,在同时对PB级别的工业数据进行分析时,当CPU数目相同时,响应速度的结果如表2所示:
对于不同的数据级别,两种大数据平台的处理效果如表3所示:
由结果可知,在处理相同的数据量时,在响应速度的性能上,本文设计的工业数据分析平台要优于传统的数据分析平台。
当处理不同的数据量时,随着数据量的增加,传统的大数据处理平台的处理时间也呈现显著增加,而本文设计的大数据处理平台处理时间是线性的,明显优于传统大数据处理平台。
五、总结与展望
本文首先介绍了Hadoop大数据技术,分析了其HDFS文件系统和MapReduce计算框架;
接下来对基于大数据技术的CIMS海量工业数据监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行了分析。最后利用系统动力学的原理,对影响平台性能的因素进行了研究。
与Duke能源公司模拟的大数据解决方案相比,本文设计的平台已经能够采集、分析并处理海量数据,真正意义上在工业领域引入了大数据技术;而且此平台还能够处理来自多个数据源的数据,比通用电气的大数据分析平台具备一定的优势。
参 考 文 献
[1] 韩燕波,赵卓峰.面向大规模感知数据的实时数据流处理方法及关键技术[J].计算机集成制造系统.2013,19(3):641-653.
[2] 邓华锋,刘云生,肖迎元. 分布式数据流处理系统的动态负载平衡技术[J]. 计算机科学. 2007(07)
[3] 胡茂胜.基于数据中心模式的分布式异构空间数据无缝集成技术研究[D].武汉:中国地质大学,2012.
[4] 杨林青,李湛,牟雁超等.面向大规模数据集的并行化Top-k Skyline查询算法[J].计算机科学与探索.2014, 12(26).
[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.
[6] 王黎维,黄泽谦,罗敏,彭智勇. 集成对象数据库的科学工作流服务框架中的数据跟踪[J]. 计算机学报. 2008(05)
大数据分析方案范文6
一、大数据对医院财务管理创新的重要性
大数据背景下的医院财务管理创新是指将先进的信息技术和现代化的财务管理理念相结合,通过流程梳理、优化和再造,以信息系统在财务工作中的应用为手段,以会计信息系统为基础,实现医院经营管理到运营和财务的信息集成,并进一步实现网络环境下会计核算、财务分析、流程控制、决策支持和财务监督等现代化财务管理所要求的全流程的财务管理模式、方式及各项功能,从而能够进一步实现医院财务管理数字化和网络化,并最终实现管理现代化和信息化。大数据技术可以通过分析各种医疗数据来比较各种干预措施的有效性。根据比较的效果,可以准确找出最佳治疗途径。实践证明,医疗服务方式不同使得患者的医疗成本差异巨大。通过大数据手段,可以帮助医生精准的制定出临床效果和医疗成本效益双优的治疗方法,极大地避免了过度治疗和治疗不足从而节约患者的医疗成本。
大数据医院财务管理的关键是获取、挖掘和运用财务信息。通过财务信息系统在医院财务管理中的运用,提高财务工作效率、强化财务关系、规范财务活动,从而提升财务工作价值,就是财务管理创新工作的目标所在。比如,在医疗费用分析应用中。通过分析可以准确把握各个科室的医疗费用构成,从而提高医疗费用结构的合理性、有效控制费用比例。与此同时,医院也可根据分析结果调整相关资源配置,以严格执行国家关于药品比例的规定。
二、大数据背景下医院财务管理存在的问题
随着国家医疗改革相关政策的颁布,“进一步推进医疗信息化进程”被越来越多的医院提上医院规划的议事日程,然而大数据分析技术的优越性并未在医院财务管理实际应用中充分体现。
(一)财务费用数据信息整合困难
我国大多数医院的科室间采集的海量数据相对独立,共享率极低。各自独立的医疗信息系统(如HIS)使得医院数据中心在共享、整合有效的医疗数据时变得异常困难,从而阻碍了大数据分析所需要的全面费用数据的产生。
一般情况下,医院各科室不同医务人员均有权进行各项数据的录入,录入的数据质量主要取决于操作人员的熟练程度和工作责任心。另外,数据采集工作量的多少也会影响数据质量。例如在数据采集量大的服务窗口,会发生医务人员因为忙乱紧张而导致各种数据的漏输、误输的情况。大数据分析的数据来源于医院各个工作岗位每天对原始医疗数据的广泛、准确的采集。原始数据质量低下就意味着输入数据的不准确和不全面,那么建立在这些数据基础上由大数据分析所得出来的结论便是不可靠的,从而使得大数据技术的应用失去了其应有的意义。从而使得多种财务干预措施在有效性方面大打折扣,严重阻碍了大数据技术的广泛应用。
(二)医疗成本与医院创收的矛盾
多年来医院一直施行以科室为单位的财务核算制度,这种“自收自支、自负盈亏”的财务管理体制,一定程度上鼓励了科室领导的创收冲动,使得科室有权在药品的采购及定价上发挥作用。
首先,大数据分析技术倡导的提高医疗数据透明度和节约患者医疗成本都是建立在长期应用大数据分析制定科学的医院发展战略的基础上的。如果医院继续以科室为单位执行独立的财务核算制度并且一味的强调创收而忽略患者的利益,那么通过大数据分析的应用来改变医院财务收入回落这一趋势肯定难以实现。
其次,“自收自支,自负盈亏”的独立核算制度使得科室间收入差距明显拉大,依靠这种制度的科室为了维持自己的利益便不自觉的排斥大数据分析的实施和应用,使得全院的统筹规划难以落实。
长期的实践证明,现有的财务核算制度与大数据分析技术节约患者医疗成本的本质相悖,必须通过财务制度创新来扭转这一局面。
(三)大数据财务技术人才培养滞后
医疗行业大数据本身复杂、量大、变化快、花样多、潜在价值巨大,但如果不能有效利用它们,这些数据就是垃圾。医疗非结构化的财务数据必须经过语义分析使其变成可以分析的数据,然后进行数据挖掘。要想得出有价值的财务数据,就需要有大数据经验的财务人才。人才问题一直是医疗行业财务大数据应用的诸多挑战之一,因为医疗行业财务大数据的应用要求寻找既要懂得医疗财务知识,又懂得数据挖掘的新型创新人才。己经应用大数据财务分析技术的医院迫切需要建立健全共享、共长的人才培养机制,为大数据财务分析的广泛应用铺好路。没有人才的培养和积累,一切都是空谈。
三、大数据背景下医院财务管理创新的路径
(一)医疗财务管理流程的优化
大数据分析的应用使得医院在财务管理流程上的弊端逐步显现,适时对其进行改造有利于进一步促进医院财务管理走向良性发展道路。
1. 提出可行性流程改进方案,总体的设计原则是全院统一进行财务管理,包括药品、设备采购,医疗业务费用,院职工待遇等等各个方面。彻底改变以科室为结算单位的财务管理模式,为大数据分析的深入应用创造良好的条件。
2. 为了使得流程改进方案达到最佳效果,必须制定与其配套的人力资源及组织结构。完整、成功的再造方案是以改进流程为核心,医院各方面配套实施的结果。
3. 在实施中不断改进。流程再造是一个持续的过程,在执行过程中必然会遇到阻力、困难,只有根据实际情况不断进行目的性强的改善才能促进其最终达成目标。
通过实施规范、统一、高效的财务管理流程,大数据技术必将在药品定价、提高医疗数据透明度、临床决策支持系统支持、病人远程监控和档案分析等诸多方面发挥越来越明显的作用。
(二)财务管理的创新
1. 大数据分析技术的实现使得可以在评估药品实际效果之后,建立相应的规范化的药品定价流程。这样做的好处之一是制药企业必须在药品出售之后分担治疗风险,同时定价策略取决于实际治疗效果。全新的药品定价流程有利于控制医疗成本支出和节约医院的运作成本。
2. 大数据分析技术的应用可以明显提高医疗服务质量。医疗服务质量的提高是医疗过程数据透明度的明显提升的结果。医院的流程、成本、质量通过公共、公平透明的平台及时反映出医疗工作者的个人、团队绩效,这极大促进了医疗工作者的积极性,有利于提高其服务质量进而提升医疗机构的竞争力。
3. 通过部署临床决策支持系统,有效提高医疗效率和质量。临床决策支持系统有效协助医生进行医疗操作,从而降低因为错误输入等潜在错误的发生率。
4. 大数据分析技术对非结构化数据处理能力的日益增强将极大地提高决策支持系统的智能程度,使得医生把更多的精力花费在提高工作效率和科研质量上。
从长远角度来看,数据技术的应用必将帮助医疗服务提供方提高总体工作绩效,更好的控制成本,提升医院自身竞争力,为医院的持续发展打下坚实基础。
四、大数据财务技术人才培养体系的改进
首先,医院需要通过招聘来配备一些精通于统计和数学原理的财务骨干专家,他们能够建立高级分析模型,发现趋势和隐藏的模式,使大数据分析技术的真正作用在比较过程中得到充分发挥。