前言:中文期刊网精心挑选了大数据量解决方案范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
大数据量解决方案范文1
满足用户的个性化需求
中桥咨询的一份大数据调查报告显示,大部分中国用户还处于“系统整合”阶段,需要对来自企业内外部的大量数据进行收集和整理。
“为什么现在用户对大数据解决方案求贤若渴?”高国辉自问自答,“因为传统的技术和解决方案已经无法解决用户当前遇到的诸多应用难题,比如实时交易数据的处理和分析等。金融行业提出‘小核心、大’,电信运营商积极构建双活的数据中心都是从各自的实际需求出发,以应对大数据带来的新挑战。美国的某电信运营商就采用戴尔的SharePlex技术构建了双活的数据中心。”
其实,无论企业的数据量有多大,数据是结构化还是非结构化,戴尔都可以提供具有针对性的解决方案。Spansion是一家知名的制造企业,它希望通过升级现有的数据库来更好地支持其关键统计流程,从而达到提升业绩的目标。为此,它采用了戴尔的SharePlex技术对原有的Oracle数据库进行升级,不仅安全地完成了数据库的迁移,而且节省了大量资金。
“诸如此类的例子还有许多。”高国辉介绍说,“不同的用户,在大数据方面的需求不同,而且对价格的敏感度不同,这就决定了用户在选择大数据解决方案时有其‘个性化’的需求。比如,许多互联网企业十分热衷采用基于Hadoop的解决方案,就是考虑到经济性的问题。戴尔的优势就在于,可以为不同的用户提供适合其需求的大数据解决方案。”
戴尔软件事业部已成为戴尔企业级端到端解决方案的核心组成部分。具体到软件解决方案本身,戴尔也强调端到端,比如戴尔软件可以提供从移动办公管理到信息数据管理再到数据中心和云计算的全面软件解决方案。其中,信息数据管理软件就与大数据直接相关,它包括数据库管理、应用系统及数据集成,以及大数据分析等产品。
全面的软件解决方案
上文提到的SharePlex以及Boomi等就是用户比较喜欢的戴尔软件产品。高国辉举例说,无论是结构化数据还是非结构化数据,无论数据在本地还是云端,通过Booming都可以实现整合和统一管理。“在大数据方面,我们强调的是如何帮助客户实现简化。比如,通过戴尔Toad软件,可以连接不同类型的数据库,借助Boomi还可以将本地的数据库与云中的数据相结合,然后通过戴尔的商业智能套件进行分析和展示,甚至还可以基于戴尔Kitenga软件进行深度数据挖掘。”高国辉补充说。
大数据量解决方案范文2
IBM全球高级副总裁、系统与科技部(STG)总经理RodAdkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本;IBM希望通过智慧的运算,实现智慧的地球的愿景。
英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔认为,大数据本身其实是信息革命的一个新引领。在未来几年随着物联网的发展,可能会有2100亿个RFID或者集群,在我们的环境之中,如果未来的移动互联、物联网如果变成现实,我们的生活会被传感器、会被数据采集装置所拥抱,这时候数据量将更大。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。
VMware全球高级副总裁范承工认为,在过去三年当中,看到大数据的发展从无到有,市场上大家说大数据的趋势,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。
EMC的大数据和存储专家、EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。
对于大数据给云计算带来的影响,Teradata技术总监StephenBrobst表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
其实云计算与大数据的不同之处主要在于应用的不同,主要在两个方面:
大数据量解决方案范文3
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。
大数据量解决方案范文4
在大数据方面,Alpine与EMC、IBM、Oracle等厂商在交通、金融、电信、零售等领域保持着密切的合作关系。EMC虽然是Alpine的股东之一,不过也鼓励Alpine与EMC之外的其他大数据厂商合作,以中立的第三方的姿态为客户和广泛的合作伙伴提供大数据方面的支持和服务。
荣之联在云计算方面拥有比较多的成功经验,尤其是在生物云、动漫云等方面已经是国内的佼佼者。
举例来说,荣之联帮助华大基因构建了生物云,存储容量达到20PB,计算能力达到200万亿次。由于生物学方面的数据量非常庞大,而且大多数是非结构化的数据,在过去一年中,荣之联一直探索如何在生物领域提高数据处理和分析的性能,降低复杂度。在选择与Alpine合作之前,荣之联曾经对Alpine进行了大约一年的考察。荣之联的高层也亲赴美国Alpine总部参观,同时走访了很多Alpine在美国的用户。荣之联总经理张彤表示:“与Alpine合作,荣之联可以更好地在生物学领域深耕大数据市场。双方的合作是战略性的,对于扩大双方在中国大数据市场上的份额十分有益。”
Alpine首席执行官Anderson Wong表示:“荣之联一直专注于数据中心市场,拥有良好的技术基础和客户基础,并在全国拥有近20个分支机构。这有利于Alpine迅速打开中国市场,为客户提供良好的本地化服务。”
IDC的报告显示,全球信息总量每两年就会翻一番,到2020年,全球信息总量将达到25ZB。处理复杂的海量数据需要有与之对应的创新性的解决方案。
Anderson Wong介绍说:“在美国,目前有大约150万名IT经理需要直接使用大数据分析的结果。”与已经存在了30多年的传统商业智能(BI)解决方案相比,Alpine的大数据分析解决方案是一个涉及整个数据处理流程的智能化的解决方案,可以对不断变化的信息进行实时分析,从而为商业决策提供更好的支持。
在大数据领域,一体机的理念越来越流行。Anderson Wong对大数据一体机方案表示认可。他表示:“提高大数据应用的计算能力、存储能力,还是要依靠优化的集成化硬件。在大数据领域,一体机的应用是未来的一个趋势。举例来说,Oracle公司10%的数据库用户已将应用平台转到了Exadata一体机上。”
Anderson Wong表示:“Alpine与荣之联合作,一方面,可以拓展在中国的业务市场,另一方面也可以把荣之联在生物云、动漫云等云计算方面的技术和成功经验带到美国去,可谓一举两得。”
在美国,许多大型零售商、银行等在使用传统的数据仓库产品的基础上,同时还选择了Alpine的大数据产品。这是因为用户现在越来越需要能够对数据进行实时处理的、界面友好且方便使用的数据分析产品。
大数据量解决方案范文5
云计算、大数据浪潮的一个表现是,IT市场从“以计算为中心”向“以数据为中心”转变。以IDC的2012年第三季度市场分析数据为例,外部存储市场增长3.3%,服务器市场却下降4%。这是因为,云计算让廉价的X86服务器可以担当重任,“计算”的门槛便降低了。
“数据”方面的情况则是,数据量飞速增长。最近,IDC了2012数字宇宙研究报告,报告调高了对数字宇宙增长速度的预测。2010年,IDC预测到2020年,数字宇宙的规模为35ZB。在最新的报告中,这一数字变为40ZB。
2013年,我们还将看到,云计算、大数据浪潮正在引发IT厂商格局的巨变。思科公司董事长钱伯斯最近做出预言,微软、IBM、惠普、SAP、甲骨文和思科等科技巨头,5年内将有两家或3家不在名单之列。同时,EMC、VMware进一步提出软件定义数据中心的理念,将云计算的变革推向深入。
在IT产业中,EMC公司的规模并不算很大。2012年销售收入预测为216亿美元~217.5亿美元,而它在IT业界的地位超过了很多规模大的公司。EMC之所以能够引领云计算、大数据潮流,是因为公司决策层能够敏锐地洞悉行业技术趋势,从产品、技术和解决方案上提前布局。
最近,EMC公司全球11位高管从技术的角度,对2013年全球技术趋势进行了预测。这11位高管分别来自信息安全、信息智能、企业存储、闪存产品、备份恢复、大数据分析等部门。他们认为云基础架构和大数据分析处理的最新需求趋势是:
由于软件智能、跨域基础架构管理软件包以及对象存储开放接口技术的广泛采用,混合云模式将变成现实;
大数据存储将催生新型应用,IT创新和变化的速度加快;
提供单点式工具的大数据初创公司前景不乐观,客户需要集成式解决方案;
信息安全需要基于大数据分析的深度防御战略;
企业级存储将更多采用行业标准组件、企业级闪存和领先的驱动器技术;
闪存将成为常态产品,相变存储器将迎来投资热潮;
统一存储方面,从服务器、网络到存储,将普遍采用闪存技术;
“重复数据删除技术+磁盘备份”的模式将进一步替代磁带备份,备份恢复朝着“IT即服务”方向发展;
企业内容管理方面,基于云服务模式、以内容为中心的解决方案将达到质变点;
由于人们越来越多地采用云和大数据,企业在IT改造中,人、流程和技术的重要性凸显。
大数据量解决方案范文6
图书馆面临的数据问题
正如数字图书馆、Library2.0、云计算等技术出现之初,图书情报界出现很多质疑声音一样,图书情报领域研究大数据的尝试也不可避免地遇到质疑。为了推动图书情报领域里的大数据技术与提升知识服务能力、降低知识服务成本,有必要对大数据时代,图书馆所面临的问题及机遇进行探究。
在思想观念上,相较于图书馆所拥有的不断增长的数据量而言,能够分析的数据比例在不断降低。如何充分把握大数据所带来的技术优势与数据分析方法,有效提高图书馆能够分析的数据比例,加强知识服务的智能辅助决策能力则十分重要。
从图书情报领域数据分析和应用现状来看,现在的图书馆人员在面对一些“可能是机会的数据”时,并没有清醒的认识,缺乏将数据转换成知识的思想意识及非结构化数据持久化处理及深度分析的技术及解决方案。
除此之外,最终的问题应该回到图书馆相关人员如何认识、管理和分析其所拥有的各种结构化、半结构化以及非结构化数据,如何建立软硬件一体化集成的大数据综合解决方案,数据及知识获取、存储、组织、分析以及决策的大数据解决方案等则愈发关键。
图书馆大数据应用优势
图书馆对于大数据而言,通常存在三种角色:大数据的使用者或受益者、大数据的提供者或开发者及大数据的运营者或维护者。可以了解到,当前几乎所有大数据技术及产生的相关服务都可以在图书情报领域得到应用,特别是能够带来一些难能可贵的新型知识服务帮助。例如,可以帮助图书馆建立各类知识服务及业务建设的风险模型。即图书馆的各类风险评估模型:数字图书馆信息安全风险评估模型、信息资源采购及应用评估风险模型、图书出版的收益与风险模型、知识产权风险评估模型等,都可以通过大数据分析、预测及智能辅助决策技术建立具有自身机构特色的、科学的及实用的风险模型。
另外,图书馆用户流失分析及价值分析也涉及到大数据的应用。OCLC 的《Research Libraries,Risks,and Systemic Change》研究报告指出,价值质疑、技术障碍、人员队伍无法适应未来挑战等一系列重大问题已经严重困扰着图书馆、高校教职工,并逐步弱化了图书馆的存在价值,造成用户流失异常严重。大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生的事件进行分析和预测,从而应对图书馆未来所面对的生存危机有所预警。
大数据可以帮助图书馆建立新型知识服务引擎。技术引擎是图书馆信息服务的技术核心,如何利用大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书情报领域信息技术研究的主要内容。新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体( 包括用户及资源) 行为智能分析引擎、用户知识需求预测引擎及多维度信息资源获取、组织、分析及决策引擎等。
例如美国 Hiptype公司用大数据分析技术来分析电子书读者阅读习惯和喜好,这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体( 包括用户及资源) 行为智能分析引擎。可以通过分析资源( 包括软硬件资源、网络资源、信息资源、服务资源及知识资源等) 的状况来预测可能的故障,或对于资源突然的波动可以帮助图书馆制定应对策略。例如网络攻击、风暴、垃圾资源过滤、软硬件资源故障、信息服务需求障碍及知识资源波动等。大数据可以帮助建立更加灵活的、智能的网络化信息资源智能组合方式。图书馆可以灵活、方便地从已有结构化及非结构化数据资源中抓取有用的知识、关系、模式、症状用于新的知识服务方式。众所周知,传感器数据也是未来大数据的主要来源之一,对图书馆自然环境、人文环境及技术环境数据多维度大数据的智能分析及智能辅助决策,进而实现机构管理、发展及服务的预测、优化和监管。
图书馆未来服务方向
大数据伴随着云计算、移动互联网、物联网等信息技术的成熟而迅速发展,并且越来越受到业界和学术界的关注,相较于过去几十年数字图书馆的研究与发展,大数据技术在未来几年将会给云图书馆带来革命性、持续性和创造性的变化,会对我们所熟知的知识服务能力和知识服务机制产生重大的颠覆和创新,也对现有的技术和方法提出更高的要求,而这一切可能会超出我们正常期待的范围。
业界普遍认为,未来几年,在大数据获取、存储、组织、分析和决策过程中,对应的体系架构、计算模型、数据模型、智能辅助决策模型、性能优化模型及知识服务模型等基础理论方面,将会出现更多的研究成果。毫无疑问,大数据技术是图书情报领域无法逃避的未来技术发展形态,也为图书馆实现知识服务模式的转变、知识管理模式的突破、合作交互型知识、创新模式的完善、知识服务流程的动态监测等业务需求提供了新的思路与解决方案。
目前,尽管大数据技术的研究还处于起步阶段,依然还面临着许多问题和争议,但随着市场的发展和信息技术的不断成熟,围绕大数据的问题将逐渐得到解决。可以说,大数据技术是云图书馆在未来一段时间内的亟待完善和解决的关键问题之一,该领域的相关问题也会成为图书情报领域研究的重点内容之一。大数据技术的发展、成熟与应用更需要业界的共同努力。
相关链接
目前大数据还存在几大核心问题亟待研究解决。
第一,关系数据库和MapReduce技术有机融合的研究。如何依据不同的大数据处理业务需求,设计同时具备两种技术优势的技术架构,在对关系数据库更深层次了解的基础上,深入分析MapReduce编程模型内在的局限性和并行计算模型。
第二,对结构化数据和非结构化数据更加复杂的或更大规模的分析。大规模社会计算、大规模社交网络、时间序列分析、大规模图分析及更细粒度的仿真等技术仍不够成熟,需要花费更多时间、精力去探讨。
第三,大数据获取、存储、组织、分析和决策操作的可视化接口。如何较好地实现大数据处理的各个阶段的可视化、智能化、及个性化的展示和操作,尤其是多维数据操作及决策结果评估的可视化的智能展示。