数据机房解决方案范例6篇

前言:中文期刊网精心挑选了数据机房解决方案范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据机房解决方案

数据机房解决方案范文1

针对基金行业的发展趋势及各基金公司的信息化现状,广州安正软件科技有限公司(简称广州安正,英文名称BusinessMatrix)经过对基金行业业务的提炼,融合数据仓库、商业智能等技术,开发了基金行业数据中心解决方案,将基金公司累积的大量离散数据资产,整合形成统一的数据中心,再基于可信、灵活的数据中心,实现数据知识化,完成数据价值链建设,从而辅助日常运作,支撑管理决策。BusinessMatrix基金行业数据中心解决方案包括以下内容:

整合数据,搭建基础数据中心

数据中心的首要任务是整合TA、直销、呼叫中心、估值、投资交易等系统数据,通过数据建模,经历一系列的数据清洗、转换过程,整合形成企业统一数据中心。

数据中心通过对企业层面数据的统一和规范,利用ETL工具对“脏数据”进行处理,确保数据的准确性、完整性和一致性;同时,通过数据仓库的数据建模技术和数据分层技术,支持业务的各种数据和信息需要,以应对未来需求的变更与扩展,保证数据的灵活性与高扩展性。

搭建信息应用体系

数据中心利用BI工具开发、生成一系列业务报表、OLAP分析、仪表盘等信息资源,为用户日常业务提供支持。生成的各种报表通过信息门户集中,实现了便利的信息分类浏览功能。

通过BI前端工具对数据的展现加工,融合管理思维、模型与方法,面向业务实现数据知识化,便捷企业管理者对业务的洞察、分析与预测,可信的数据支撑可靠的分析与决策。

各种类型的信息资源最终被信息服务门户分类管理,并实现向业务用户的快捷传递,包括系统查阅、邮件、短信、移动应用等多种方式,还可与OA等业务系统整合,实现信息在OA等系统上的,方便业务用户的使用。

建立信息资源管理平台

基金行业数据中心需从多个业务系统数据源整合数据,经过一系列的清洗、转换过程,并通过多种前端应用工具将数据转换为报表、分析等应用。整个过程中,涉及的业务系统众多,数据结构复杂,如何确保数据中心的稳健运行,并在问题发生时及时地解决问题,以满足业务对信息的需要,成为数据中心不可回避的一个重要问题;同时,数据中心涉及源系统、数据仓库、数据集市、报表、分析、仪表盘等方方面面的数据相关资产,如何管理这些资产,确保这些数据资产更好地为业务起到支撑作用,是数据中心面临的又一个重要课题。

广州安正在解决方案中整合了自主开发的信息资源管理系统,整体地管理企业所有数据相关的资产,并管理数据流动的过程,全面管理了技术元数据、业务元数据以及过程元数据。同时,信息资源管理系统全面管理与监控数据中心的运行,确保数据价值链的高可用性。

数据机房解决方案范文2

关键词:油田;数据仓库;数据整合;联机分析;数据挖掘;综合应用

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 11-0000-01

Henan Oilfield Data Warehouse Solutions Technology Practice

Li Heng

(Henan Oilfield Information Center,Nanyang473132,China)

Abstract:Paper by which data storage solutions of several key technology for development of programming practice for data management,technology and application of the key features and integrated enterprise development environment,and the web application database technology application,made to build an oil field of data that the application.

Keywords:Oil;Data warehouse;Data integration;Online analysis;Data mining;Comprehensive application

一、油田开发数据仓库解决方案技术实践的目的

数据仓库是近几年来出现的一项新技术,目前,数据仓库技术在理论研究上有了较大的进展,围绕数据仓库解决方案的软件产品也如雨后春笋般出现。但油田开发有其很强的专业领域特征,并不是照搬照抄能做到的。因为数据仓库不是一个产品,虽然需要一定的软件产品作支持,但数据仓库本身必须根据企业自身的应用特点来构建。

经过多次调研分析和对比多家油田数据中心建设解决方案,我们认为河南油田数据中心建设的总体指导思想是要建设以数据整合和数据挖掘为核心的综合性数据仓库,在股份公司勘探与生产分公司和油田分公司建设现代化的数据管理与服务体系,形成集成的数据管理平台,使得所有专业数据得到科学的管理。

二、油田开发数据仓库解决方案技术实践的总体设计

该平台主要内容包括:

1.数据需求者根据需求,通过虚拟数据仓库抽取出所需要的数据建立数据集市。

2.根据以建立的数据集市提供用户数据挖掘、高级检索、OLAP所需的相关工具支持。

3.数据集市还包含地震、测井等大体数据。

三、技术关键

(一)关联模型

油田业务数据分别存放在不同数据库的各类业务表或文档中,这些业务表目前在各类应用系统中往往只能做到简单列举,无法揭示各类数据之间的联系,也难于得到综合的数据报表。虚拟数据仓库的关联模型就是要在各类业务表之间通过关键字段建立某种形式的关联,从而为用户综合的数据查询结果。

(二)元数据管理

元数据的定义一般泛称为:Data about data(管理数据的数据)。元数据的具体定义和应用随学科不同和应用领域不同而异。在石油领域,元数据是描述一个具体的油田数据库数据资源对象(数据集或数据),并能对这个对象进行定位管理,且有助于它的发现与获取的数据。

在具体实施中却存在着一系列难点问题需要解决,例如:

1.在石油领域里需要定义怎样的数据格式?

2.元数据的规模有多大?

3.如何将元数据的定义与数据源进行抽取、过滤、转换、映射关联在一起,从而实现元数据定义的自动化?

4.如何为元数据管理提供完整易用的操作界面(甚至是图形化的界面)?

考虑元数据在数据仓库中的作用,我们着重对元数据进行了内容设计、结构设计与编码设计。我们设计新的、科学的“源数据库―元数据库―实施项目库―结果数据视图”多层数据库架构,并采用界面定制、模板定制、计算公式定制等多项技术,提高系统的适应性和生命力。

(三)数据集市模型

采用雪花型的模式,实体表中存放着与石油相关指标数据,维度表主要有地区、时间和指标等维度等,另外地区维又和行业、隶属关系等动态维度进行关联。在这种数据集市模型下,可进行地区、时间和指标三个方向的任意组合查询。可实现跨年度、跨专业的查询和分析。

(四)数据存储架构

服务器平台的数据存储采用NAS模式,专业数据库应用平台采用SAN模式,分阶段改善现有网络的数据服务水平,提高网络系统运行的稳定性。

(五)联机分析

我们在技术实践中借用了sqlserver olap services联机分析服务器,利用控件技术开发了浏览器上应用的客户端工具,以摆脱服务器运行环境的限制。

联机分析工具仅是一种工具软件,而真正给提供给用户使用时必须建立起应用模型,即多维数据集,这是需要进行一定的需求分析工作的,而且是在数据仓库(集市)建立成型的基础上进行的。

(六)数据挖掘

OLAP局限在对数据的统计分析处理,而数据挖掘是通过某种算法,对数据仓库中的数据进行学习,获得隐藏在数据内部的内在关系和相关知识,用于分析、预测和描述。目前已经比较成熟的数据挖掘算法有粗集方法、遗传算法、决策树方法、神经网络方法、公式发现、模糊论方法等。我们在技术实践中开发应用了聚集、决策树、神经网络的挖掘算法。主要是应用Matlab、SQLServer等提供的功能或开发接口进行的软件开发实践。

三、结论与建议

石油企业成功的一个关键要素是它们所拥有的知识资源。如何管理好这些知识是竞争的一个关键。数据仓库解决方案的应用在油田开发领域有着广阔的扩展空间。通过我们的技术实践过程,我认为,作为油田这样一个大型企业,完全可以结合油田开发生产实际情况,开发出具有石油专业领域特色的数据仓库应用。最终构建一个统一的、标准的、集成的、能够包容各业务流程的数据中心体系架构和数据交换和共享平台。

参考文献:

[1]蔡自兴,徐光v.人工智能及其应用[J].清华大学出版社

[2]胜利油田编制.胜利油田信息化框架构建研究.2003,9

数据机房解决方案范文3

 

 此外,很多这样的应用都有很严格的功率预算,因为它们采用电池供电,或者无法耐受自身电子元件发热导致的额外升温。因此,需要用到可以在温度范围内保持高精度,并且可以轻松用于各种场景的低功耗模数转换器(ADC)信号链。这类信号链见图1,该图描绘了一个井下钻探仪器。

 

虽然额定温度为175℃的商用IC数量依然较少,但近年来这一数量正在增加,尤其是诸如信号调理和数据转换等核心功能。这便促使电子工程师快速可靠地设计用于高温应用的产品,并完成过去无法实现的性能。虽然很多这类IC在温度范围内具有良好的特性化,但也仅限于该器件的功能。显然,这些元件缺少电路级信息,使其无法在现实系统中实现极佳性能。

 

本文中,我们提供了一个新的高温数据采集参考设计,该设计在室温至175℃温度范围内进行特征化。该电路旨在提供一个完整的数据采集电路构建块,可获取模拟传感器输入、对其进行调理,并将其特征化为SPI串行数据流。该设计功能非常丰富,可用作单通道应用,也可扩展为多通道同步采样应用。由于认识到低功耗的重要性,该ADC的功耗与采样速率成线性比例关系。

 

该ADC还可由基准电压源直接供电,无须额外的电源轨,从而不存在功率转换相关的低效率。这款参考设计是现成的,可方便设计人员进行测试,包含全部原理图、物料清单、PCB布局图和测试软件。

 

电路概览

 

图1所示电路是一个1 6位、600kSPS逐次逼近型模数转换器系统,其所用器件的额定温度、特性测试温度和性能保证温度为175℃。很多恶劣环境应用都采用电池供电,因此该信号链针对低功耗而设计,同时仍然保持高性能。

 

本电路使用低功耗(600kSPS时为4.65mW)、耐高温PulSAR ADCAD7981,它直接从耐高温、低功耗运算放大器AD8634驱动。AD7981ADC需要2.4-5.1V的外部基准电压源,本应用选择的基准电压源为微功耗2.5V精密基准源ADR225,后者也通过了高温工作认证,并具有非常低的静态电流(210℃时最大值为60μA)。本设计中的所有IC封装都是专门针对高温环境而设计的,包括单金属线焊。

 

模数转换器

 

本电路的核心是16位、低功耗、单电源ADC AD7981,它采用逐次逼近架构,最高支持600kSPS的采样速率。如图2所示,AD7981使用两个电源引脚:内核电源(VDD)和数字输入/输出接口电源(VIO)。VIO引脚可以与1.8~5.OV的任何逻辑直接接口。VDD和VIO引脚也可以连在一起以节省系统所需的电源数量,并且它们与电源时序无关。图3给出了连接示意图。

 

AD7981在600 kSPS时功耗典型值仅为4.65mW,并能在两次转换之间自动关断,以节省功耗。因此,功耗与采样速率成线性比例关系,使得该ADC对高低采样速率——甚至低至数Hz——均适合,并且可实现非常低的功耗,支持电池供电系统。此外,可以使用过采样技术来提高低速信号的有效分辨率。

 

AD7981有一个伪差分模拟输入结构,可对IN+与IN-输入之间的真差分信号进行采样,并抑制这两个输入共有的信号。IN+输入支持OV至VREF的单极性、单端输入信号,IN-输入的范围受限,为GND至lOOmV。AD7981的伪差分输入简化了ADC驱动器要求并降低了功耗。AD7981采用10引脚MSOP封装,额定温度为175℃,

 

ADC驱动器

 

AD7981的输入可直接从低阻抗信号源驱动;然而,高源阻抗会显著降低性能,尤其是总谐波失真(THD)。因此,推荐使用ADC驱动器或运算放大器(如AD8634)来驱动AD7981输入,如图4所示。在采集时间开始时,开关闭合,容性DAC在ADC输入端注入一个电压毛刺(反冲)。ADC驱动器帮助此反冲稳定下来,并将其与信号源相隔离。

 

低功耗(ImA/放大器)双通道精密运算放大器AD8634适合此任务,因为其出色的直流和交流特性对传感器信号调理和信号链的其他部分非常有利。虽然AD8634具有轨到轨输出,但输入要求从正供电轨到负供电轨具有300mV裕量。这就使得负电源成为必要,所选负电源为2.5V。AD8634提供额定温度为175℃的8引脚SOIC封装和额定温度为210℃的8引脚FLATPACK封装。

 

ADC驱动器与AD7981之间的RC滤波器衰减AD7981输入端注入的反冲,并限制进入此输入端的噪声带宽。不过,过大的限带可能会增加建立时间和失真。因此,为该滤波器找到最优RC值很重要。其计算主要基于输入频率和吞吐速率。

 

由AD7981数据手册可知,内部采样电容CIN=30pF且tCONV=900ns,因此正如所描述的,对于lOkHz输入信号而言,假定ADC工作在600kSPS且CFXT=2.7nF,则用于2.5V基准电压源的电压步进为:

 

因此,在16位处建立至1/2 LSB所需的时间常数数量为: AD7981的采集时间为:

 

通过下式可计算RC滤波器的带宽:

 

这是一个理论值,其一阶近似应当在实验室中进行验证。通过测试可知最优值为R EXT=85 Q和CEXT=2. 7nF(f_3dB_693. 48kHz),此时在高达l75℃的扩展温度范围内具有出色的性能。

 

在参考设计中,ADC驱动器采用单位增益缓冲器配置。增加ADC驱动器增益会降低驱动器带宽,延长建立时间。这种情况下可能需要降低ADC吞吐速率,或者在增益级之后再使用一个缓冲器作为驱动器。

 

基准电压源

 

ADR225 2.5V基准电压源在时210℃仅消耗最大60μA的静态电流,并具有典型值40×10-6/℃的超低漂移特性,因而非常适合用于该低功耗数据采集电路。该器件的初始精度为±0.4%,可在3.3-16V的宽电源范围内工作。 像其他SAR ADC-样,AD7981的基准电压输入具有动态输入阻抗,因此必须利用低阻抗源驱动,REF引脚与GND之间应有效去耦,如图5所示。除了ADC驱动器应用,AD8634同样适合用作基准电压缓冲器。

 

使用基准电压缓冲器的另一个好处是,基准电压输出端噪声可通过增加一个低通RC滤波器来进一步降低,如图5所示。在该电路中,49.9Ω电阻和47μ电容提供大约67Hz的截止频率。

 

转换期间,AD7981基准电压输入端可能出现高达2.5mA的电流尖峰。在尽可能靠近基准电压输入端的地方放置一个大容值储能电容,以便提供该电流并使基准电压输入端噪声保持较低水平。一般而言,采用低ESR-10μ或更高——陶瓷电容,但对于高温应用来说会有问题,因为缺少可用的高数值、高温陶瓷电容。因此,选择一个低ESR、47μF钽电容,其对电路性能的影响极小。

 

数字接口

 

AD7981提供一个兼容SPI、QSPI和其他数字主机的灵活串行数字接口。该接口既可配置为简单的3线模式以实现最少的I/O数,也可配置为4线模式以提供链回读和繁忙指示选项。4线模式还支持CNV(转换输入)的独立回读时序,使得多个转换器可实现同步采样。

 

本参考设计使用的PMOD兼容接口实现了简单的3线模式,SDI接高电平VIO。VIO电压是由SDPPMOD转接板从外部提供。转接板将参考设计板与ADI系统开发平台(SDP)板相连,并可通过USB连接PC,以便运行软件、评估性能。

 

电源

 

本参考设计的+5V和-2.5V供电轨需要外部低噪声电源。由于AD7981是低功耗器件,因此可通过基准电压缓冲器直接供电。这样便不再需要额外的供电轨——节省电源和电路板空间。通过基准电压缓冲器为ADC供电的正确配置如图6所示。如果逻辑电平兼容,那么还可以使用VIO。就参考设计板而言,VIO通过PMOD兼容接口由外部供电,以实现最高的灵活性。

 

IC封装和可靠性

 

ADI公司高温系列中的器件要经历特殊的工艺流程,包括设计、特性测试、可靠性认证和生产测试。专门针对极端温度设计特殊封装是该流程的一部分。本电路中的175℃塑料封装采用一种特殊材料。

 

耐高温封装的一个主要失效机制是焊线与焊垫界面失效,尤其是金(Au)和铝(Al)混合时(塑料封装通常如此)。高温会加速AuAl金属间化合物的生长。正是这些金属间化合物引起焊接失效,如易脆焊接和空洞等,这些故障可能在几百小时之后就会发生,如图7所示。

 

为了避免失效,ADI公司利用焊盘金属化(OPM)工艺产生一个金焊垫表面以供金焊线连接。这种单金属系统不会形成金属间化合物,经过195℃、6000小时的浸泡式认证测试,已被证明非常可靠,如图8所示。

 

虽然ADI公司已证明焊接在195℃时仍然可靠,但受限于塑封材料的玻璃转化温度,塑料封装的额定最高工作温度仅为175℃。除了本电路所用的额定175℃产品,还有采用陶瓷FLATPACK封装的额定210℃型号可用。同时有已知良品裸片(KGD)可供需要定制封装的系统使用。无源元件

 

应当选择耐高温的无源元件。本设计使用175℃以上的薄膜型低TCR电阻。COG/NPO电容容值较低常用于滤波器和去耦应用,其温度系数非常平坦。耐高温钽电容有比陶瓷电容更大的容值,常用于电源滤波。本电路板所用SMA连接器的额定温度为165℃,因此,在高温下进行长时间测试时,应当将其移除。同样,0.1英寸接头连接器(J2和P3)上的绝缘材料在高温时只能持续较短时间,因而在长时间高温测试中也应当予以移除。对于生产组装而言,有多个供应商提供用于HT额定连接器的多个选项,例如MicroD类连接器。

 

PCB布局和装配

 

在本电路的PCB设计中,模拟信号和数字接口位于ADC的相对两侧,ADC IC之下或模拟信号路径附近无开关信号。这种设计可以最大程度地降低耦合到ADC芯片和辅助模拟信号链中的噪声。AD7981的所有模拟信号位于左侧,所有数字信号位于右侧,这种引脚排列可以简化设计。基准电压输入REF具有动态输入阻抗,应当用极小的寄生电感去耦,为此须将基准电压去耦电容放在尽量靠近REF和GND引脚的地方,并用低阻抗的宽走线连接该引脚。本电路板的元器件故意全都放在正面,以方便从背面加热进行温度测试。完整的组件如图9所示。

 

针对高温电路,应当采用特殊电路材料和装配技术来确保可靠性。FR4是PCB叠层常用的材料,但商用FR4的典型玻璃转化温度约为140℃。超过140℃时,PCB便开始破裂、分层,并对元器件造成压力。高温装配广泛使用的替代材料是聚酰亚胺,其典型玻璃转化温度大于240℃。本设计使用4层聚酰亚胺PCB。

 

PCB表面也需要注意,特别是配合含锡的焊料使用时,因为这种焊料易于与铜走线形成铜金属间化合物。常常采用镍金表面处理,其中镍提供一个壁垒,金则为接头焊接提供一个良好的表面。此外,应当使用高熔点焊料,熔点与系统最高工作温度之间应有合适的裕量。本装配选择SAC305无铅焊料,其熔点为217℃,相对于175℃的最高工作温度有42℃的裕量。

 

性能预期

 

采用lkHz输入正弦信号和5V基准电压时,AD7981的额定SNR典型值为9ldB。然而,当使用较低基准电压(例如2.5V,低功耗/低电压系统常常如此),SNR性能会有所下降。我们可以根据电路中使用的元件规格计算理论SNR。由AD8634放大器数据手册可知,其输入电压噪声密度为4.2nV/ ,电流噪声密度为0.6pA/ 。由于缓冲器配置中的AD8634噪声增益为1,并且假定电流噪声计算时可忽略串联输入电阻,则AD8634的等效输出噪声贡献为:

 

RC滤波( )器之后的ADC输入端总积分噪声为: AD7981的均方根噪声可根据数据手册中的2.5V基准电压源典型信噪比(SNR,86dB)计算得到。

 

整个数据采集系统的总均方根噪声可通过AD8634和AD7981噪声源的方和根(RSS)计算:

 

因此,室温(25℃)时的数据采集系统理论SNR可根据下式近似计算:

 

测试结果

 

电路的交流性能在25~185℃温度范围内进行评估。使用低失真信号发生器对性能进行特性化很重要。本测试使用Audio Precision SYS-2522。为了便于在烤箱中测试,使用了延长线,以便仅有参考设计电路暴露在高温下。测试设置的功能框图如图10所不。

 

由前文设置中的计算可知,室温下期望能达到大约86dB的SNR。该值与我们在室温下测出的86.2dB SNR相当,如图11中的FFT摘要所示。

 

评估电路温度性能时,175℃时的SNR性能仅降低至约84dB,如图12所示。THD仍然优于-100dB,如图13所示。本电路在175℃时的FFT摘要如图14所示。

 

小结

 

本文中,提供了一个新的高温数据采集参考设计,表述了室温至175℃温度范围内的特性。该电路是一个完整的低功耗(<20mW)数据采集电路构建块,可获取模拟传感器输入、对其进行调理,并将其数字化为SPI串行数据流。这款参考设计现成可用,可方便设计人员进行测试,包含全部原理图、物料清单、PCB布局图、测试软件和文档。

数据机房解决方案范文4

1. 异构数据库联合使用与分布式对象技术的背景、发展历史及目标

网络计算模式已得到广泛应用,Internet技术使全球范围信息传递易于实现,直到近期发展起来的电子商务也倍受业界关注。在企业内部使用Internet技术建立的Intranet使企业能在信息基础上实现现代化运营。在上述应用中,网络是支撑,信息源是基础,处理与应用是精髓。就信息源而论,含有多种数据库系统是客观现实,因历史原因,有层次、网状及关系数据库系统,还有近几年发展起来的对象-关系及面向对象的数据库系统。对一个大的企业,各部门使用不同的数据库系统经常出现,不是人们刻意追求异构数据库,而是现实中难以避免。即使是一个经过信息规划的企业部门,因时间推移,人迁,以及数据库技术的发展和数据库市场的变化,都可能造成异构数据库的局面。各数据库公司的技术都在发展,也造成这些公司不同版本的数据库系统并存。因此在网络环境下,异构数据库存在,要求异构数据库联合使用的要求会长期存在下去。

对用户而言,希望屏蔽掉各种层次的异构特性,不必知道各物理数据库系统的知识,不必自己去进行数据转换和汇总结果,而简便的全局查询得到一个综合结果,这就是异构数据库联合使用技术主要的研究内容。

:7000多字 参考文献

200元

备注:此文版权归本站所有;。

数据机房解决方案范文5

【关键词】电信数据平台 Lambda架构 离线批处理 实时计算

1 引言

电信数据平台承载着电信网中各类用户数据的收集过滤,存储聚合,分析挖掘等功能,为企业对于用户的各种决策提供一定数据支撑。同时,电信数据平台也通过收集相关的信令数据,监控电信网的实际运行情况,是企业的核心系统之一。

传统电信数据平台由数据仓库和关系型数据库构成。数据采集端收集各种信息,如用户状态,用户位置,终端日志,网络状态等一系列异构的数据信息,并统一汇总到数据仓库。数据仓库中存储有全量信息,通过运行各种ETL程序,将庞大的数据仓库的信息分门别类转移到例如Oracle,DB2,Sybase等各类关系型数据库的各个表中。数据分析人员一般通过类似于商业智能的平台,通过撰写SQL语句,提取关系型数据库中的有用数据,来简单的分析各类问题。传统的电信数据平台,具有集中式,造价昂贵,部署和运维复杂等特点。在相当长一段时期内,由于单位时间生成的数据规模没有显著增加,没有到达数据库的使用瓶颈,传统的电信数据平台可以较好的应对各种需求。但随着单位时间内,采集端生成的数据飞速膨胀,每天生成数十亿乃至上百亿的各类异构数据需要存储和分析,传统的电信数据平台逐渐暴露了其不足之处。

传统的电信数据平台组织方案有以下两个方面的不足需要改进。首先是对于海量数据存储和查询较为困难。中心型的关系型数据库难以承受较高的用户查询负载,并且关系型数据库的成本开销较为昂贵,并不支持简单的线性扩展,若采用数据库分库和分表等辅助手段,则整个数据平台的复杂性有较大提升并且难以维护,所以传统的电信数据平台不能应对海量数据的存储和查询。第二点不足是实时性不足。一般而言,数据在数据仓库构建就需要很长的数据,由数据仓库经ETL程序归并到各类数据库同样耗时巨大且有很多冗余的处理,同时批处理系统分析数据的延时在小时级别以上,随着越来越多数据采集端的部署,数据产生速度越来越快,规模越来越大,实时对数据进行分析,并把结果进行可视化,对于实时监控的需求越来越重要,传统的电信数据平台延时较大,不能够适应数据实时性的要求。

针对以上分析的不足,本文提出一种基于Lambda架构的电信数据平台解决方案。Lambda架构,是Nathan Marz提出的一个实时大数据处理框架,具备高吞吐量和低延时的特点。本文结合Lambda架构,阐述了新型电信数据平台的基本构成和各层的职责,同时也具体介绍了各层使用的互联网开源大数据项目,描述了整个工作流程和数据流向,体现了新型电信数据平台具备的高吞吐量,低延时,高容错性的特点,解决了传统电信数据平台难以应对海量数据存储和查询,以及不能实时分析的不足。为电信网各数据平台在新需求下的转型提供了一个良好的尝试。

2 相关技术介绍

2.1 Lambda架构

Lambda架构是由Nathan Marz提出的一种大数据处理架构,结合了批处理计算和实时计算的特点,融合了不可变性,读写分离和复杂性隔离等一系列架构原则,具备高容错、低延时和可扩展等特点。一般分为批处理层,服务层和速度层,如图1所示。

批处理层对全量数据进行迭代计算,全量数据可以认为是一个不可变的持续增长的数据集。批处理层对于全量数据进行批处理计算,得到批处理视图,存储到服务层。服务层可以根据查询条件,对批处理视图的结果进行再次合并等处理。批处理层通过定时的重复批处理视图的更新,可以保证数据的高容错性,但是计算时间一般较长,延时较大,适用于全局规模的分析和预计算。批处理层一般由大数据批处理框架来实现。

服务层的任务是对于用户查询提供支持。它根据查询条件,随机访问视图,组合批处理视图和实时视图的结果,最终反馈给用户。服务层一般由NoSql数据库实现,但是为了降低复杂性,不允许对视图结果进行随机写操作,仅提供对于批处理视图和实时视图的加载和随机读取操作。

速度层负责实时计算增量数据。由于批处理计算比较耗时,随时而来的实时增量数据等不到有效计算,通过引入速度层解决这一问题。速度层只处理最近的数据,采用快速,增量的算法,通过实时计算,维护较小规模的实时视图,是对批处理视图更新是较高延时的一种补充。同时,由于全量数据计算的准确性,允许批处理视图最终覆盖实时视图。速度层一般由消息系统随时拉取新增的数据,并通过实时流式计算框架完成实时视图的生成。

2.2 Hadoop

Hadoop是一个处理海量数据的分布式系统基础架构。Hadoop 2.0架构由HDFS,YARN和MapReduce构成。HDFS是Hadoop中的分布式文件系统,它将海量数据存储于DataNode中,由NameNode维护各DataNode的元数据信息。YARN是Hadoop中的资源管理系统,监控每个节点,并协调MapReduce任务的分配。MapReduce是Hadoop中分布式数据处理框架,它将数据处理分为两个阶段,即Map和Reduce两个阶段,提供批处理并行计算的框架。对于Map阶段,对输入数据应用Map Function,执行结果为Key和Value的元组,相同Key的元组通过执行Reduce Function进行合并,最终生成结果。Hadoop有很丰富的其他组件支持各种需求的分析,如Pig,Hive,Impala等,这些高级工具可以自动将高级原语翻译为MapReduce任务执行,有更好的使用体验。本文,Hadoop作为Lambda架构中批处理层实现,全量数据存储在HDFS上,应用MapReduce计算,生成批处理视图。

3 结束语

本文结合Nathan Marz提出的Lambda架构和电信数据的特点,提出了基于Lambda架构的电信数据平台解决方案。本方案既可以通过全量数据的定期迭代计算,离线分析电信网收集的相关数据,生成批量视图,同时也可以通过流式计算框架,对增量数据进行实时分析,生成增量视图。同时,将批量视图和增量视图聚合,一起组合为查询服务,使得平台既有实时系统的吞吐量,有具备离线系统的完备性。

参考文I

[1]Marz N,Warren J.Big Data:Principles and best practices of scalable realtime data systems[M].Manning,2015.

[2]Chaudhri A B."Next Gen Hadoop:Gather around the campfire and I will tell you a good YARN"[J].

[3]Yang W,Liu X,Zhang L,et al.Big Data Real-Time Processing Based on Storm[J].2013,8(01):1784-1787.

数据机房解决方案范文6

新的希捷混合云解决方案组合包括:希捷备份与恢复软件,希捷云备份与恢复服务2,希捷备份与恢复私有云,以及希捷数据管理服务。这些解决方案将通过希捷及其增值经销商(VAR)和托管服务提供商(MSP)交付给包括中小企业至企业用户在内的客户,用于其部署私有、公共及混合云项目。

Enterprise Strategy Group数据保护高级分析师Jason Buffington表示:“基于各种因素,各种规模的组织机构都在向云转型,数据保护必定是重点关注问题之一。内部部署的解决方案是满足用户对数据可用性和可恢复性预期需求的重中之重,但是云对备份与灾难恢复准备和异地/长期数据保留也非常重要。值得注意的是,IT需求终于与希捷EVault技术推出近十年的目标重合:集异构和整体性于一体并且与云可扩展性紧密结合的备份设备。有趣的是,希捷始终致力于满足IT对‘硬盘+云’混合型数据保护方式的需求,基于此,他们近期不断推出高扩展性、运行速度和管理创新的产品,并持续融合产品组合。”

Pixius Communications首席商务官Skip Womack表示:“希捷能够帮助大家省时、省心和节省成本。我曾在多家财富500强企业担任过CIO,在备份解决方案上花费过大量资金,但缓慢的运行速度慢且费时费力的性能无法满足我的需求,而希捷却帮助我轻松地解决了这些问题。”

IT团队面临的最大挑战之一是必须缩短数据备份与恢复的时间。希捷的备份与恢复解决方案能够迅速进行部署,最大限度地缩短备份所需的时间,简化管理,并且立刻恢复数据。同时,借助新的希捷数据管理服务,使用者可以在无人工操作的状态下分析数据使用情况,并推荐最经济有效的存储层供数据驻留,从而帮助客户降低其总体拥有成本(TCO)。该服务使得客户能够满足合规要求,实现策略执行和数据管理。

希捷高级副总裁兼云解决方案总经理Mike Palmer表示:“目前,我们的客户和合作伙伴面临着爆炸式的数据增长,严格的合规要求,物联网等非传统应用的成本和复杂性,大数据以及软件即服务的快速发展。而与此同时,IT预算没有增加,组织机构面临着网络安全威胁,并且数据中心的运营占用了核心业务的更多时间。但是,我们现在能够应对这些挑战――通过新的性能、扩展性、可用性和管理解决方案,简化运营的复杂性,为客户和合作伙伴重新找回经营核心业务的时间。”