前言:中文期刊网精心挑选了金橘树范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
金橘树范文1
大数据服务
我们可以干点儿啥
国家信息中心常务副主任杜平表示,如今在某些应用领域,信息尚未完全流动起来,这给大数据产业以及服务提供了发展空间。目前,大数据已经不单单是概念,应该通过服务表现。而京津冀大数据产业联合发展,将成为促进大数据产业以及服务进行跨部门、跨区域部署发展的催化剂。
目前,大数据服务如果从第三方的角度来看,大致可以分为两种类型,一种是平台商,另一种是服务商。无论是硬件还是软件,可能人们更关注直接提供服务的这部分市场,特别是聚焦到第三方服务的小市场。
大数据服务在筛选服务对象的过程中,往往遵循这样的规律:作为企业,首先要具备信息化和标准化的平台、数据库,另外涉及这样的服务需求。实际上对于大数据服务,本身的差异性可以从数据采集的方式,分析方法,从结构化的计算到非结构化等方面表现出来。例如大家经常用的滴滴,每天数据处理量是70TB,甚至现在可以基于滴滴的数据了解到整个城市交通情况的数据。现在有很多企业通过购物偏好推接购买产品,更多通过对其行为属性、行为习惯等方面打标签,甚至从价值观角度进行判断。例如一个人如果常年喝依云,购买农夫山泉的可能性有多大?可以根据这样的属性推导相应的营销现场,进而判断用户购买路径、会员服务或购买建议等。所以对于第三方服务来说,基于不同阶段的企业会有不同的服务方式。
慧辰资讯TMT互联网研究部总经理刘赞对《中国信息化周报》记者表示:“大数据服务会有四种趋势,针对服务的企业对象其信息化基础不同,服务的三个阶段肯定是并存的。从三个阶段发展方向来讲,第一阶段是满足基础的信息化需求,下一步是整合内外部数据,第三阶段是通过数据为导向的应用要求,未来数据会成为企业的生命线并作为服务基础。”从数据本身来讲,有数据才有大数据服务。如今一些互联网巨头,例如谷歌和百度,都把自己资源平台开放出来,但并不是所有的企业都需要进行私有云的部署。尤其是数据量庞大之后,肯定是会有这样的公共计算资源平台。
“实际上现阶段不是所有企业都有大数据,但不可否认的是已经有很多企业,例如快销品行业或手机终端企业,会结合自己本身企业的数据,去做大小数据的结合,这其中包括互联网数据、环境监测数据等,还有一些企业内部战略的数据。所谓的大小数据,大数据包括互联网相关的产品评论数据和用户参加活动的数据等,小数据是包括企业内部的CRM数据等。如果采用传统方法,这些数据是很难结合在一起的。如今采用大数据的计算模型就会简单很多,这或许可以给京津冀大数据企业发展带来一些启发。”刘赞补充道。
为生活洞见数据的美好
2013年,广州市政府审批一个大项目需要700个工作日,开发了政务数据整合系统,将数据进行打通后,审计进程从700多天减少到27天。这对政府来说是很好地利用大数据整合连接并提高效率,对企业来说也很受鼓舞。
不单单是广州,京津冀大数据产业的蓬勃发展同样离不开企业的参与。众所周知,浪潮是国内硬件产品的代表企业之一,自从进入大数据时代,尤其“互联网+大数据”热潮濒临之际对许多传统产业冲击的同时,浪潮也在不断思索如何改变自己适应时展的要求,利用大数据方面的知识积累尝试一些突破,例如搭建创客平台,帮助广大中小微企业创业者获取大数据资源和工具平台,助力包括京津冀在内的地方政府实现大众创业、万众创新发展。例如,美国将政府的数据做了很好的整合,在谷歌导航中将门牌号、地址全部标准化,基于这种思考,浪潮进行了“卓数平台”的开发,收集来自互联网和政府开放数据,通过数据服务、API工具对创客或开发者提供数据服务,延展了“数据开发服务”的思路。“如今随着大众创业、万众创新的风靡,我们把与数据相关联的创业人员分两类,一类是创客,即应用数据的人,另一类是生产数据的人,一起加工处理数据。其中浪潮提供一个治理平台,涉及到基础设施、服务器、数据处理工具、数据的挖掘分析工具等,到现在为止有小小进展。”浪潮云服务集团有限公司数据服务事业部总经理徐宏伟对《中国信息化周报》记者说。
在济南,一家公司利用浪潮的平台生成了钢铁、水泥等数据,做数据服务。开放了一个DP为一千多家建筑公司、两千多家造价师提供服务,有这样一个及时并实时提供数据的APP,造价师可以精确地在每一次进行采购时,优化采购的库存调整。在焦作,浪潮把数据采集提供给河南大学的学生们,他们把当地特产铁棍山药的数据做了收集,形成铁棍山药产业数据库。如今政府利用数据库分析依据,向铁棍山药批发、运输、加工企业提供数据。可以说浪潮将大数据服务的方方面面运用得恰到好处,时刻洞悉数据见证生活美好的道理,为京津冀大数据企业发展做出了榜样。
大数据
发展正从渗透走向落地
总结大数据产业未来发展的重点方向,首先还需要国家以及政府的指导,这对京津冀大数据发展至关重要,需要充分发挥政府引导作用,努力创新拓展大数据发展领域、内容以及模式。
金橘树范文2
年岁末,一份怀胎十月、即将分娩的《有色金属工业“十二五”规划》,引发了业界高度关注。
根据该规划,国家将对钨、钼、锡、锑、稀土等战略性小金属的发展做出专项规划,并提出“建立完整的国家储备体系”。
有关“收储小金属”的传言,已有多次,每每带动小金属价格一轮接一轮飙升。比如,2011年5月,国务院下发《关于促进稀土行业持续健康发展的若干意见》,明确提出建立稀土战略储备,之后两个月稀土矿产价格上涨超过500%;其他非稀土小金属也纷纷发力上扬,钨精矿、甚至用量极有限的精铟价格,均上涨了两倍多。
2011年后半年,小金属价格新一涨后,收储政策却迟迟不见踪影。失去政策支撑的市场初现塌陷:一个月间,碳酸稀土价格下跌50%左右,氧化镨钕下跌约30%,钨精矿下跌20%,精铟价格下跌30%……
此次,传说已久的收储政策是否能够真的出台?
小金属豆腐价
2011年11月26日,商务部公布了2012年第一批有色金属出口配额,钨、锑、铟、锡、钼等5种战略性小金属和贵金属白银出口配额共计6.28万吨,与2011年的6.42万吨相比,略有降低。
这正切合了此前的一个业界传说:商务部正在调整稀有金属出口政策,预计其出口配额将以2%至3%的幅度逐年递减。
按有色金属使用范围和产量分类,可统分为基本金属、贵金属和小金属三类。基本金属即所谓大金属,主要包括铜、铝、铅、锌等储量、产量和使用量都较大的品种;贵金属主要指金、银、铂等;而小金属,一般指除基本金属和贵金属之外的有色金属。其中,钨、钼、锡、锑、铟、锗、镓、铌、钽、锆,是涉及“十二五”国家战略储备的10种小金属;我国重点保护的稀土类金属,亦属小金属。
从此次配额情况看来,不仅总量微幅下降,其中初级原料的配额量更是大幅收缩。譬如,2012年钨酸及盐类的第一批出口配额下降了67.27%,氧化钨配额也下降了13.24%,但钨粉及其制品配额却大幅提升了71.67%。
这清楚表明了我国对稀有小金属的出口态度:提升产品附加值,不再以简单、初级产品的出口国面目出现。
这并不足为奇:国家统计局公布的10种有色金属产量,小金属产量占比虽不足5%,但却是现代工业和战略新兴产业不可或缺的矿产。
长期以来,我国对小金属用途的研发有限,钨、钼、锡、锑、铟、锗等战略资源一直只是出口创汇的工具。上世纪90年代,国家下放采矿权,各地出于对矿产利益的追逐,各种小金属和煤矿一样,都陷入了一哄而上、各自为战、有水快流的乱局。
“金子卖了豆腐价”。小金属矿产市场需求量本来不大,严重供应过剩更是带来了竞相压价的恶性竞争,最终导致我国本该掌握的国际市场价格话语权彻底丧失。
比如锡,因为储量有限,曾与钨、锑、稀土并称为中国“四大战略资源”。在上世纪90年代,锡作为中国优势矿产,产量一度占到全球1/3;但因大量出口,以及全球电子产业向中国转移,2005年后中国竟成锡短缺大国,反而大量进口。
再如制作硬质合金必不可少、被誉为“工业牙齿”的钨。“中国正以65%的储量,支持着世界85%以上的钨资源供给,我国钨资源优势快速弱化已是不争的事实”,中国国土资源经济研究院研究员陈甲斌告诉《财经国家周刊》记者,“目前,我国钨精矿产量接近10万吨,而国内消耗不足3万吨;全球稀缺的钨矿,我们却以氧化钨、钨酸盐、钨钎杆、粗钨丝等初级产品形式,大量出口到国外”。
依照目前开采进度,我国钨资源仅能维持不到25年;而俄罗斯与加拿大的静态储采比分别达到100年和400年。
“从某种程度上说,中国的一些优势小金属,又是‘下一个稀土’,面临着行业混乱和开采失控的危机局面”,全国矿业联合会产业发展部总工程师吴荣庆对《财经国家周刊》记者表示。
“国储”谋局
据工信部原材料工业司司长陈燕海向《财经国家周刊》记者介绍,中国的钨、铟和稀土等稀有小金属储量居全球第一,产量占全球80%以上,钼、锗等稀有金属储量和产量也居全球前列;但由于国内市场的恶性竞争和低位价格战,使得中国稀有金属资源浪费严重。
必须迅速建立稀有金属战略储备制度,提升中国在稀有金属上的贸易定价权和话语权――这几乎成为所有业界人士的一致呼声。
《财经国家周刊》记者了解到,即将出台的《有色金属工业“十二五”规划》提出的“完整的国家储备体系”,包括企业储备、国家战略实物储备和矿产资源地储备三种。
企业储备也包含在国家储备体系中,“这意味着,一些生产比较集中的小金属,如果企业储备能够达到控制产量、稳定价格的目的,国家财政就不会做过多投入”,业界人士如此分析;
业界人士告诉《财经国家周刊》记者,对那些产量较小、战略地位突出的矿产,如南方重稀土,或者主要依赖进口的矿产,如铌、钽、锆等,可能会更早实施国家实物储备;对于一些伴生矿,如铟、锗、镓等涉及我国下一步新技术转型,且目前下游开发不足,又受主体矿产影响、市场波动较大的矿产,也会优先考虑国家实物储备;
而对于产量较大、超采严重的品种,如北方轻稀土、钨、钼、锑等矿产,将会实施矿产资源地保护政策。
“十二五”期间,我国将在首先满足国内需求的基础上,实施矿产资源总量控制,并形成几个大型综合矿业集团,结束矿产资源小散乱的生产局面,基本达到矿上生产与资源储量相匹配的状态”,吴荣庆对《财经国家周刊》记者表示,“至于矿产价格将由市场自己决定”。
事实上,对于稀有金属的收储期待,由来已久。
在《国土资源“十一五”规划纲要》中,曾经明确提出建立矿产资源储备机制,并推进重要矿产资源战略领略,启动铁、铜、铝、锰、铬、钾盐等非能源短缺性矿产和稀土、钨等优势矿产的矿产品战略储备,逐步推进探明矿产地的战略储备。
再往前追溯到上世纪八十年代中期,由于钨产品供过于求,诸多国有钨企生存艰难,国家也一度对钨砂进行了收储。
“小金属国储政策何时出台我不知道。但是,建立小金属国家战略储备、建立矿产储备资源基地和采矿权清理整顿的工作正在进行。只是国内外对此过于敏感,我们要悄悄进行”,国土资源部储备司副司长许大纯在接受《财经国家周刊》记者采访时表示。
许大纯认为,小金属资源保护,其意图就是要提高矿产资源综合利用能力、环保能力、后续深加工能力,实施产业升级,对不能达标的企业实施淘汰。
前车之鉴
事实上,在国家层面的收储尚未出台之前,地方政府早已经开始了小金属的收储尝试,其中,以包头和赣州最具代表性。
2008年,全球金融危机导致国际有色金属行情下滑,出口滞销,一些以小金属为支柱产业的地方政府难以承受,于是展开收储。
2008年12月,内蒙古组建了包钢稀土国际贸易有限公司,开始对包头生产的稀土产品进行储备的初步尝试;
2009年1月,江西赣州市政府决定收储18亿元的钨和稀土产品,以支持当地钨和稀土产业;
2010年2月,内蒙古人民政府批准包钢稀土国际贸易有限公司实施包头稀土原料产品战略储备方案。其方案是,储备资金主要由企业自行承担,自治区、包头市、包钢集团共同给予贴息支持,自治区贴息1000万元,包头市贴息1000万元,其余由包钢集团贴息。
2011年5月,小金属重要组成部分的稀土,又开始新一轮行业整顿:大量从事开采、选矿、冶炼的民营小企业纷纷被关停或被兼并重组,包钢稀土(600111.SH)获得了对包头稀土矿产的统购、统销大权;在南方,以五矿、中铝等央企为核心的稀土矿产整合也初具规模。
与之伴生的,是稀土价格的一路飞涨。2011年5~7月,3个月间稀土价格上涨超过1倍。
不料,2011年8月,稀土开始上演暴跌行情。一个月间,碳酸稀土价格下跌50%左右,氧化镨钕价格下跌约30%。2011年9月19日,包钢稀土以90万元/吨的价格开始收储回购,价格才得以稳定。
“市场如此动荡,企业生产几乎无法进行,所以只能选择停产、惜售,经济发展从何谈起?”一位稀土永磁材料生产企业的负责人对《财经国家周刊》记者表示。
“先要搞清小金属价格暴涨暴跌的实质。”全国矿业联合会总工程师吴荣庆表示。
《财经国家周刊》记者有幸获得了一份由工信部委托调研的资料。资料显示,目前国家对于北方轻稀土主产地包头的年规划产量只有4万多吨,而实际调研产量却达到了9万多吨;南方重稀土失控更为严重,仅广东河源等地,碳酸稀土规划产量只有2000吨/年,而实际产量却达到了3.5万吨,超产近20倍。
“每一吨的超采都是非法生产。一个将价格建立在违法生产基础上的产业,势必在政策的风吹草动前显得惊恐不安。一旦政府按照规划产量实施矿产封存储备,那么,整个依托于非法生产支撑的小金属市场必然坍塌。”吴荣庆说。
《财经国家周刊》记者了解到,我国的非稀土类小金属,如钨、钼、锑等,都存在着严重的非法生产、销售问题。
以钨为例,2009年钨精矿的总量规划指标只有6.81万吨,而实际产量却达到9.91万吨,超采45.5%;并且,各类加工企业利用国家出口政策漏洞大肆变相出口钨资源。
金橘树范文3
正如ESG的创始人兼首席分析师Steve Duplessie所言,数据增长虽然是自然产生的,但是大部分数据都是由于科学研究产生的。如数据扩展、副本、副本的副本、备份副本的副本等等,就像细胞的裂变一样,并且是无休止的。姑且不论数据的持续增长带来的是好事,还是坏事,但是很明确的一点就是,企业对于这些数据的依赖度越来越大,这些数据甚至可以影响到企业的生存。面对这样庞大和重要的数据,企业IT主管不得不开始考虑如何有效、经济地进行数据存储和保护,来确保这些数据的完整性和安全性。ESG曾对企业面临的数据保护难题进行过调查访问,虽然困扰终端用户的数据保护难题不仅普遍还五花八门,但是位居首位的难题却是如何减少备份次数、降低存储系统成本、跟上被保护数据容量的步伐以及减少恢复次数。
根据企业规模和复杂程度,数据保护进程可分很多种,主要包括从特定的手动干预到高度复杂化的自动连续进程等。显然,越来越多的企业将磁盘和磁带存储系统(本地和异地)视为数据保护架构的一部分来部署,作为一种新的广域/远程备份技术和第三方服务。在图1中,ESG调查的企业被分类显示,来反映当前市场动态的高级类别。
ESG调查的企业中,大多数(55%)表示,数据最初是备份到本地存储站点,然后通过移动介质发(如磁带)送至远程存储站点以便长期保存。其中的一部分企业完全依赖本地存储,并且不将数据转移至远程站点进行长期保存。与大型企业(15%)相比,更多中小企业(24%)采取这种危险系数颇高的做法。从这点来看,大型企业(21%)比中小型企业(13%)更有可能将复制并人二级站点作为整个数据保护战略的一部分,并且更有可能通过广域网将数据直接备份至二级企业站点。最后,在ESG的抽样调查中,仅有1%的大型企业目前还依赖第三方提供的备份服务,并将其作为管理备份和恢复进程的主要手段,而中小型企业当中结果几乎没有采取这种策略的。
低成本的数据保护技术
正如我们所见,当今的企业困扰的众多的数据保护难题都导致企业数据有遭受潜在损失的风险。因此,这就促使企业开始寻求更多样更先进的技术来切实进行数据保护。然而,在当前的经济形势下,出于整体运营以及宏观经济的考虑,很多企业都开始紧缩IT预算。因此,企业更青睐那些能够在企业的IT预算内优化企业现有存储资源的数据保护技术,这些技术能够提高存储效率,降低成本,将更少的数据备份至磁盘,恢复速度更快,并且对企业的业务拓展也能够提供助力。这些技术包括:
容量削减技术:如重复数据删除的使用,通过削减备份至磁盘的数据量,用户可以最大限度减少冗余数据的存储,提高备份速度并最大限度增加磁盘空间。除了减少存储系统和介质成本,容量削减还意味着减少数据通过WAN迁移和复制所需的带宽,从而带来额外的潜在成本节省。除了以上的成本削减以外,部署重复数据删除技术也许还有一个更加重要的原因:通过降低本地和远程数据保护所需的存储量和带宽,企业可以显著提升数据保护水平,并快速、可靠、经济高效地进行数据恢复。
虚拟磁带库(VTL):据ESG最近的调查报告显示,随着企业对业务连续性、安全性的要求日趋严苛,越来越多的用户采用磁盘或磁盘与磁带混合的方式来满足数据保护需求。而在基于磁盘的备份解决方案中,虚拟磁带库(VTL)备受用户的推崇。VTL不仅能够加快备份和恢复的速度,提高备份成功率并增加数据可用性,同时降低数据保护成本。可通过软件或基于软件的应用,来部署VTL。
虚拟化:虚拟化不仅可简化存储管理的复杂性,降低存储管理和运行成本,同时还提高存储效率,降低存储投资的费用。显然,在当前的经济拮据时期,虚拟化更是引起人们的关注。如精简技术,不仅能降低50%的数据总成本,还可以减少预期存储成本,帮助企业削减电能和冷却开支,并能提高其10倍的管理效率。2008年10月的ThelnfoPro Wave 11存储调研报告显示,87%的受访企业已经认识到精简配置对于其自身数据中心计划的重要性。
分支机构的远程备份:所谓远程备份解决方案,也就是通过广域网将数据备份至集中管理的数据中心,降低远程和分支机构的本地存储硬件、介质以及人力资源的利用率,从而帮助企业降低成本。目前,已经有24%的企业将远程数据保护解决方案列入了未来几个月最先考虑的存储措施,达到实现企业成本缩减的目的。而那些不采用分支机构的远程备份企业仅仅占到12%,这也就不足为奇了。
磁盘到磁盘的备份:将数据迁移至磁盘到磁盘的备份架构可以直接或间接降低成本,所谓的直接,就是减少或消除磁带介质以及媒介管理成本;而间接则是通过减少恢复时间、提高可用性以及避免数据丢失和/或应用宕机造成的成本,从而降低成本。
低成本串行ATA磁盘的使用:与主要采用FC磁盘相比,将廉价的串行ATA磁盘作为备份介质能够节省大量金钱。有知名调研机构声称,自从2001年上市以来,串行ATA磁盘的出货量超过了65000万。大多数存储厂商已经将SATA磁盘纳入其阵列。
数据保护将推动专业服务发展
现在,企业都非常明白对数据进行保护的重要性。但是对于中小型企业而言,由于人力资源以及专业技能的缺乏,他们很难对数据实施全面的保护,这个时候,他们就迫切需要寻求第三方企业来提供专业服务。ESG曾就面临数据保护难题(备份和恢复是头号存储难题)拇企业与那些寻求相关专业服务的企业之间的相互关系进行过调访。如图3所示,关注备份的受访者中有31%表示,在未来12个月内他们很有可能寻求第三方专业服务公司进行备份和恢复的评估、设计或实施,而并不视备份和恢复为首要的存储难题的受访企业中只有19%有此计划。这表明,中型企业将寻求第三方协助来设计和实施必要的新技术和进程,从而提高备份和恢复成功率。将备份和恢复视为首要存储挑战的企业也更为倾向于寻求以灾难恢复为目的的评估、设计和实施服务,这表明部分客户期望更全面地了解其企业的数据保护环境。
管理大师Peter Drucker曾说过:“预测未来就好比是夜间在没有路灯的乡间小道中行驶,并不时地透过后背窗看外面的风景。”
金橘树范文4
电信业的竞争正在全方位地展开,这种竞争必然带来新的价值链模式以及新的计费方式,这些变化对目前的电信运营支撑系统是一个挑战。比如,多种业务的计费环节将不再是单一的按照时长或通信距离收取费用,而可能是根据时长、内容、使用量等多种参数的组合计费。为了应对这些挑战,电信企业先后引入了内存数据库,以提高后台数据管理的实时性、精确性和灵活性。
内存数据库
内存数据库,顾名思义就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。同时,内存数据库抛弃了磁盘数据管理的传统方式,基于全部数据都在内存中重新设计了体系结构,并且在数据缓存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统数据库的数据处理速度要快很多,一般都在10倍以上。内存数据库的最大特点是其“主拷贝”或“工作版本”常驻内存,即活动事务只与实时内存数据库的内存拷贝打交道。显然,它要求较大的内存量,但并非任何时刻整个数据库都存放在内存,即内存数据库系统还是要处理I/O。
尽管内存数据库已不是传统磁盘数据库的概念,但是内存数据库本质上还是数据库,它也具有一般数据库的基本功能:
■ 永久数据的管理,包括数据库的定义、存储、维护等;
■ 完成各种数据操作,如查询处理、存取、完整性检查;
■ 事务管理,包括调度与并发控制等;
■ 对存取的控制和安全性检验;
■ 具有数据库的可靠性恢复机制。
相对于利用程序开发手段调用内存处理来说,内存数据库自有其优势。首先,内存数据库是产品化的数据库管理软件,极大缩短了开发周期; 其次,内存数据库有着开放的平台和接口,程序开发和移植更加灵活便捷,也便于维护和二次开发; 第三,可以通过使用统一的SQL语言方便地查询内存中的数据; 最后,能在数据库中保障数据的安全性和完整性。这些优势,对于快速部署和简化维护都是有利的。
但内存数据库也有其不可避免的缺点,比如: 不容易恢复,内存数据库中的数据不总是永久的,为了保证实时,也不一定是一致和绝对正确的,有的是短暂的,有的是暂时不一致或非绝对正确的。
电信企业一直是内存数据库的主要用户,近几年来,随着计算机硬件技术的飞速发展、内存容量的提高、价格下跌以及计算机进入64位时代操作系统后可以支持更大的地址,为内存数据库的实现提供了可能。目前内存数据库在电信行业的应用也日趋成熟,已有超过90G的电信系统案例,能自动扩展内存空间,不需要重启数据库,提供ESOL自定义存储过程,支持多线程,开发效率高,程序移植容易等等。下面以两个例子来介绍内存数据库的应用。
电信计费数据的加载
电信的二次批价和实时累账是计费系统中的两个必备功能。所谓二次批价是相对于一次批价来说的。一次批价是按照国家标准资费来进行价格计算,比如: 全球通每分钟本地通话为0.4元,在一次批价完成后,会根据这个用户的套餐进行再一次的计算。以北京全球通用户接听4分钟的电话为例,一次批价完成后,这条话单的价格是1.6元,如果这个用户参加了10元包月接听套餐,那么在二次批价后,这次通话的费用就为0元。一次批价是用于各大运营商之间结算的,而二次批价是针对用户个人的。
实时累账是将用户从每月1号到目前为止的所有费用累加起来,也就是用户目前可以通过10086查到截止到前一天的实时话费。累账值可以帮助用户控制高额话费或是供用户即时查询消费信息。
二次批价和实时累账过程涉及用户资料、用户套餐等与用户相关的信息,电信支撑系统在开始批价时必须加载这些数据。稍大一点的省级运营商的这些数据就会超过1000万条,计费处理模型也由于套餐的组合、产品的组合以及不同的优惠规则变得相当复杂,加载这部分数据对系统而言是一笔不小的开销,这就使得现在的计费处理速度比较慢,而且很难做到对数据的实时更新。内存数据库的引入在一定程度上解决了这个问题。
在计费二次批价过程中数据量最大的是详单数据,这部分数据不用放在内存数据库中,每处理完一个话单文件或达到设定的提交记录数时直接操作磁盘数据库,不会影响系统性能。最急切的是将用户资料、套餐、营业套餐和计费套餐对应关系数据、计费套餐模型数据及用户累计数据放到内存数据库中,这部分数据查询操作远比数据新增和更新操作要频繁。除了这些数据外,当然还有应用需要的其他数据也都可以加载到内存数据库。
在采用内存数据库后,用户通过营业部或客户查询实时话费的时候完全可以做到实时,比目前只能提供查询到前一天的实时话费在业务上有了质的飞跃。因为系统在处理这部分数据时查询流程和以前的完全一样,但系统省去了以往内存中的数据和磁盘数据库数据同步的环节,所以就能做到了实时查询。对于信控来说也同样,以往系统在累完账后要按照一定周期刷新信控数据,这就存在一个时间差,不能够完全做到实时。
而采用内存数据库后,信控可以直接取得内存数据库中的实时话费累计表中的数据,完全实现实时预警、停机。二次批价和累账中采用内存数据库后,对防欺诈、收入保障系统也有相当大的好处,这样能够充分保证运营商的切身利益。
另外,在采用内存数据库后,整体提高了系统批价、累账的处理速度,大大缓解访问磁盘数据库的压力,提高数据查询、修改、删除的效率,也为后付费和预付费的融合提供了可能。
电信计费数据的同步
电信营业数据和计费系统中的数据总是在不断的变化中,这就涉及内存数据库中的数据和磁盘数据库数据的同步问题(为了描述清楚,这里的磁盘数据库以Oracle DB为例来说明)。数据同步包括两部分: 从内存数据库到Oracle DB数据同步和从Oracle DB到内存数据库的同步。
1. Oracle DB到内存数据库同步
这部分数据同步采用增量表的方式,营业系统或CRM新增或更新的数据将生成到Oracle的增量表中,计费后台程序先到这些增量表中查询数据。如果能在这些增量表中查到数据就把这些数据更新到内存数据库对应表中,如果查不到,就直接从内存数据库中直接查询,从而保证了数据的完整性和实时性。由于增量表的数据量一般会很小,所以这部分操作不会影响系统的性能。
2. 内存数据库到Oracle DB同步
由于Oracle的计费后台批价、累账数据几乎都加载到了内存数据库中,所以Oracle数据库对应的数据表将主要用于对内存数据库的数据备份。
金橘树范文5
关键词:聚类分析;初始中心点;K-原型算法;聚类算法;混合属性数据
中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)11-2713-04
A K-prototypes Algorithm Based on Improved Initial Center Points
CHEN Dan, WANG Zhen-hua
(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithm's procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes.
Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data
聚类是数据挖掘中的一种数据分析技术,具有重要意义和很强的挑战性。其基本原理是将数据划分成有意义的簇,相同簇的对象之间具有较高的相似性,而不同簇的对象之间则相似程度较低。这种数据分析技术广泛应用于模式识别、数据分析、图像处理和商业研究等方面。目前已划分出多种聚类算法,常见的聚类算法有基于划分的K-均值,基于密度的DBSCAN算法,基于层次的BRICH算法等。基于划分的聚类算法K-means简单快速,对处理大数据集,但它是基于欧氏距离的划分,难以满足混合属性集聚类的要求。文献[1-2]对K-means算法进行扩展,先后出现了K-modes算法和K-prototypes算法。K-prototypes算法能够有效地处理混合属性数据集聚类的问题,但它的缺点也很明显:1) 对于不同的初始值,可能会导致不同的聚类结果;2) 需要用户给定初始参数,这些参数的选择需要用户具备大量的先验知识才能确定,而用户通常对数据集缺乏先验知识导致所选参数对聚类结果产生很大的影响;3) 算法非常容易受“噪声”干扰,导致聚类精度下降。
近邻法是由Cover和Hart于1968年提出的,是非参数法中最重要的方法之一。它的原理是以全部训练样本作为代表点,计算测试样本与所有样本的距离,并以最近邻样本的类别作为决策,具有原理直观,方法简单等优点。因此,本文提出了一种基于近邻法的初始中心点选择策略对算法进行改进,利用近邻法,启发式地获得初始中心点和k值。最后用一个基于最小距离的规则来识别异常数据点,防止“噪声”的干扰。
改进后的算法能有效地解决传统K-prototypes算法的缺点,基本特征有三点:1) 在选择初始中心点的时候,采用近邻法,有依据的选择初始中心,避免了传统K-prototypes算法对初值选择的盲目性;2)它可以自动的获取k个聚类,解决了K-prototypes算法k值必须预先给定的问题;3)为了避免算法中的“噪声”干扰,采用了一个基于最大距离的启发式规则,将离聚类中心最远的数据点识别为“异常数据点”;经过实验证明,其聚类后的精度和稳定性要优于原算法。
1 K-prototypes算法
K-prototypes算法是由Huang提出的可以对分类属性和数值属性相混合的数据进行聚类的一种有效算法[2]。其基本思想和K-均值算法类似,只是在K-prototypes算法中定义了一个对数值与分类两种属性都计算的相似性度量,以此作为聚类的目标函数,通过不断更新聚类原型来达到优化目标函数,获得最优聚类效果的目的。
算法描述如下:假定待聚类对象集合为X={X1,X2, …,Xn},由n个观测对象组成,属于混合型数据集,且每个观测对象Xi={Xi1,Xi2, …,Xin}有 个属性,由A1A2, …Am来表示,其中A1A2, …Ap为数字属性,Ap+1A p+2,…Am为可分类属性,属性Aj取值域用Dom(Aj)表示,且xij∈Dom(Aj)。对于可分类属性有Dom(Aj)={aj(1),aj(2), …,aj(nj)},其中nj指属性Aj取值的数目。聚类中心用Z表示,相应的,简单记作Za=(za1,za2, …,zam)。
K-prototypes算法的距离函数d由数值型和可分类型两部分组成[3-4]:
d(Xi,Za)=dr(Xi,Za)+rdc(Xi,Za)(1)
其中:γ∈[0,1],为分类属性的权重参数;
dr(Xi,Za)=(xij-zaj)2,由欧式距离度量;
rdc(Xi,Za)= γδ(xij,zaj),
当xij≠zaj时,δ(xij,zaj)=1;
当xij=zaj时,δ(xij,zaj)=0.
K-prototypes算法最小化目标函数[4]:
F(W,Z)=wiad(Xi,Za)(2)
满足:
wia∈[0,1];1≤i≤n;1≤a≤k
wia=1;1≤i≤n
0≤waai≤n;1≤a≤k
综上所述,K-prototypes聚类算法具体步骤如下:
1) 初始化初始聚类数k和聚类中心Z,即从数据集中随机选取k个初始聚类原型;
2) 按照2)式定义的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;
3) 对于每个聚类, 重新计算新的聚类原型;
4) 计算每个数据对象对于新的数据原型的差异度,如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;
5) 重复Step 3和Step 4,直到各个聚类中不再有数据对象发生变化。
2对K-prototypes算法的改进
针对上面列出的K-prototypes的不足,该文提出一种基于近邻的初始点选择算法,该算法思想来源于近邻方法[6],可确定初始的中心点集和 值。并在原型算法中加入适当的启发式规则,使算法能够有效地辨识异常数据点,综合这三点改进,算法获得更好的稳定和聚类结果。算法流程图如图1。
2.1 基于近邻方法的初始中心点选择策略
基于近邻方法的初始聚类中心选择策略基本思想为:以全部样本数据作为代表点,计算测试数据点与所有样本之间的距离,如果小于初始阈值,就把该点划分为与测试数据点相同的类,记数变量增1,同时更新最短距离。最后选择邻居数目最多的数据对象作为初始中心点。
样本点 的邻居定义为P=Neigbour(x, θ):
{
判断P是否为x的邻居;
IfDist(P,x)≤θ返回1;
Else 返回0;
}
其中 为两个数据对象的相似度量函数。
算法描述如下:
1) 定义一个初始阀值θ和中心点集Z,Z初始值为空;
2) 从数据集中随机选一个点Q作为起始点;从Q开始递归地按照深度优先方式遍历各点,P=Neigbour(Q, θ) ;如果返回值为1,则判断P属于以Q为中心的聚类,更新阀值θ,并使初始值为0的局部变量m=m+1(用于记录Q的邻居数目);否则退回到前一点继续搜索。遍历数据集中的每一个数据点;
3) 选择邻居数目最多的数据对象作为第一个初始中心点,加入到Z中,初始值为0的全局变量k=k+1;
4) 将原数据集删除中心点及其邻居,如果还有未被聚簇的点,即在这些数据点集中重复执行(2)-(4);
5) 输出初始聚类中心Z和k。
2.2 对异常数据点的识别
聚类算法是将数据集中相似的数据归为一类,因此理论上,一个簇中的所有数据点都应该离簇中心点比较近。然而可能存在一些异常点,它们不属于任何聚簇。为了有效识别这些异常点,在K-prototypes中加入以下启发式规则,在算法进行全局搜索的时候,引导算法避免异常数据点的干扰。
加入的算法启发式规则描述如下:
Min{d(Xi,Za)} ≤ε; 1≤i≤n; 1≤a≤k(3)
其中ε为距离阀值。
算法在最后利用这个启发式规则来检验聚类结果是否满足这个条件,不满足则标记为异常点;如果所有的异常点数目小于阀值ψ,则算法结束;否则,则将所有的异常点归为一类,令k=k+1; 重新迭代,直到所有的异常点数目小于ψ。
2.3 改进后K-prototypes算法步骤
综上所述,改进后的算法描述如下:
输入:待处理数据集S,参数 θ,ε,ψ,γ
输出:k个聚簇
步骤:
Step 1:使用数据预处理技术处理不完整、有噪声的数据集,为后续聚类做准备。
Step 2:使用基于近邻的初始中心点选择方法获得初始中心点集Za=(za1,za2,…,zam)和聚类数k;
Step 3: 按照(2)式的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;
Step 4:对于每个聚类,重新计算新的聚类原型Za’;计算每个数据对象 对于新的数据原型Za’的差异度d(x,Za’),如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;
Step 5:重复Step 3和step 4,如果各个聚类无数据对象发生变化,转至Step6;
Step 6:利用启发式规则(3)来检验聚类结果,标记异常数据点,如果异常数据点数小于ψ,算法结束;否则将这些异常数据点归为一类,并使k=k+1,转至Step3,反复迭代,直至使异常数据点控制在较小范围内,算法结束。
3 实验结果与分析
为了验证所改进后的K-prototypes算法的有效性和可行性, 实验过程分别采用随机选择初始点的K-prototypes算法和改进后的K-prototypes算法对给定数据集进行测试,并比较分析聚类结果。
系统配置为:Intel 酷睿2 双核 CPU,1G内存,Windows XP,应用Matlab6.5平台进行实验仿真。
3.1 实验1:人造数据实验
为了显示的直观性,我们构造的数据样本共有300个样本,可以划分为3类,分别为A类、B类和C类。每个样本具有2个特征:一个数值型和一个分类型。使用随机选取十组初始聚类中心所得到的最坏与最好结果与优化选取初始聚类中心的算法所得到的结果进行比较。如图2所示。
实验1参数设置:θ=0.20,ε=4.5,ψ=50;γ取0.5。
从图4可以直观地看出,传统K-prototypes算法对于不同的初始聚类中心会得到差别很大的聚类结果;这说明初始聚类中心的选择对算法的分类性能有很大的影响;图5是采用改进后的K-prototypes算法,相比之下,改进后的K-prototypes算法具有更好的分类效果。
3.2 实验2:标准数据库数据实验
实验2采用UCI机器学习库[7]中的真实数据集Voting和Cleve作为聚类对象,其中Voting为分类型数据集,而Cleve为混合类型的数据集,分别用原始K-prototypes算法和改进后的K-prototypes算法对其进行聚类分析,数据集描述如表1所示。
上述数据集Voting、Cleve都包含多个属性,不能直观地显示其聚类结果,故从正确识别率和稳定性两个方面进行分析。
3.2.1 评价标准
为了将原始数据的分类特征与算法得到的聚类结果作比较,本文采用聚类结果正确率作为聚类实验结果的评价标准。
评价聚类效果的指标如下:
E=(n/N) ×100%
其中:n为正确分类的对象数,N为总对象数。E∈[0,1],为正确识别率,其值越大,表明聚类结果越精确;反之,聚类结果误差越大。
4.2.2 聚类性能分析
实验过程中,两个算法的参数设置分别如下:在改进后的K-prototypes算法中,对于Voting,Cleve两个数据集,分别设置阈值θ=0.15,ε=4.5,ψ=70;θ=0.20,ε=4.8,ψ=50,…,每组阈值分别运行5次;γ分别取1,0.7。
将传统算法运行10次,通过打乱数据集的各个数据位置,反复仿真得出以下聚类结果。
表2是对两组实验数据的聚类精度值的对表,从表2可以直观地看出:采用改进后K-prototypes算法进行聚类,得到的聚类精度都在90%以上,比原始K-prototypes算法聚类精度高很多。而采用原始K-prototypes算法聚类得到的结果有时高,有时低,波动比较大,说明原始K-prototypes算法对初始值很敏感,对于不同输入顺序的初始值而得到不同的聚类精度;相比,采用改进后的K-prototypes算法,每组实验的聚类结果波动很小,聚类精度高。由此可证明,改进后的K-prototypes算法成功地解决了原始算法对初始值非常敏感,参数必须预先设定和对易受“噪声” 影响等缺点。因此,实验结果表明:本文提出的基于近邻法的K-prototypes算法在分类精度和稳定性两个方面都是十分有效的。
4 结论
该文提出了一种改进的K-prototypes混合属性数据聚类算法,通过近邻法获取初始中心点集和初始聚类数目,避免了初始中心点选择的盲目性和对聚类数目k值的依赖性;同时加入启发式规则,防止了“噪声点”的干扰。通过实验可以看出该算法成功解决了原K-prototypes算法对初始敏感的缺点,并且自动获取初始中心点集和初始聚类。通过对聚类结果的精度分析和稳定性分析,可看出改进后的算法优于传统的K-prototypes聚类算法。
参考文献:
[1] Ralambondrainy H. A Conceptual Version of the k-means Algorithm[J].Pattern recognition Letters,1995(16):1147-1157.
[2] Huang Zhexue. Extension to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998(2):283-304.
[3] 陈宁, 陈安等. 数值型和分类型混合数据的模糊K-prototypes聚类算法[J].软件学报,2001,12(8):1107-1119.
[4] 尹波,何松华.基于PSO的模糊K-prototypes聚类[J].计算机工程与设计,2008(11):2283-2285.
[5] 吴孟书,吴喜之.一种改进的K-prototypes聚类算法[J].统计与决策,2008(5).
金橘树范文6
集群(Cluster)技术是使用特定的连接方式,将价格相对较低的硬件设备结合起来,同时也能提供高性能相当的任务处理能力。
本文试图对当前主要的数据库集群用到的具体技术和市场上的主流产品进行分析并作点评,从而为读者提供一个数据库集群的评价参考。
下面讨论的数据库集群技术分属两类体系:基于数据库引擎的集群技术和基于数据库网关(中间件)的集群技术。
1关键技术
在复杂的数据库集群技术之间做比较,其实就是比较它所包含的各项子技术性能和它们之间的协调运作能力,下面的文字将介绍数据库集群最需要得到重视的核心技术,同时也关注到了一些技术细节。
提高处理速度的四种办法
提高磁盘速度:主要思想是提高磁盘的并发度。尽管实现方法各不相同,但是它们最后的目的都是提供一个逻辑数据库的存储映象。
【点评】系统为了提高磁盘访问速度,建立一个虚拟的涵盖所有数据“大”数据库,而不用去考虑数据的实际物理磁盘存放位置。
分散数据的存放:利用多个物理服务器来存放数据集的不同部分,使得不同的服务器进行并行计算成为可能。
ORACLE RAC是共享磁盘的体系结构,用户只需简单地增加一个服务器节点,RAC就能自动地将这节点加入到它的集群服务中去,RAC会自动地将数据分配到这节点上,并且会将接下来的数据库访问自动分布到合适的物理服务器上,而不用修改应用程序;UDB是非共享磁盘的体系结构,需要手工修改数据分区,MSCS和ASE也是同样情况。ICX是一种基于中间件的数据库集群技术,对客户端和数据库服务器都是透明的。可以用来集群几个数据库集群。
【点评】系统通过化整为零的策略,将数据表格分散到多个服务器或者每个服务器分管几个内容不同的表格,这样做的目的在于通过多服务器间并行运算以提高访问速度。
对称多处理器系统:
利用多处理机硬件技术来提高数据库的处理速度。
所有基于数据库引擎的集群都支持这个技术。
【点评】将多CPU处理器进行合理调度,来同时处理不同的访问要求,但这种技术在数据库上的应用的实际收益是很有限的。
交易处理负载均衡:在保持数据集内容同步的前提下,将只读操作分布到多个独立的服务器上运行。因为绝大多数的数据库操作是浏览和查询,如果我们能拥有多个内容同步的数据库服务器,交易负载均衡就具有最大的潜力(可以远远大于上面叙述的最多达四个处理器的对称多处理器系统)来提高数据库的处理速度,同时会具有非常高的数据可用性。
所有基于数据库引擎的集群系统都只支持一个逻辑数据库映象和一个逻辑或物理的备份。这个备份的主要目的是预防数据灾难。因此,备份里的数据只能通过复制机制来更新,应用程序是不能直接更新它的。利用备份数据进行交易负载均衡只适用于一些非常有限的应用,例如报表统计、数据挖掘以及其它非关键业务的应用。
【点评】负载平衡算是一项“老”技术了。但将性能提高到最大也是集群设计所追求的终极目标。传统意义上,利用备份数据进行交易负载均衡只适用于一些非常有限的应用。
上述所有技术在实际部署系统的时候可以混合使用以达到最佳效果。
提高可用性的四种方法
硬件级冗余:让多处理机同时执行同样的任务用以屏蔽瞬时和永久的硬件错误。有两种实现方法:构造特殊的冗余处理机和使用多个独立的数据库服务器。
基于数据库的集群系统都是用多个独立的数据库服务器来实现一个逻辑数据库,在任意瞬间,每台处理器运行的都是不同的任务。这种系统可以屏蔽单个或多个服务器的损坏,但是因为没有处理的冗余度,每次恢复的时间比较长。
【点评】传统意义上,硬件越贵,性能越高,但往往事与愿违。想通过追加和升级硬件设备来改善硬件级的冗余,要进行详细的需求分析和论证。
通讯链路级冗余:冗余的通讯链路可以屏蔽瞬时和永久的通讯链路级的错误。
基于数据库引擎的集群系统有两种结构:共享磁盘和独立磁盘。RAC, MSCS 可以认为是共享磁盘的集群系统。UDB和ASE 是独立磁盘的集群系统。共享磁盘集群系统的通讯的冗余度最小。
【点评】通讯链路级的冗余具有容错功能。
软件级冗余:由于现代操作系统和数据库引擎的高度并发性,由竞争条件、死锁、以及时间相关引发的错误占据了非正常停机服务的绝大多数原因。采用多个冗余的运行数据库进程能屏蔽瞬时和永久的软件错误。基于数据库引擎的集群系统都用多个处理器来实现一个逻辑数据库,它们只能提供部分软件冗余,因为每一瞬间每个处理器执行的都是不同的任务。
【点评】改善软件设计来提高冗余性能和屏蔽软件级错误是每个技术开发商的梦想。传统的集群系统只能提供部分软件冗余。
数据冗余:
1. 被动更新数据集:所有目前的数据复制技术(同步或异步),例如磁盘镜像、数据库文件复制以及数据库厂商自带的数据库备份工具都只能产生被动复制数据集。它一般只用于灾难恢复。
【点评】大多数应用都是采用被动更新数据集的方法。这种方法容灾能力差,资源占用多,已面临淘汰和革新。
2. 主动更新数据集:这种数据集需要一台或多台备份数据库服务器来管理,它可用于报表生成,数据挖掘,灾难恢复甚至低质量负载均衡。分同步和异步两种。
异步主动复制数据集:先把事务处理交给主服务器来完成,然后事务处理再被串行地交给备份服务器以执行同样操作来保证数据一致性。所有的商用数据库都支持异步主动复制技术。
同步主动复制数据集:要求所有并发事务处理在所有数据库服务器上同时完成。直接好处就是解决了队列管理问题,同时通过负载均衡实现更高性能和可用性。RAC, UDB, MSCS 和 ASE是用完全串行化并结合两阶段提交协议来实现的,设计目标就是为了获得一份可用于快速灾难恢复的数据集。
【点评】主动更新数据集是目前比较先进的数据冗余方法。专业人员还可以进行更底层的技术细节比较。底层技术的差异直接影响着一些重要指标。
提高安全和数据集可扩性的技术
在提高数据库安全性和数据集可扩性这两方面,可以创新的空间是很小的。数据库最常见的安全办法是口令保护,要么是分布式的,要么是集中式的。在数据库前面增加防火墙会增加额外的延迟,因此,尽管许多安全侵犯事件是来自于公司内部,但是数据库防火墙还是很少被采用。如果数据库集群技术是基于中间件技术实现的,就有可能在不增加额外延迟的情况下,在数据经过的路径上实现防火墙功能。数据库数据集的可扩性只能通过将数据分布到多个独立的物理服务器上来实现。
2主流产品
在数据库集群产品方面,其中主要包括基于数据库引擎的集群技术的Oracle RAC、Microsoft MSCS、IBM DB2 UDB、Sybase ASE,以及基于数据库网关(中间件)的集群技术的ICX-UDS等产品。
Oracle RAC
Oracle RAC 支持 Oracle 数据库在集群上运行的所有类型的主流商业应用程序。这包括流行的封装产品,如 SAP、PeopleSoft 和 Oracle E-Business Suite 等,以及自主研发的应用程序,其中包括 OLTP 和 DSS,以及 Oracle 有效支持混合 OLTP/DSS 环境的独有能力。Oracle 是唯一提供具备这一功能的开放系统数据库的厂商。 Oracle RAC 运行于集群之上,为 Oracle 数据库提供了最高级别的可用性、可伸缩性和低成本计算能力。如果集群内的一个节点发生故障,Oracle 将可以继续在其余的节点上运行。如果需要更高的处理能力,新的节点可轻松添加至集群。为了保持低成本,即使最高端的系统也可以从采用标准化商用组件的小型低成本集群开始逐步构建而成。
Oracle 的主要创新是一项称为高速缓存合并的技术,它最初是针对 Oracle9i 真正应用集群开发的。高速缓存合并使得集群中的节点可以通过高速集群互联高效地同步其内存高速缓存,从而最大限度地低降低磁盘 I/O。高速缓存最重要的优势在于它能够使集群中所有节点的磁盘共享对所有数据的访问。数据无需在节点间进行分区。Oracle RAC 支持企业网格。Oracle RAC 的高速缓存合并技术提供了最高等级的可用性和可伸缩性。Oracle RAC能显著降低了运营成本,增强了灵活性,从而赋予了系统更卓越的适应性、前瞻性和灵活性。动态提供节点、存储器、CPU 和内存可以在实现所需服务级别的同时,通过提高的利用率不断降低成本。
Oracle RAC采用了“sharing everything”的实现模式,通过CPU共享和存储设备共享来实现多节点之间的无缝集群,用户提交的每一项任务被自动分配给集群中的多台机器执行,用户不必通过冗余的硬件来满足高可靠性要求。另一方面,RAC可以实现CPU的共享,即使普通服务器组成的集群也能实现过去只有大型主机才能提供的高性能。
Microsoft MSCS
数年以来,Microsoft一直致力于对自身服务器解决方案的伸缩能力、可用性与可靠性进行扩展。最初代号为Wolfpack且先后被称为Microsoft集群服务器与Microsoft集群服务的MSCS是Microsoft在NT集群技术领域中的首次重拳出击,它是公认的最佳Microsoft集群解决方案。在MSCS群集中,MSCS软件最多可以同四台运行在高速网络上的物理计算机建立连接。通常情况下,群集中的计算机能够按照“活动--活动”方式共享相同的存储子系统与功能,这意味着所有集群计算机(节点)均可主动通过共享负载的方式协同完成工作,并在某个节点出现故障时分担它的工作。MSCS的主要用途是通过自身提供的容错能力提高应用程序可用性。容错能力是指将相关处理过程从某个节点上的故障应用程序移植到集群中其它健康节点上的集群功能。当故障应用程序得到恢复后,集群应当能够对原先的集群节点实现“故障返回”。MSCS能够在不丢失任何与故障应用程序相关数据的前提下对集群上所运行的应用程序进行故障恢复与故障返回管理,并且能够在故障恢复过程中维护用户及应用程序状态。这种类型的集群功能被称作有状态集群功能。MSCS同时还允许用户在应用程序升级过程中继续进行工作。您可以采取滚动升级方式(例如每次在一个集群节点上升级应用程序并确保其它节点上的应用程序继续处于可用状态)而不必在升级过程中停止使用应用程序。
SQL Server 2005是微软的下一代数据管理和分析解决方案,给企业级应用数据和分析程序带来更好的安全性、稳定性和可靠性,更易于创建、部署和管理。它凭借针对故障转移群集机制的支持能力,得以增强的多实例支持能力以及分析服务对象与数据备份及恢复能力,分析服务的可用性得到了提高。它提供了诸如表分区、快照隔离、64位支持等方面的高级可伸缩,使用户能轻松构建和部署关键应用。表和索引的分区功能显著增强了对大型数据库的查询性能。
3性能指标
这部分将介绍集群系统的细节技术指标。在做系统规划时,用户就可去掉一些应用中不太重要的指标,或赋予这些指标以不同的权重,从而进行专业的技术性能比较,选择最适合自己的数据库集群系统。
处理速度
磁盘技术:所有集群系统都能很好地应用磁盘技术,但是由于DM,FM会对磁盘系统带来传输速度的负面影响,因此这方面它们相对欠缺。
数据分割:所有基于数据库引擎的集群系统都有很好数据分割能力。
SMP:所有基于数据库引擎的集群系统的SMP性能指标都比较接近。
负载均衡:一般的数据库引擎的集群系统由于使用了备份的数据集,因此只能支持有限的负载均衡。这一指标不同产品之间有差异。
数据可用性
处理器和软件冗余:只有部分集群系统支持该功能。
通讯链路冗余:一般来说,共享磁盘的集群系统通讯链路冗余指标较低,独立磁盘的集群系统指标较高。
数据冗余:
主动异步复制:除了磁盘和文件镜像外,其他集群系统支持该功能。
主动同步复制:所有集群系统支持该功能,细节指标略有不同。
被动异步复制:所有集群系统该性能指标都比较接近。
被动同步更新:所有集群系统该性能指标都比较接近。
通过广域网的复制技术:
远程主动异步复制:所有的集群系统都支持这种复制技术,只不过对队列的管理能力有所不同。DM,FM和RAID的此性能相对较低。RAID不支持远程复制功能。
远程主动同步复制:ICX在这方面做的比较好。
远程被动异步复制:DM 和 FM支持这种类型的复制,因为DM和FM对集群是透明的,是在集群系统的下一层工作的,所有的集群系统都可以利用它们提供的功能。
远程被动同步复制:DM和FM支持这种类型的复制,因为这种复制方式只在距离很近的时候才能使用(使用双模光纤,半径五英里)。同样地,因为DM和FM对集群是透明的, 所有的集群系统都可以利用它们提供的功能, 如果部署的话,所有的集群系统都是类似的。
安全性
口令:这是所有集群系统的基本性能。分布式或集中式的口令保护基本上保证了数据的安全。
数据库防火墙:大多数数据库集群系统得数据库防火墙很少被采用,而ICX则采用在数据经过的路径上实现防火墙功能。
数据集的可扩性
数据分区:所有基于数据库引擎的集群系统都具备数据分区以保证数据集的可扩展。
数据分区的可用性:所有集群系统该性能指标比较接近。
集群管理
共享磁盘的集群系统,比如RAC、MSCS,它们的管理比较方便,其中RAC的服务更多。但是,由于此种系统中的每一单独的服务器需要特殊处理,和独立磁盘的集群系统比较,就容易管理多了(虽然进行初始化和修改配置的时候也不那么容易),但它们都要求应用程序对集群不透明,而且配置,修改也比较麻烦。
独立磁盘的集群系统象 UDB、ASE此性能相对稍低,因为用的都是非共享磁盘,所以管理相对繁琐。
ICX在易管理性(初始配置和将来的修改)方面和独立磁盘集群系统的性能相当,但是在对底层数据管理复杂性方面做得比较好。在对数据库引擎和数据进行底层修复的时候任务需要直接到每台数据库处理器上去做。
那些磁盘工具,即DM、FM和RAID,它们对集群是透明的。管理相对简单得多。
应用透明度
因为在错误回复和分区方面对应用程序不透明以及它们对应用程序都有些特殊的要求,基于数据库引擎的RAC、MSCS、UDB、ASE和ICX在这方面都有待提高的地方。而DM、FM和RAID它们对应用程序可以说是完全透明的。
IBM DB2 UDB
DB2 UDB大量自动或自我管理功能可使管理员能够节省更多时间来集中精力考虑驱动业务价值的问题,甚至可以消除较小的实施项目对专职管理员的需求。
UDB的优势体现在DB2的开放无界:支持Unix, Linux 以及Windows等主流操作系统;支持各种开发语言和访问接口;同时具有良好的数据安全性和稳定性。DB2 V8.2的高可用性灾备技术,可在极短时间内使关键应用得到恢复。利用DB2数据分区部件(DPF)实现横向扩展,可以支持多达1000台服务器组成的庞大数据库群集,为构建企业级数据仓库提供坚实的技术基础。利用DB2的数据分区部件以及DB2信息集成器(DB2 II)技术,数据库操作可综合利用网格中的每台服务器的运算能力,实现真正意义上的网格运算。
UDB V8.2应用更多的创新技术,Design Advisor可以帮助 DBA 制定全面的数据库设计决策,包括集成复杂的功能划分、物化查询表,大大缩短部署时间。自动生成统计信息概要代表了来自 IBM LEO研发项目的首次部署。自主对象维护特性可自动执行基于策略的管理和维护功能,如表重构、统计信息收集和数据库备份。高可用性灾难恢复和客户机重路由特性实现了具备随选能力的企业所需的24*7信息可用性和恢复力。此外,DB2 UDB 提供与 Java/Eclipse 和 Microsoft .NET IDE的深入集成或插件。
SYBASE ASE
ASE性能的提高是建立在虚拟服务器架构上的,这是 Sybase 独有的体系结构。当前的ASE版本是ASE15。与操作系统和相关软件保持独立让ASE15可以更智能化地进行系统自我调优。VSA只需要很少的内存资源和内部交换开销,所以ASE15可以管理大量的联机用户。能够使ASE提高性能并控制成本的最主要原因是它采用了专利技术的、自调整的优化器和查询引擎。它可以智能地调整复杂的查询操作并忽略那些未包含相关信息的分区上的数据。ASE15还通过一系列用来管理和诊断数据库服务器的新特性来降低运营成本。
ASE15 拥有高可靠性和极低的运行风险。个人数据的安全性是ASE特别关注的领域,使用了一种无需修改应用的独特加密系统。当应用和安全软件进行连接时将降低实施成本并避免产生新的安全漏洞。ASE15 还通过一种简单、直接和可编程的脚本语言来方便进行加密和解密。在解决意外停机问题时,ASE15 在其已证实的可靠性和高系统利用率的基础上,增加了许多显著的功能来增强系统的可用性和灾难恢复过程。新的存储引擎支持四种数据分区方式,在不同的物理设备上进行不同的分区操作。能帮助数据库管理员迅速地建立冗余灾难恢复节点并在异构的数据平台上同步数据库。
ASE15系统新的查询和存储引擎被设计用于支持下一代网格计算和集群技术。它结合了充分利用数据分区技术的查询处理机制和适用于解决集群问题的优化器技术。同时ASE15为事件驱动的企业提供了一个绝好的数据库平台。与web services 和 XML的架构将减少系统内部的相互依赖性,并为应用开发提供更大的灵活性。
ICX-UDS
ICX-UDS不受基于数据库引擎的集群技术限制,可以支持不同的数据库。
它类似通常的服务器。把ICX放置在关键的网络路径上,监听数据库系统流量。ICX网关将自动过滤出无状态的查询访问,并将负载均衡到所有服务器上。在这里,网关就象一个在线“编译器”,它将所有对数据库的更新操作发送到所有数据库上执行,而将无状态的查询操作只发送到其中某一数据库服务器上。
对于统计报表和数据挖掘类应用,可以通过复制和只读去获得更快的处理速度。还能指定更多的只读来负载均衡。ICX 网关的容错可以通过备份网关来达到。加载一个非同步的数据库可以造出不影响主服务机群的近于实时的数据源。
4应用点评
Oracle RAC和Oracle数据库提供的特定新管理性增强功能实现了企业网格。各种规模的企业都可以采用Oracle RAC来支持各类应用程序。
企业网格采用大型标准化商用组件配置:处理器、网络和存储器。利用Oracle RAC的高速缓存合并技术,Oracle数据库实现了最高可用性和可伸缩性。现在,利用Oracle数据库和Oracle RAC将大幅降低了运行成本,进一步增强了灵活性,其动态提供节点、存储器、CPU和内存的特性可以更轻松、高效地保持服务级别,而通过提高的利用率又进一步降低了成本。企业网格是未来的数据中心,使企业具备更高的适应能力、前瞻性和敏捷性。
集群技术随着服务器硬件系统与网络操作系统的发展将会在可用性、高可靠性、系统冗余等方面逐步提高。我们汇集了市场上的主流产品,并从分析性能指标的角度出发,对产品进行了简要评价。
Sybase ASE是一个深受用户欢迎的高性能数据库,它具有一个开放的、可扩展的体系结构,易于使用的事务处理系统,以及低廉的维护成本。
ASE可支持传统的、关键任务的OLTP和DSS应用,并且满足Internet应用的发展需要,Sybase可以很好地满足关键任务的企业业务应用的需求,提供数据库可靠性、集成性和高性能。ASE有效的多线索结构,内部并行机制和有效的查询优化技术提供了出色性能和可伸缩性;还可提供先进的企业集成、强健和数据访问与数据移动技术,支持跨越远程Sybase和non-Sybase数据库的分布事务和查询。ASE进一步扩展了这些功能,通过分布信息和管理商业事务,支持通过企业信息门户对商业系统进行个性化的用户访问。
MSCS对于诸如电子邮件服务器、数据库应用程序之类的应用程序,是一种良好的运行方式。
假设您决定在一个4节点MSCS群集上运行Microsoft Exchange 2000 Server。当安装MSCS软件以及适用于群集的Exchange 2000版本后,您可以对群集进行配置,以便使Exchange 2000能够在主要节点发生故障时在备份节点上进行故障恢复。当故障发生时,主服务器上肯定存在处于打开状态的用户会话,然而,MSCS能够在不丢失任何数据的情况下快速、自动的完成故障恢复。备份节点将从故障节点上接替工作负载及相关数据,并继续为用户提供服务。
ICX的最大优点是在数据库集群技术面临的挑战上有了新的探索,此项基于中间件的数据库集群技术为获得具有高可扩性的高性能数据库提供了一条切实可行的途径,同时能灵活地适应未来的技术变化。
这种中间件复制技术可位于关键的网络路径上,监听所有进出数据库系统的流量,方便地提供防火墙和其它安全服务,保护物理的数据库服务器。通过多个服务器的并发处理很容易地隐藏了处理的延迟。实时并行同步交易复制:一旦我们突破了实时并行同步交易复制的技术障碍,用户就能通过由多个数据库服务器构成的集群来获得高性能,高可用性和高安全性。
DB2 UDB是一个可以随企业增长的数据库。当对网站的事务需求达到峰值时它可以迅速响应,它可以进行扩展以容纳分布在许多不同数据库中的数量不断增长的信息。
随着信息基础结构从一个处理器发展到多个处理器再到高度并行的多个群集,它也随之扩展。将分区技术和群集技术集成到新的 DB2 UDB Enterprise Server Edition 中意味着该版本很灵活。DB2 UDB还添加了自主数据库技术,它使数据库管理员可以选择使用增强的自动化技术来配置、调优和管理他们的数据库。自主数据库管理意味着管理员可以在管理日常任务上花费较少的时间。表的多维群集减轻了 DBA 创建索引的工作负担,同时提供了数据群集以快速查询。DB2内置的已规划的和未规划的可用性能力确保了业务应用程序在任何时候都可用。诸如索引重建、索引创建和表装载之类的联机实用程序以及可以不停止数据库进行更改的配置参数,都意味着改进的性能和高可用性。
【相关链接】
理想的数据库集群应具备的特点
提高速度:只通过简单地增加数据库服务器就能相对提高数据库处理速度。
数据同步:在任何时刻需要有多个随时可用的实时同步数据服务。最好有多个异地的同步数据服务。
安全保证:除了密码保护之外,我们最好能控制企业内部对数据库的非法访问。
可扩展性:应保证我们能任意增大数据集而没有对可用性产生负面影响。
一般来说,有关数据库集群的技术都非常庞杂。更具挑战性的是,实际应用要求在提高速度、数据同步、安全保证、可扩展性方面的指标能同时提升,而不是单纯提升某一指标而牺牲其他指标。全面提升这些技术指标是数据库集群技术都将面临的重大课题。
【名词解释】
集群:是一组通过协同工作方式运行同一套应用程序并针对客户端及应用程序提供单一系统映像的独立计算机。集群技术的目标在于通过多层网络结构进一步提高伸缩能力、可用性与可靠性。
可伸缩性:是指一台计算机在维持可接受性能的前提下处理不断提高的工作负载的能力。