金橘树范例6篇

前言:中文期刊网精心挑选了金橘树范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

金橘树范文1

大数据服务

我们可以干点儿啥

国家信息中心常务副主任杜平表示,如今在某些应用领域,信息尚未完全流动起来,这给大数据产业以及服务提供了发展空间。目前,大数据已经不单单是概念,应该通过服务表现。而京津冀大数据产业联合发展,将成为促进大数据产业以及服务进行跨部门、跨区域部署发展的催化剂。

目前,大数据服务如果从第三方的角度来看,大致可以分为两种类型,一种是平台商,另一种是服务商。无论是硬件还是软件,可能人们更关注直接提供服务的这部分市场,特别是聚焦到第三方服务的小市场。

大数据服务在筛选服务对象的过程中,往往遵循这样的规律:作为企业,首先要具备信息化和标准化的平台、数据库,另外涉及这样的服务需求。实际上对于大数据服务,本身的差异性可以从数据采集的方式,分析方法,从结构化的计算到非结构化等方面表现出来。例如大家经常用的滴滴,每天数据处理量是70TB,甚至现在可以基于滴滴的数据了解到整个城市交通情况的数据。现在有很多企业通过购物偏好推接购买产品,更多通过对其行为属性、行为习惯等方面打标签,甚至从价值观角度进行判断。例如一个人如果常年喝依云,购买农夫山泉的可能性有多大?可以根据这样的属性推导相应的营销现场,进而判断用户购买路径、会员服务或购买建议等。所以对于第三方服务来说,基于不同阶段的企业会有不同的服务方式。

慧辰资讯TMT互联网研究部总经理刘赞对《中国信息化周报》记者表示:“大数据服务会有四种趋势,针对服务的企业对象其信息化基础不同,服务的三个阶段肯定是并存的。从三个阶段发展方向来讲,第一阶段是满足基础的信息化需求,下一步是整合内外部数据,第三阶段是通过数据为导向的应用要求,未来数据会成为企业的生命线并作为服务基础。”从数据本身来讲,有数据才有大数据服务。如今一些互联网巨头,例如谷歌和百度,都把自己资源平台开放出来,但并不是所有的企业都需要进行私有云的部署。尤其是数据量庞大之后,肯定是会有这样的公共计算资源平台。

“实际上现阶段不是所有企业都有大数据,但不可否认的是已经有很多企业,例如快销品行业或手机终端企业,会结合自己本身企业的数据,去做大小数据的结合,这其中包括互联网数据、环境监测数据等,还有一些企业内部战略的数据。所谓的大小数据,大数据包括互联网相关的产品评论数据和用户参加活动的数据等,小数据是包括企业内部的CRM数据等。如果采用传统方法,这些数据是很难结合在一起的。如今采用大数据的计算模型就会简单很多,这或许可以给京津冀大数据企业发展带来一些启发。”刘赞补充道。

为生活洞见数据的美好

2013年,广州市政府审批一个大项目需要700个工作日,开发了政务数据整合系统,将数据进行打通后,审计进程从700多天减少到27天。这对政府来说是很好地利用大数据整合连接并提高效率,对企业来说也很受鼓舞。

不单单是广州,京津冀大数据产业的蓬勃发展同样离不开企业的参与。众所周知,浪潮是国内硬件产品的代表企业之一,自从进入大数据时代,尤其“互联网+大数据”热潮濒临之际对许多传统产业冲击的同时,浪潮也在不断思索如何改变自己适应时展的要求,利用大数据方面的知识积累尝试一些突破,例如搭建创客平台,帮助广大中小微企业创业者获取大数据资源和工具平台,助力包括京津冀在内的地方政府实现大众创业、万众创新发展。例如,美国将政府的数据做了很好的整合,在谷歌导航中将门牌号、地址全部标准化,基于这种思考,浪潮进行了“卓数平台”的开发,收集来自互联网和政府开放数据,通过数据服务、API工具对创客或开发者提供数据服务,延展了“数据开发服务”的思路。“如今随着大众创业、万众创新的风靡,我们把与数据相关联的创业人员分两类,一类是创客,即应用数据的人,另一类是生产数据的人,一起加工处理数据。其中浪潮提供一个治理平台,涉及到基础设施、服务器、数据处理工具、数据的挖掘分析工具等,到现在为止有小小进展。”浪潮云服务集团有限公司数据服务事业部总经理徐宏伟对《中国信息化周报》记者说。

在济南,一家公司利用浪潮的平台生成了钢铁、水泥等数据,做数据服务。开放了一个DP为一千多家建筑公司、两千多家造价师提供服务,有这样一个及时并实时提供数据的APP,造价师可以精确地在每一次进行采购时,优化采购的库存调整。在焦作,浪潮把数据采集提供给河南大学的学生们,他们把当地特产铁棍山药的数据做了收集,形成铁棍山药产业数据库。如今政府利用数据库分析依据,向铁棍山药批发、运输、加工企业提供数据。可以说浪潮将大数据服务的方方面面运用得恰到好处,时刻洞悉数据见证生活美好的道理,为京津冀大数据企业发展做出了榜样。

大数据

发展正从渗透走向落地

总结大数据产业未来发展的重点方向,首先还需要国家以及政府的指导,这对京津冀大数据发展至关重要,需要充分发挥政府引导作用,努力创新拓展大数据发展领域、内容以及模式。

金橘树范文2

年岁末,一份怀胎十月、即将分娩的《有色金属工业“十二五”规划》,引发了业界高度关注。

根据该规划,国家将对钨、钼、锡、锑、稀土等战略性小金属的发展做出专项规划,并提出“建立完整的国家储备体系”。

有关“收储小金属”的传言,已有多次,每每带动小金属价格一轮接一轮飙升。比如,2011年5月,国务院下发《关于促进稀土行业持续健康发展的若干意见》,明确提出建立稀土战略储备,之后两个月稀土矿产价格上涨超过500%;其他非稀土小金属也纷纷发力上扬,钨精矿、甚至用量极有限的精铟价格,均上涨了两倍多。

2011年后半年,小金属价格新一涨后,收储政策却迟迟不见踪影。失去政策支撑的市场初现塌陷:一个月间,碳酸稀土价格下跌50%左右,氧化镨钕下跌约30%,钨精矿下跌20%,精铟价格下跌30%……

此次,传说已久的收储政策是否能够真的出台?

小金属豆腐价

2011年11月26日,商务部公布了2012年第一批有色金属出口配额,钨、锑、铟、锡、钼等5种战略性小金属和贵金属白银出口配额共计6.28万吨,与2011年的6.42万吨相比,略有降低。

这正切合了此前的一个业界传说:商务部正在调整稀有金属出口政策,预计其出口配额将以2%至3%的幅度逐年递减。

按有色金属使用范围和产量分类,可统分为基本金属、贵金属和小金属三类。基本金属即所谓大金属,主要包括铜、铝、铅、锌等储量、产量和使用量都较大的品种;贵金属主要指金、银、铂等;而小金属,一般指除基本金属和贵金属之外的有色金属。其中,钨、钼、锡、锑、铟、锗、镓、铌、钽、锆,是涉及“十二五”国家战略储备的10种小金属;我国重点保护的稀土类金属,亦属小金属。

从此次配额情况看来,不仅总量微幅下降,其中初级原料的配额量更是大幅收缩。譬如,2012年钨酸及盐类的第一批出口配额下降了67.27%,氧化钨配额也下降了13.24%,但钨粉及其制品配额却大幅提升了71.67%。

这清楚表明了我国对稀有小金属的出口态度:提升产品附加值,不再以简单、初级产品的出口国面目出现。

这并不足为奇:国家统计局公布的10种有色金属产量,小金属产量占比虽不足5%,但却是现代工业和战略新兴产业不可或缺的矿产。

长期以来,我国对小金属用途的研发有限,钨、钼、锡、锑、铟、锗等战略资源一直只是出口创汇的工具。上世纪90年代,国家下放采矿权,各地出于对矿产利益的追逐,各种小金属和煤矿一样,都陷入了一哄而上、各自为战、有水快流的乱局。

“金子卖了豆腐价”。小金属矿产市场需求量本来不大,严重供应过剩更是带来了竞相压价的恶性竞争,最终导致我国本该掌握的国际市场价格话语权彻底丧失。

比如锡,因为储量有限,曾与钨、锑、稀土并称为中国“四大战略资源”。在上世纪90年代,锡作为中国优势矿产,产量一度占到全球1/3;但因大量出口,以及全球电子产业向中国转移,2005年后中国竟成锡短缺大国,反而大量进口。

再如制作硬质合金必不可少、被誉为“工业牙齿”的钨。“中国正以65%的储量,支持着世界85%以上的钨资源供给,我国钨资源优势快速弱化已是不争的事实”,中国国土资源经济研究院研究员陈甲斌告诉《财经国家周刊》记者,“目前,我国钨精矿产量接近10万吨,而国内消耗不足3万吨;全球稀缺的钨矿,我们却以氧化钨、钨酸盐、钨钎杆、粗钨丝等初级产品形式,大量出口到国外”。

依照目前开采进度,我国钨资源仅能维持不到25年;而俄罗斯与加拿大的静态储采比分别达到100年和400年。

“从某种程度上说,中国的一些优势小金属,又是‘下一个稀土’,面临着行业混乱和开采失控的危机局面”,全国矿业联合会产业发展部总工程师吴荣庆对《财经国家周刊》记者表示。

“国储”谋局

据工信部原材料工业司司长陈燕海向《财经国家周刊》记者介绍,中国的钨、铟和稀土等稀有小金属储量居全球第一,产量占全球80%以上,钼、锗等稀有金属储量和产量也居全球前列;但由于国内市场的恶性竞争和低位价格战,使得中国稀有金属资源浪费严重。

必须迅速建立稀有金属战略储备制度,提升中国在稀有金属上的贸易定价权和话语权――这几乎成为所有业界人士的一致呼声。

《财经国家周刊》记者了解到,即将出台的《有色金属工业“十二五”规划》提出的“完整的国家储备体系”,包括企业储备、国家战略实物储备和矿产资源地储备三种。

企业储备也包含在国家储备体系中,“这意味着,一些生产比较集中的小金属,如果企业储备能够达到控制产量、稳定价格的目的,国家财政就不会做过多投入”,业界人士如此分析;

业界人士告诉《财经国家周刊》记者,对那些产量较小、战略地位突出的矿产,如南方重稀土,或者主要依赖进口的矿产,如铌、钽、锆等,可能会更早实施国家实物储备;对于一些伴生矿,如铟、锗、镓等涉及我国下一步新技术转型,且目前下游开发不足,又受主体矿产影响、市场波动较大的矿产,也会优先考虑国家实物储备;

而对于产量较大、超采严重的品种,如北方轻稀土、钨、钼、锑等矿产,将会实施矿产资源地保护政策。

“十二五”期间,我国将在首先满足国内需求的基础上,实施矿产资源总量控制,并形成几个大型综合矿业集团,结束矿产资源小散乱的生产局面,基本达到矿上生产与资源储量相匹配的状态”,吴荣庆对《财经国家周刊》记者表示,“至于矿产价格将由市场自己决定”。

事实上,对于稀有金属的收储期待,由来已久。

在《国土资源“十一五”规划纲要》中,曾经明确提出建立矿产资源储备机制,并推进重要矿产资源战略领略,启动铁、铜、铝、锰、铬、钾盐等非能源短缺性矿产和稀土、钨等优势矿产的矿产品战略储备,逐步推进探明矿产地的战略储备。

再往前追溯到上世纪八十年代中期,由于钨产品供过于求,诸多国有钨企生存艰难,国家也一度对钨砂进行了收储。

“小金属国储政策何时出台我不知道。但是,建立小金属国家战略储备、建立矿产储备资源基地和采矿权清理整顿的工作正在进行。只是国内外对此过于敏感,我们要悄悄进行”,国土资源部储备司副司长许大纯在接受《财经国家周刊》记者采访时表示。

许大纯认为,小金属资源保护,其意图就是要提高矿产资源综合利用能力、环保能力、后续深加工能力,实施产业升级,对不能达标的企业实施淘汰。

前车之鉴

事实上,在国家层面的收储尚未出台之前,地方政府早已经开始了小金属的收储尝试,其中,以包头和赣州最具代表性。

2008年,全球金融危机导致国际有色金属行情下滑,出口滞销,一些以小金属为支柱产业的地方政府难以承受,于是展开收储。

2008年12月,内蒙古组建了包钢稀土国际贸易有限公司,开始对包头生产的稀土产品进行储备的初步尝试;

2009年1月,江西赣州市政府决定收储18亿元的钨和稀土产品,以支持当地钨和稀土产业;

2010年2月,内蒙古人民政府批准包钢稀土国际贸易有限公司实施包头稀土原料产品战略储备方案。其方案是,储备资金主要由企业自行承担,自治区、包头市、包钢集团共同给予贴息支持,自治区贴息1000万元,包头市贴息1000万元,其余由包钢集团贴息。

2011年5月,小金属重要组成部分的稀土,又开始新一轮行业整顿:大量从事开采、选矿、冶炼的民营小企业纷纷被关停或被兼并重组,包钢稀土(600111.SH)获得了对包头稀土矿产的统购、统销大权;在南方,以五矿、中铝等央企为核心的稀土矿产整合也初具规模。

与之伴生的,是稀土价格的一路飞涨。2011年5~7月,3个月间稀土价格上涨超过1倍。

不料,2011年8月,稀土开始上演暴跌行情。一个月间,碳酸稀土价格下跌50%左右,氧化镨钕价格下跌约30%。2011年9月19日,包钢稀土以90万元/吨的价格开始收储回购,价格才得以稳定。

“市场如此动荡,企业生产几乎无法进行,所以只能选择停产、惜售,经济发展从何谈起?”一位稀土永磁材料生产企业的负责人对《财经国家周刊》记者表示。

“先要搞清小金属价格暴涨暴跌的实质。”全国矿业联合会总工程师吴荣庆表示。

《财经国家周刊》记者有幸获得了一份由工信部委托调研的资料。资料显示,目前国家对于北方轻稀土主产地包头的年规划产量只有4万多吨,而实际调研产量却达到了9万多吨;南方重稀土失控更为严重,仅广东河源等地,碳酸稀土规划产量只有2000吨/年,而实际产量却达到了3.5万吨,超产近20倍。

“每一吨的超采都是非法生产。一个将价格建立在违法生产基础上的产业,势必在政策的风吹草动前显得惊恐不安。一旦政府按照规划产量实施矿产封存储备,那么,整个依托于非法生产支撑的小金属市场必然坍塌。”吴荣庆说。

《财经国家周刊》记者了解到,我国的非稀土类小金属,如钨、钼、锑等,都存在着严重的非法生产、销售问题。

以钨为例,2009年钨精矿的总量规划指标只有6.81万吨,而实际产量却达到9.91万吨,超采45.5%;并且,各类加工企业利用国家出口政策漏洞大肆变相出口钨资源。

金橘树范文3

正如ESG的创始人兼首席分析师Steve Duplessie所言,数据增长虽然是自然产生的,但是大部分数据都是由于科学研究产生的。如数据扩展、副本、副本的副本、备份副本的副本等等,就像细胞的裂变一样,并且是无休止的。姑且不论数据的持续增长带来的是好事,还是坏事,但是很明确的一点就是,企业对于这些数据的依赖度越来越大,这些数据甚至可以影响到企业的生存。面对这样庞大和重要的数据,企业IT主管不得不开始考虑如何有效、经济地进行数据存储和保护,来确保这些数据的完整性和安全性。ESG曾对企业面临的数据保护难题进行过调查访问,虽然困扰终端用户的数据保护难题不仅普遍还五花八门,但是位居首位的难题却是如何减少备份次数、降低存储系统成本、跟上被保护数据容量的步伐以及减少恢复次数。

根据企业规模和复杂程度,数据保护进程可分很多种,主要包括从特定的手动干预到高度复杂化的自动连续进程等。显然,越来越多的企业将磁盘和磁带存储系统(本地和异地)视为数据保护架构的一部分来部署,作为一种新的广域/远程备份技术和第三方服务。在图1中,ESG调查的企业被分类显示,来反映当前市场动态的高级类别。

ESG调查的企业中,大多数(55%)表示,数据最初是备份到本地存储站点,然后通过移动介质发(如磁带)送至远程存储站点以便长期保存。其中的一部分企业完全依赖本地存储,并且不将数据转移至远程站点进行长期保存。与大型企业(15%)相比,更多中小企业(24%)采取这种危险系数颇高的做法。从这点来看,大型企业(21%)比中小型企业(13%)更有可能将复制并人二级站点作为整个数据保护战略的一部分,并且更有可能通过广域网将数据直接备份至二级企业站点。最后,在ESG的抽样调查中,仅有1%的大型企业目前还依赖第三方提供的备份服务,并将其作为管理备份和恢复进程的主要手段,而中小型企业当中结果几乎没有采取这种策略的。

低成本的数据保护技术

正如我们所见,当今的企业困扰的众多的数据保护难题都导致企业数据有遭受潜在损失的风险。因此,这就促使企业开始寻求更多样更先进的技术来切实进行数据保护。然而,在当前的经济形势下,出于整体运营以及宏观经济的考虑,很多企业都开始紧缩IT预算。因此,企业更青睐那些能够在企业的IT预算内优化企业现有存储资源的数据保护技术,这些技术能够提高存储效率,降低成本,将更少的数据备份至磁盘,恢复速度更快,并且对企业的业务拓展也能够提供助力。这些技术包括:

容量削减技术:如重复数据删除的使用,通过削减备份至磁盘的数据量,用户可以最大限度减少冗余数据的存储,提高备份速度并最大限度增加磁盘空间。除了减少存储系统和介质成本,容量削减还意味着减少数据通过WAN迁移和复制所需的带宽,从而带来额外的潜在成本节省。除了以上的成本削减以外,部署重复数据删除技术也许还有一个更加重要的原因:通过降低本地和远程数据保护所需的存储量和带宽,企业可以显著提升数据保护水平,并快速、可靠、经济高效地进行数据恢复。

虚拟磁带库(VTL):据ESG最近的调查报告显示,随着企业对业务连续性、安全性的要求日趋严苛,越来越多的用户采用磁盘或磁盘与磁带混合的方式来满足数据保护需求。而在基于磁盘的备份解决方案中,虚拟磁带库(VTL)备受用户的推崇。VTL不仅能够加快备份和恢复的速度,提高备份成功率并增加数据可用性,同时降低数据保护成本。可通过软件或基于软件的应用,来部署VTL。

虚拟化:虚拟化不仅可简化存储管理的复杂性,降低存储管理和运行成本,同时还提高存储效率,降低存储投资的费用。显然,在当前的经济拮据时期,虚拟化更是引起人们的关注。如精简技术,不仅能降低50%的数据总成本,还可以减少预期存储成本,帮助企业削减电能和冷却开支,并能提高其10倍的管理效率。2008年10月的ThelnfoPro Wave 11存储调研报告显示,87%的受访企业已经认识到精简配置对于其自身数据中心计划的重要性。

分支机构的远程备份:所谓远程备份解决方案,也就是通过广域网将数据备份至集中管理的数据中心,降低远程和分支机构的本地存储硬件、介质以及人力资源的利用率,从而帮助企业降低成本。目前,已经有24%的企业将远程数据保护解决方案列入了未来几个月最先考虑的存储措施,达到实现企业成本缩减的目的。而那些不采用分支机构的远程备份企业仅仅占到12%,这也就不足为奇了。

磁盘到磁盘的备份:将数据迁移至磁盘到磁盘的备份架构可以直接或间接降低成本,所谓的直接,就是减少或消除磁带介质以及媒介管理成本;而间接则是通过减少恢复时间、提高可用性以及避免数据丢失和/或应用宕机造成的成本,从而降低成本。

低成本串行ATA磁盘的使用:与主要采用FC磁盘相比,将廉价的串行ATA磁盘作为备份介质能够节省大量金钱。有知名调研机构声称,自从2001年上市以来,串行ATA磁盘的出货量超过了65000万。大多数存储厂商已经将SATA磁盘纳入其阵列。

数据保护将推动专业服务发展

现在,企业都非常明白对数据进行保护的重要性。但是对于中小型企业而言,由于人力资源以及专业技能的缺乏,他们很难对数据实施全面的保护,这个时候,他们就迫切需要寻求第三方企业来提供专业服务。ESG曾就面临数据保护难题(备份和恢复是头号存储难题)拇企业与那些寻求相关专业服务的企业之间的相互关系进行过调访。如图3所示,关注备份的受访者中有31%表示,在未来12个月内他们很有可能寻求第三方专业服务公司进行备份和恢复的评估、设计或实施,而并不视备份和恢复为首要的存储难题的受访企业中只有19%有此计划。这表明,中型企业将寻求第三方协助来设计和实施必要的新技术和进程,从而提高备份和恢复成功率。将备份和恢复视为首要存储挑战的企业也更为倾向于寻求以灾难恢复为目的的评估、设计和实施服务,这表明部分客户期望更全面地了解其企业的数据保护环境。

管理大师Peter Drucker曾说过:“预测未来就好比是夜间在没有路灯的乡间小道中行驶,并不时地透过后背窗看外面的风景。”

金橘树范文4

商业智能精英

从成都科技大学水利专业毕业后,带着闯世界的决心,刘世平来到了美国。中国人特有的聪明勤奋使依阿华州立大学统计学硕士,北卡罗来纳州立大学经济学硕士及博士IBM全球银行数据挖掘咨询组组长及全球服务部商业智能首席顾问等学位、头衔纷至沓来。

在IBM工作期间,刘世平曾先后在数据挖掘的方法及应用领域取得4项专利,2001年荣获IBM发明大奖,曾多次被邀请为来自美国 欧洲、亚洲包括中国等不同行业的高级管理人员讲解商业智能。在上世纪90年代末,中国人民银行也曾聘请时任IBM全球银行数据挖掘咨询组组长的刘世平回国为金融行业的高级管理人员讲解征信管理体系。刘世平在业内被公认为代表着全球商业智能领域的高水平。

所谓商业智能是从企业不同的数据源收集数据并进行有效的整合通过查询、报表多维/统计分析,数据挖掘技术把数据转化为有用的信息,为企业的管理和决策提供科学依据形成一个“数据信息一知识商业活动一盈利能力”的价值链。商业智能可以帮助决策者快速掌控企业各项职能的运转对市场做出快速、准确的分析制定正确的发展战略。

“创业是平等的”

2002年刘世平回国在中关村国际孵化园创办了以商业智能为主营业务的吉贝克信息技术(北京)有限公司。经过3年的经营公司荣获中关村最具发展潜力十佳中小高新技术企业最具技术创新能力奖。刘世平本人获2005中国金融lT年度人物。

“创业是平等的。”刘世平回顾自己的创业历程时如是说。

在刘世平回国创办吉贝克的时候他认为,“凭借自己在IBM时所积累的名声、人脉、资源等优势公司的订单应该是不愁的。”然而,在吉贝克开始运营的时候刘世平不想遇见的事情偏偏发生了。脱离了IBM的光环没有了资金和品牌的优势,客户的信任度极大地降低很多客户因对吉贝克不认同而不采购他的产品和服务。接二连三的“闭门羹”使一向乐观自信的刘世平有些乐不起来。

在经过不懈地努力后,刘世平终于接下了第一笔订单交通银行上海分行后台决策支持系统开发。这是一笔30万元人民币的订单。对于曾经年薪几十万美元的刘世平来说30万元人民币不算什么,可是对于公司和刘世平的创业梦来说这笔订单的意义要远远大于30万元。刘世平很清楚:“做好一件事情就能起到示范作用。”一个成功的案例既能证明吉贝克又是产品市场化的实现,而且为企业今后的发展奠定了基础。刘世平紧紧抓住这个机会调动他所有的能量,努力使客户满意,巩固与客户的联系……第一单成功了。优质的技术服务和产品质量为吉贝克带来了良好的声誉,也带来了更多的订单。刘世平的企业成功度过了企业初创期的“死亡谷”进入到了成长和高速发展期。

保持商业智能领域的技术优势

“企业的发展离不开一支高水平的团队。”刘世平说。在短短的两年之内,吉贝克的员工由2人上升为140多人而且这些人中本科以上学历者占98%硕士以上学历者占58%,具有海外工作经验及学习经历者占员工总数的10%另外还有多名博士。

刘世平每年在专业性的杂志上发表前瞻性的文章,“这可以让别人觉得你是超前的。”刘世平如此解释。有时候,在刘世平确定相关文章大体的格局以后,会把文章交给团队去“填空”,“团队中的大部分人都可以完成文章的写作。”刘世平说。刘世平能够做到这些,不仅仅因为他曾是IBM的高管。在回国以后,他主动依托一些平台。目前,刘世平在担任公司总裁的同时,还兼任中科院研究生院教授、中科院金融科技研究中心首席科学家、副主任等职,时刻关注学术发展动态,进行学术研究。在中科院,他每年都会上一门课,带4~5个研究生,通过产学研的紧密结合来实现技术的领先。

吉贝克的IT蓝图正一步步地成为现实。以其代表产品商业智能前端展示工具OE为例,由于许多企业都已积累了大量的业务数据,他们记录了企业在生产和经营中的原始信息。然而,由于无法进一步对这些数据资源加以挖掘、整理和开发利用,所以,也就难以让这些数据为领导决策和企业经营管理提供科学依据。OE正是为企业消除上述烦恼并追求持续发展提供的一种工具。它可采集、整理来自企业各层次的原始数据,并能迅速生成所需各种分析报表和显示业绩指标,使企业领导和各级主管及时了解生产状况和经营状况。该产品由于其技术创新、市场广阔而于2004年12月获得国家科技部中小企业技术创新基金无偿资助,现已通过专家评审验收:2004年6月获北京市火炬计划项目证书,并成功通过微软公司Windows Server Logo认证,荣获微软企业合作伙伴优秀解决方案奖;并于2005年8月被选入2005年“中国500最佳新产品”排行榜。目前吉贝克形成了奥银、奥证、奥信、奥险、奥网、奥医、奥企和奥易等横跨多个行业的产品线。

“舢板”与“航母”竞争

在商业智能领域,有许多全球一流的大公司,如IBM.NCR.SAS.爱森哲,路透。毕博等。吉贝克在规模上与这些公司存在巨大差异。这种竞争被刘世平比喻为“舢板与航母的竞争”。然而在技术上,刘世平却并不这么认为。数据挖掘作为商业智能的核心技术也是吉贝克最核心的技术,“我们的数据挖掘技术在中国甚至是国际上都是最先进的水平。”刘世平说。

对于他人有关吉贝克的产品与其他大型公司,尤其是对比IBM的产品孰优孰劣的询问,刘世平总是斩钉截铁地回答说:“我能告诉你的是,我作为吉贝克的人能为你做什么。我关心我做的事情。而且,我在IBM时,IBM对我不薄。”

但是刘世平也清楚,自己在品牌方面的劣势。在国内,采购软件和服务的都是大型企业,他们更偏向于外国企业,这种选择对刘世平的企业发展造成了极大的障碍。但是,刘世平将服务和产品质量是第一生命线的价值观赋予了吉贝克,努力使公司的每一个服务和产品都使客户满意。在市场深度上大做文章,这也是吉贝克的市场特点:同客户深度合作。如继中信银行与吉贝克合作了零售信贷系统,公司银行数据仓库系统之后,中信银行与吉贝克再次牵手中信资产数据库的建设。2002年拉开了为上海证券交易所服务的序幕,至今一直保持着良好的合作关系,提供了多个优质的服务项目。2003年开始为兴业银行做服务,现在服务的项目也是越来越多。

经过几年的不懈努力,吉贝克凭借自身在商业智能方面的实力,实现了100%的客户满意度和80%以上的客户回头率,已经为国内众多行业的高端客户提供了服务。上海证券交易所、中国证券登记结算公司,银河证券、交通银行、兴业银行、中信银行,北京移动等大型企业纷纷加入到吉贝克的客户阵营。

刘世平的目标是,用几年的时间将吉贝克打造成商业智能服务领域的领导者之一,在做大商业智能这块蛋糕的同时,获取领先的市场份额。

金橘树范文5

关键词:聚类分析;初始中心点;K-原型算法;聚类算法;混合属性数据

中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)11-2713-04

A K-prototypes Algorithm Based on Improved Initial Center Points

CHEN Dan, WANG Zhen-hua

(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithm's procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes.

Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data

聚类是数据挖掘中的一种数据分析技术,具有重要意义和很强的挑战性。其基本原理是将数据划分成有意义的簇,相同簇的对象之间具有较高的相似性,而不同簇的对象之间则相似程度较低。这种数据分析技术广泛应用于模式识别、数据分析、图像处理和商业研究等方面。目前已划分出多种聚类算法,常见的聚类算法有基于划分的K-均值,基于密度的DBSCAN算法,基于层次的BRICH算法等。基于划分的聚类算法K-means简单快速,对处理大数据集,但它是基于欧氏距离的划分,难以满足混合属性集聚类的要求。文献[1-2]对K-means算法进行扩展,先后出现了K-modes算法和K-prototypes算法。K-prototypes算法能够有效地处理混合属性数据集聚类的问题,但它的缺点也很明显:1) 对于不同的初始值,可能会导致不同的聚类结果;2) 需要用户给定初始参数,这些参数的选择需要用户具备大量的先验知识才能确定,而用户通常对数据集缺乏先验知识导致所选参数对聚类结果产生很大的影响;3) 算法非常容易受“噪声”干扰,导致聚类精度下降。

近邻法是由Cover和Hart于1968年提出的,是非参数法中最重要的方法之一。它的原理是以全部训练样本作为代表点,计算测试样本与所有样本的距离,并以最近邻样本的类别作为决策,具有原理直观,方法简单等优点。因此,本文提出了一种基于近邻法的初始中心点选择策略对算法进行改进,利用近邻法,启发式地获得初始中心点和k值。最后用一个基于最小距离的规则来识别异常数据点,防止“噪声”的干扰。

改进后的算法能有效地解决传统K-prototypes算法的缺点,基本特征有三点:1) 在选择初始中心点的时候,采用近邻法,有依据的选择初始中心,避免了传统K-prototypes算法对初值选择的盲目性;2)它可以自动的获取k个聚类,解决了K-prototypes算法k值必须预先给定的问题;3)为了避免算法中的“噪声”干扰,采用了一个基于最大距离的启发式规则,将离聚类中心最远的数据点识别为“异常数据点”;经过实验证明,其聚类后的精度和稳定性要优于原算法。

1 K-prototypes算法

K-prototypes算法是由Huang提出的可以对分类属性和数值属性相混合的数据进行聚类的一种有效算法[2]。其基本思想和K-均值算法类似,只是在K-prototypes算法中定义了一个对数值与分类两种属性都计算的相似性度量,以此作为聚类的目标函数,通过不断更新聚类原型来达到优化目标函数,获得最优聚类效果的目的。

算法描述如下:假定待聚类对象集合为X={X1,X2, …,Xn},由n个观测对象组成,属于混合型数据集,且每个观测对象Xi={Xi1,Xi2, …,Xin}有 个属性,由A1A2, …Am来表示,其中A1A2, …Ap为数字属性,Ap+1A p+2,…Am为可分类属性,属性Aj取值域用Dom(Aj)表示,且xij∈Dom(Aj)。对于可分类属性有Dom(Aj)={aj(1),aj(2), …,aj(nj)},其中nj指属性Aj取值的数目。聚类中心用Z表示,相应的,简单记作Za=(za1,za2, …,zam)。

K-prototypes算法的距离函数d由数值型和可分类型两部分组成[3-4]:

d(Xi,Za)=dr(Xi,Za)+rdc(Xi,Za)(1)

其中:γ∈[0,1],为分类属性的权重参数;

dr(Xi,Za)=(xij-zaj)2,由欧式距离度量;

rdc(Xi,Za)= γδ(xij,zaj),

当xij≠zaj时,δ(xij,zaj)=1;

当xij=zaj时,δ(xij,zaj)=0.

K-prototypes算法最小化目标函数[4]:

F(W,Z)=wiad(Xi,Za)(2)

满足:

wia∈[0,1];1≤i≤n;1≤a≤k

wia=1;1≤i≤n

0≤waai≤n;1≤a≤k

综上所述,K-prototypes聚类算法具体步骤如下:

1) 初始化初始聚类数k和聚类中心Z,即从数据集中随机选取k个初始聚类原型;

2) 按照2)式定义的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;

3) 对于每个聚类, 重新计算新的聚类原型;

4) 计算每个数据对象对于新的数据原型的差异度,如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;

5) 重复Step 3和Step 4,直到各个聚类中不再有数据对象发生变化。

2对K-prototypes算法的改进

针对上面列出的K-prototypes的不足,该文提出一种基于近邻的初始点选择算法,该算法思想来源于近邻方法[6],可确定初始的中心点集和 值。并在原型算法中加入适当的启发式规则,使算法能够有效地辨识异常数据点,综合这三点改进,算法获得更好的稳定和聚类结果。算法流程图如图1。

2.1 基于近邻方法的初始中心点选择策略

基于近邻方法的初始聚类中心选择策略基本思想为:以全部样本数据作为代表点,计算测试数据点与所有样本之间的距离,如果小于初始阈值,就把该点划分为与测试数据点相同的类,记数变量增1,同时更新最短距离。最后选择邻居数目最多的数据对象作为初始中心点。

样本点 的邻居定义为P=Neigbour(x, θ):

{

判断P是否为x的邻居;

IfDist(P,x)≤θ返回1;

Else 返回0;

}

其中 为两个数据对象的相似度量函数。

算法描述如下:

1) 定义一个初始阀值θ和中心点集Z,Z初始值为空;

2) 从数据集中随机选一个点Q作为起始点;从Q开始递归地按照深度优先方式遍历各点,P=Neigbour(Q, θ) ;如果返回值为1,则判断P属于以Q为中心的聚类,更新阀值θ,并使初始值为0的局部变量m=m+1(用于记录Q的邻居数目);否则退回到前一点继续搜索。遍历数据集中的每一个数据点;

3) 选择邻居数目最多的数据对象作为第一个初始中心点,加入到Z中,初始值为0的全局变量k=k+1;

4) 将原数据集删除中心点及其邻居,如果还有未被聚簇的点,即在这些数据点集中重复执行(2)-(4);

5) 输出初始聚类中心Z和k。

2.2 对异常数据点的识别

聚类算法是将数据集中相似的数据归为一类,因此理论上,一个簇中的所有数据点都应该离簇中心点比较近。然而可能存在一些异常点,它们不属于任何聚簇。为了有效识别这些异常点,在K-prototypes中加入以下启发式规则,在算法进行全局搜索的时候,引导算法避免异常数据点的干扰。

加入的算法启发式规则描述如下:

Min{d(Xi,Za)} ≤ε; 1≤i≤n; 1≤a≤k(3)

其中ε为距离阀值。

算法在最后利用这个启发式规则来检验聚类结果是否满足这个条件,不满足则标记为异常点;如果所有的异常点数目小于阀值ψ,则算法结束;否则,则将所有的异常点归为一类,令k=k+1; 重新迭代,直到所有的异常点数目小于ψ。

2.3 改进后K-prototypes算法步骤

综上所述,改进后的算法描述如下:

输入:待处理数据集S,参数 θ,ε,ψ,γ

输出:k个聚簇

步骤:

Step 1:使用数据预处理技术处理不完整、有噪声的数据集,为后续聚类做准备。

Step 2:使用基于近邻的初始中心点选择方法获得初始中心点集Za=(za1,za2,…,zam)和聚类数k;

Step 3: 按照(2)式的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;

Step 4:对于每个聚类,重新计算新的聚类原型Za’;计算每个数据对象 对于新的数据原型Za’的差异度d(x,Za’),如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;

Step 5:重复Step 3和step 4,如果各个聚类无数据对象发生变化,转至Step6;

Step 6:利用启发式规则(3)来检验聚类结果,标记异常数据点,如果异常数据点数小于ψ,算法结束;否则将这些异常数据点归为一类,并使k=k+1,转至Step3,反复迭代,直至使异常数据点控制在较小范围内,算法结束。

3 实验结果与分析

为了验证所改进后的K-prototypes算法的有效性和可行性, 实验过程分别采用随机选择初始点的K-prototypes算法和改进后的K-prototypes算法对给定数据集进行测试,并比较分析聚类结果。

系统配置为:Intel 酷睿2 双核 CPU,1G内存,Windows XP,应用Matlab6.5平台进行实验仿真。

3.1 实验1:人造数据实验

为了显示的直观性,我们构造的数据样本共有300个样本,可以划分为3类,分别为A类、B类和C类。每个样本具有2个特征:一个数值型和一个分类型。使用随机选取十组初始聚类中心所得到的最坏与最好结果与优化选取初始聚类中心的算法所得到的结果进行比较。如图2所示。

实验1参数设置:θ=0.20,ε=4.5,ψ=50;γ取0.5。

从图4可以直观地看出,传统K-prototypes算法对于不同的初始聚类中心会得到差别很大的聚类结果;这说明初始聚类中心的选择对算法的分类性能有很大的影响;图5是采用改进后的K-prototypes算法,相比之下,改进后的K-prototypes算法具有更好的分类效果。

3.2 实验2:标准数据库数据实验

实验2采用UCI机器学习库[7]中的真实数据集Voting和Cleve作为聚类对象,其中Voting为分类型数据集,而Cleve为混合类型的数据集,分别用原始K-prototypes算法和改进后的K-prototypes算法对其进行聚类分析,数据集描述如表1所示。

上述数据集Voting、Cleve都包含多个属性,不能直观地显示其聚类结果,故从正确识别率和稳定性两个方面进行分析。

3.2.1 评价标准

为了将原始数据的分类特征与算法得到的聚类结果作比较,本文采用聚类结果正确率作为聚类实验结果的评价标准。

评价聚类效果的指标如下:

E=(n/N) ×100%

其中:n为正确分类的对象数,N为总对象数。E∈[0,1],为正确识别率,其值越大,表明聚类结果越精确;反之,聚类结果误差越大。

4.2.2 聚类性能分析

实验过程中,两个算法的参数设置分别如下:在改进后的K-prototypes算法中,对于Voting,Cleve两个数据集,分别设置阈值θ=0.15,ε=4.5,ψ=70;θ=0.20,ε=4.8,ψ=50,…,每组阈值分别运行5次;γ分别取1,0.7。

将传统算法运行10次,通过打乱数据集的各个数据位置,反复仿真得出以下聚类结果。

表2是对两组实验数据的聚类精度值的对表,从表2可以直观地看出:采用改进后K-prototypes算法进行聚类,得到的聚类精度都在90%以上,比原始K-prototypes算法聚类精度高很多。而采用原始K-prototypes算法聚类得到的结果有时高,有时低,波动比较大,说明原始K-prototypes算法对初始值很敏感,对于不同输入顺序的初始值而得到不同的聚类精度;相比,采用改进后的K-prototypes算法,每组实验的聚类结果波动很小,聚类精度高。由此可证明,改进后的K-prototypes算法成功地解决了原始算法对初始值非常敏感,参数必须预先设定和对易受“噪声” 影响等缺点。因此,实验结果表明:本文提出的基于近邻法的K-prototypes算法在分类精度和稳定性两个方面都是十分有效的。

4 结论

该文提出了一种改进的K-prototypes混合属性数据聚类算法,通过近邻法获取初始中心点集和初始聚类数目,避免了初始中心点选择的盲目性和对聚类数目k值的依赖性;同时加入启发式规则,防止了“噪声点”的干扰。通过实验可以看出该算法成功解决了原K-prototypes算法对初始敏感的缺点,并且自动获取初始中心点集和初始聚类。通过对聚类结果的精度分析和稳定性分析,可看出改进后的算法优于传统的K-prototypes聚类算法。

参考文献:

[1] Ralambondrainy H. A Conceptual Version of the k-means Algorithm[J].Pattern recognition Letters,1995(16):1147-1157.

[2] Huang Zhexue. Extension to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998(2):283-304.

[3] 陈宁, 陈安等. 数值型和分类型混合数据的模糊K-prototypes聚类算法[J].软件学报,2001,12(8):1107-1119.

[4] 尹波,何松华.基于PSO的模糊K-prototypes聚类[J].计算机工程与设计,2008(11):2283-2285.

[5] 吴孟书,吴喜之.一种改进的K-prototypes聚类算法[J].统计与决策,2008(5).

金橘树范文6

而当地图足够广阔,人足够多,那么人在地图上的定位和移动,就形成了位置数据。随着社会、技术的发展,人们的社会活动越来越多越来越复杂,而人们从物理世界到线上世界的映射速度也越来越快,越来越精细,从而形成极具价值的位置大数据价值。

位置大数据如今已经能够帮助我做非常多的事情,而高德作为位置大数据的数据拥有方,也一直通过高德开放平台,向行业开放位置大数据能力。随着移动互联网的发展,背靠阿里的高德不仅拥有位置数据,在融合第三方、阿里巴巴旗下数据的多元大数据能力的驱动下,对开发者和合作伙伴提供的服务将脱离传统层次,转而迈向“LBS2.0”。

从LBS1.0到LBS2.0

对于移动互联网行业而言,LBS位置服务是移动互联网最核心的基础服务之一。LBS1.0是高德开放平台自高德成立初期到现在的服务阶段,在这个阶段中,高德开放平台面向开发者不断开放自有的地图数据和位置服务能力,类似地图、导航、搜索、规划等等。这14年间,高德开放平台也先后推出了整体打包方式的垂类行业解决方案以及整体智能位置解决方案等,为开发者持续提供免费而全面的位置服务,在开发者中享有优秀的口碑。

而随着技术发展,移动应用对于位置服务、地图服务、地理信息等产品需求更加频繁和复杂,国内的LBS技术服务提供商也迫切需要升级产品内容和形式,囊括更多的大数据信息,为开发者提供符合共享经济时代的LBS服务。

所以我们认为,在行业大需求环境背景下,高德作为数据最为权威而全面的地图服务提供商,理应率先将服务升级至LBS2.0,通过高德所拥有的多元大数据,结合基础能力为开发者提供更具有价值的服务。

多元大数据与定位技术

在整个地图开放行业,这次是LBS2.0被首次提出。而高德此次提出LBS2.0是基于数据及技术的自信。

在数据方面,多元大数据来源不仅来自于高德本身(高德地图、高德开放平台、高德交通),还囊括了第三方合作伙伴以及阿里巴巴。

作为国内极少数拥有自采队伍的地图厂商,高德地图拥有650万公里导航数据、5700多万POI信息、400多种道路属性信息、超200万公里、360个城市实时路况以及超7500平方公里三维模型数据。

所以,高德不仅在地理交通信息方面拥有全面而精准的数据信息,而且在用户属性、电商、搜索、内容等更多范畴也可通过第三方合作伙伴以及阿里旗下不同属性业务获取更为立体化的数据信息,叠加后成为以地理信息为基础的全新大数据矩阵,为用户提供个性化的LBS标签以及市场化决策能力,与各方合作伙伴共享大数据红利。

而在第三方合作方面,高德开放平台现已为国内85%的车行应用、80%的主流社交应用、60%的外卖应用提供地图和定位服务,服务的移动应用总计超过30万款。在先进的数据融合技术和海量的数据处理能力的基础上,高德开放平台服务日均处理定位请求及路径规划次数达数百亿次。

在技术方面,对于位置大数据而言,最重要的就是定位技术能力,但现在使用的传统定位技术还存在着很多问题。例如在室内、隧道内以及建筑物较多的室外,卫星信号易被遮挡导致定位不准确,传统定位技术较为耗电等等。高德不仅仅依靠传统的GPS、基站和WIFI定位,还系统地集成了多个传感器,例如陀螺仪、压力计、蓝牙外设、地磁等进行融合算法推演,用多元融合的方式在不同场景下去做定位服务的优化,让定位服务更加智能化、精准化。

一方面,精准智能定位不仅为高德数据资产(包括POI、道路、三维等等)提供了智能化的生产和优化渠道,还能够通过位置大数据挖掘实时路况、感知道路变化以及及时发现过期POI;另一方面,基于海量的定位数据,分析人地关系,建立了基于真实轨迹的用户画像。地理围栏与用户画像的集合,也为BI分析、广告投放、精准推荐等方面提供了足够数量及质量的依据,为商业领域及社会管理方面赋予地理智慧。

人地关系赋能地理信息智慧

依靠多元大数据矩阵,高德能够结合多方面数据建立大数据维度上的人地关系,通过人与地理位置的结合、变化、频次等状态对现实世界做AOI(兴趣面,指地图数据中的区域状的地理实体)、地理位置相关的用户以及人群、区域地点等作出分析和洞察,形成属性画像,为行业产品及商业领域提供参考和指引。

上一篇放空自己

下一篇曾国藩名言

相关精选