前言:中文期刊网精心挑选了数据仓库范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据仓库范文1
关键词:数据仓库;原理;思想;应用;报表
中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2011) 09-0000-02
Data Warehouse Design and Show
Zhu Mingjie
(Shanghai Economic and Informatization Commission,Information Center,Shanghai200003,China)
Abstract:With the information age,information resources in daily life plays an increasingly important,even indispensable plex information needs of the scientific method with its efficient data processing,and can quickly and effectively from a different point of view,to determine the information to improve the comprehensiveness of the information,accuracy,efficiency.With the development of technology,a deeper level of data warehouse applications,data warehouses demonstrating an important role in the information age.In this paper,data warehousing principles,ideas,and through reporting tools,data and charts on how the show has been superficial discussion.
Keywords:Data warehouse;Principle;Thinking;Applications;Report
一、数据仓库的原理
数据仓库,英文全名是Data Warehouse,也可缩写为DW或者是DWH。事实上,数据仓库这个名称并没有一个固定的、完全统一的定义。而现在被用的最广泛的应该属数据仓库概念的创造者W.H.Inmon在自己的作品中――《建立数据仓库》对数据仓库的定义:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。而后虽然学者对数据仓库的概念有着不同的定义,但是归根结底,在这些学者的观点中,都对数据仓库所持有的特征看法基本是一致的。
(一)数据仓库是面向主题的
主题就是在高层次上将数据进行归类,并与另一个分析环境想对应,这个分析环境也就是指在使用者通过数据仓库来进行决策时所最关注的对象。
(二)数据仓库是集成的
数据仓库中的数据是由各种不同、分散的初始数据根据所需要的数据进行的分析,筛选,提炼,最终通过加工整合而成,最终进入数据仓库。所以在建立数据仓库的过程中,数据集成可以说是最细致也是最难的一个重要步骤了。
(三)数据仓库是相对稳定的
这里所描述的数据仓库的相对稳定是针对数据仓库的应用而言。在对子数据进行整合吸收后,这些数据并不能改变更新,用户只能借用数据进行分析,而不能改变原始数据。所以说数据仓库的稳定性表明了数据读取格式为只读。
(四)数据仓库是随时间的变化而变化的
在前一段中有提出数据仓库的稳定性是对应用而言。但这并不意味着数据仓库中的数据是一成不变的,随着时间的变化,数据仓库会增加一些新的数据、删除一些陈旧数据以及整合一些与时间相关的数据。这也正说明数据仓库是随时间的变化而变化的,这也反映了数据仓库的历史变化,而企业通过数据的变化更能准确的进行分析和预测,从而降低企业风险,进一步提高企业效益。
二、数据仓库的思想
数据仓库中存在着很多优秀的思想,这些思想都非常值得数据库设计者和软件设计者用来参考。数据仓库的核心思想之一就是面向主题。正如前面所言,主题是在高层次上将数据进行分类,并与另一个分析环境相对应,此环境是使用者在通过数据仓库进行决策时所关注的对象,而这种对数据的关注倾向正好反映了使用者的需要,这种需求提供了可靠的依据,所以说主题是数据仓库需求的构成因子,一个好的数据仓库离不开多个好的主题。
三、数据仓库的应用
(一)数据仓库应用的现状
目前,政府、各行业、众多企业都开始建立本单位的数据仓库体系,包括政府决策支持系统、银行信息系统、电力系统以及全国各大连锁店等。可以说数据仓库的应用是比较广泛并且迫切需要的。在建立本单位的数据仓库体系时,是通过各路相对独立、不同的子数据加以数据抽取、转换而后输入到所建立的数据仓库当中。这些数据与单位自身的内部信息有效的相结合,从而为单位更好的分析经营环境提供了比较准确的数据依据,也为单位的正确分析预测进行了准确的技术保障,同时相应减少了单位的经营风险,提高了管理水平和决策效率。
(二)数据仓库应用存在的问题
事实上,国内数据仓库应用与预测带来的效益还是有一定差距的,显而易见,在我国数据仓库的应用还存在着一定的问题。
1.数据仓库的利用率并没有预期高
数据仓库设计者没有面向主题,没有根据需求建立数据仓库,导致数据仓库的利用率并不高。不少企业花费了很长人力资源、物力资源精心设计数据仓库却得不到相应预期的效益。根本原因是市场的需求分析有缺陷,没有根据市场需求设计而是仅从企业自身出发,从而导致数据仓库的使用人群很少,在运转数据仓库过程中用户并不多。当然这与企业的管理水平也有关系,我国企业的管理水平本身是有缺陷的,由于这个缺陷致使在收集来的子数据很多没有发挥作用,没有有效联系起来,最终导致数据仓库的利用率低。
2.信息体现形势不够丰富,过于单一
由于数据仓库应用以OLAP以及固定报表为主,OLAP,联机分析处理,虽然是从不同的角度进行观察,这些观察是从分析人员、管理人员或执行人员对原始数据进行的转换,但是这种方式并不能使信息统一化,完美化。而固定报表,仅仅是在原有处理过的数据仓库中的基础上进行一次重复,所以导致数据仓库中的信息表现方式不够丰富,太过单一。很明显,这样并不能给数据仓库带来应有的效益,不能发挥它最大的应用价值。
3.数据仓库的应对不够灵活
数据仓库的特征之一是随时间的变化而变化,数据仓库对一些新增的需求需要灵活的应对适应。而对新增的需求又要进行抽取、转换、清洗,这对数据仓库有一定的冲击,导致数据仓库进入疲惫状态。然后由于子数据的问题以及所存在的某些技术问题、管理水平、投入力度不大导致数据仓库系统不稳定。
(三)数据仓库的应用方法
根据数据仓库应用所存在的问题,可以将数据仓库的应用方法重点归于两大类,一种是根据需求,另一种是提高技术。
1.根据需求
根据需求来设计数据仓库,从而提高数据仓库的利用率。而这种需求与传统意义上的OLTP系统需求是不同的,传统的OLTP系统需求是指依据事务处理的逻辑上进行收集、整理、分析的。而数据仓库应用的需求是成功建立一个数据仓库必不可少的一部分,这要求应用的需求必须是经过整理并完善起来的。一个比较优秀的数据仓库应用系统应该是不断循环的过程,而这个过程的实现就需要需求的推动。
所以说确定需求起点是至关重要的,例如保险企业,在构建保险公司管理指标体系时就要以需求为起点,再确立主干、支干、叶片。例如可将承保、核保、报案理赔这些业务归纳为主干,而支干可以是管理人员、统计人员这些工作角色,而以签单数量这些数据指标作为叶片总结起来就可以构成保险公司管理指标体系。一个成功的管理指标体系加上技术部门的加工之后,更能有效的将各部门联系起来,更加清楚的指导各业务部门有效的操作,使技术以及业务人员更加清晰明了使用,从而更大更有效的发挥了整个数据仓库的优势。
2.提高技术
根据数据仓库的设计首先是必须要有一个数据体系的整体规划。而数据体系的规划要注重数据模型的建立。由于子数据发展大相径庭,相互独立,在各个方面都有很大的不同,这些外部数据与单位自身内部数据很难达到均衡统一,所以是很难实现理想化地数据模型。在数据模型建好之后要加强前端的应用系统的建立,以便更便捷的进行业务分析。在管理层方面,因为数据是变化的,外部环境的变化也是相当迅速的,数据仓库应该加强对数据动态变化的适应性。这就要求规划好数据体系,及时将静态和动态的数据进行管理,并逐步完善数据仓库的管理体系。
四、数据仓库展现工具
目前而言,国内市场上的数据仓库展现工具是琳琅满目的,但是其功能多数是一样的,所以在选择工具上,用户都还是要有自己的标准。首先是交互性,所谓交互性就是指用户在使用的时候不再是电子死板输入的方式,不必为寻找某个数据全篇翻查,而是通过报表的智能分析,进行简单的输入操作就能实现分析要求。在比较流行的报表工具中,Crystal Report和Style Report作为两家成熟的商业报表软件供应商在交互性技术上存在着比较明显的优势。另外一个好的报表工具还需要有易用性、扩展性、可靠性以及完整性等特征,国内比较流行的报表工具有润乾报表、BI@Report等。那么这些较为流行的报表工具是如何进行数据仓库的数据图表展现的呢?
数据和图表的展现是非常重要的,它展现的合理性直接影响着用户是否能简单明了的读懂数据和图表表示的含义价值,能否更好的应用数据,从而提高使用者的兴趣、发现数据的价值。相反,如果展现方式不明了简洁,则会挫伤用户的耐心以及下次使用报表的兴趣。报表主要展现的是数据的值、数据发展的趋势以及数据构成的比例等信息,数据发生的变化以及异常都只能通过报表来体现。而数据仓库在进行数据和图表的展现时主要是通过两种方法:一种是现在我们最通用、最常见的WEB报表,WEB端的报表可以直接通过常用的浏览器登录进行查看,最为广泛运用的就是Business Objects等这些分析工具;而另一种就是在客户端的数据基础上展现,最普及的就是Excel,利用Excel的数据透视表功能可以很好地展现多维数据库MDDB中的数据。
图1.上海市经济运行决策分析数据仓库,多维展现图
五、结束语
本文通过对数据仓库原理和存在的特点、核心思想以及在当代数据仓库应用过程中存在的问题,针对问题提出应用方法解决措施,分析了比较流行的报表工具和用户在选择报表工具中所考虑的标准,以及对报表数据图表的展现方式进行了粗浅的论述,提出了一些自己认为有效可行的方法。在这个科技快速发展的时代,随着我国的数据仓库应用范围的不断深入,管理水平的提高,相信通过长期经验积累,数据仓库设计在更富创造性更具特色的同时,将会给政府提供更高效的决策分析依据,给企业带来更多的经济效益、更高的质量管理水平。
参考文献:
数据仓库范文2
Abstract: In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine, outlines the implmenting process of data warehouse and Data Mining, introduces the application of Data Mining and analyses the two technologies with prospect.
关键词: 数据仓库;数据挖掘;OLAP
0引言
随着信息社会的 发展,互联网的普及度越来越高,需要人们处理的数据数量随着时间的变化而急速增长。如何处理日益庞大的数据,就成了现代人必须要面对的问题。因此,开发一 种可以处理大量信息、并且能够辨别真伪的技术势在必行。随着技术不断的发展与创新,人们在尝试各种方法,逐渐有了自己的一套模式,数据挖掘(Data Mining简称DM)技术便是最终的结果。
1数据仓库
数据仓库的含义:“数据仓库是用于支持企业或组织的 决策分析处理的,面向主题的、集成的、不可更新的、且随着时间不断变化的数据集合。”互联网中的数据浩如烟海,如果用户在其中搜寻的话,基本上是大海捞 针。而数据仓库便解决了此类问题,它把庞大的数据及信息从互联网中收集起来,并进行适当的处理、加工和分类,把这些凌乱的数据转换成公共的数学模型,这样 便能够解决数据与数据之间的冲突、表达不一致等问题,同时还方便用户查询自己所需要的信息,这样便使得数据和信息在决策查询上理便捷。
2数据挖掘
互联网中,实际的应用操作数据往往都是数量很大,不完整且具有模糊性和随机性。而数据挖掘所要做的便是提取这类数据中隐含的、不为人知的,但对人们又有潜在用途的信息和知识。并把提取的知识和信息存放于数据仓库或其他信息库中,所以说,数据挖掘是运用统计学、 人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。另一个角度来讲,数据仓库中的数据,利用挖掘技术的 算法,将源数据收集起来,并进行适当的筛选及过滤变成相应信息。数据挖掘基于的数据库类型有:关系、面向对象、事务、演绎、时间和时间序列、多媒体、空 间、遗产、文本、Web型以及新兴的数据仓库等。对于数据库的描述,通常是指面向对象的数据库在面向对象的程序为规范的程序设计标准。其描述对象可以是一 定时期的人口、流量等数据。而关于一个对象的代码在一个单元中的封装,对象可以与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫 星图像数据库等,通过数据挖掘可以发现,描述各个地区的人口或者可以根据现有的关于某小区距离中心主要道路的距离的描述来表达这个小区低价的变化程度。通 过纵轴和横轴的序列数据库我们可以看出,数据挖掘可以根据数据库中的数据的变化随时随地的进行调整,从而发现数据的变化特点和变化趋势,通过对这种变化的 趋势和特点的变化,帮助人们处理计划, 制定发展策略等。在文本数据库中大部分是高度化的长句和短文,数据挖掘的作用是发现、描述对象和类的特征,进行关键词和内容关联性分析以及文本对象的聚 类。多媒体数据库存储的是图像、音频、视频数据,在其上进行数据挖掘,这是存储和搜索技术相结合的新兴技术,这种技术中,进行多媒体数据的特征的提取和基 于相似性的模式匹配等。
数据库的建设是以程序设计为标准的。无论何种先进的技术都有它的局限性,数据挖掘也亦如此,它只能对信息进行初期处理,也就是说,如果收集的数据中出现丢失或冲突的现象,用数据挖掘的算法是不可行的。
3数据挖掘技术
3.1 数据挖掘分析方法数据挖掘的分析方法可分为两类:直接数据挖掘和间接数据挖掘。直接数据挖掘指:L在指定的数据中,按照某一法则,提取其中可用数据,建立 一个数学模型,并用此模型对余下的数据,或是对有的数据进行描述。直接数据挖掘有:分类、估值、预言。间接数据挖掘指:目标中的数据都是没有规则的,因而 不能确定某一具体的变量,所以不能用模型来对其进行系统上的描述,只能通过数据之间联系,将彼此组合起来。间接数据挖掘有:相关性分组或关联规则、聚集、描述和可视化。下面本文将对分类和预测、关联分析和聚类分析三种数据挖掘方法介绍。
3.1.1 分类和预测数据分析一般分为分类和预测两种形式,如果想要知道某种数据未来的走向,或是提取某种模型中重要的数据,可以利用数据分析形式的属性对其进行描 述,然后得到自己想要的模型,并把数据合理的分类,以便使用原有数据对新数据进行预测。数据分析的两种形式,在信誉证实、医疗诊断、性能预测和选择购物等方面的用途也十分广泛。如在金融证券领域,想要在银行贷款,必须要分析贷款是否有足够安全性,风险性是否很高,如此便要建立一个分类模型,对其进行预测,例如想要成功销售一批计算机设备,我们必须要预测、分析哪类人可能是潜在的用户。
3.1.2 关联分析关联分析在交易数据、关系数据以及其他信息载体中应用较为广泛,可以查找有关于某一个项目集合或者对象集合之间存在的频繁模式、关联、相关性、或 因果结构。当然这种关联分析也可以用最小置信度和支持度找出所选范围内所有感兴趣的规则。其中最为著名的关联规则发现方法常用的是Apriori算法。关 联分析大多应用在消费者一次购物时同时购买锪商品购物分析、某些商品和另外一些物品次序推销或促销以及大型工厂、制造厂里生产的产品目录设计等。如某所大 学,所有学生记录中,有2%的人专业是会计且选修了数据库且成绩为A;在专业是计算机科学CS且选修了数据库DB的学生中有75%的人成绩为A。
3.1.3 聚类分析聚类分析的方式就按照某种程度的度量方式来进行度量方法,这种方法中将用户的数据根据需要分解成相应有意义子集合。通过能否用于大数据量和不同的 数据类型,能够发现不同开关和类型的聚集;对领域知识的要求昼少;对噪声或数据不同的顺序不敏感,来判断优劣,根据模型可解释。如:①一些特定症状的聚集 可能预示了一个特定的疾病。②租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。
数据仓库范文3
2008年,四川销售公司完成了ERP系统在全公司的全面推广,不仅实现了销售“一体化”管控,而且实现了财务业务无缝集成及物流、资金流、信息流的三流合一。2009年加油站管理系统在四川销售公司1400余座加油站部署实施,对加油站的采购、销售、结算、库存、客户、加油卡等进行全面的专业性管理,控制了零售业务的每一个环节,优化业务流程,提高运行效率和管理水平。2011年二次配送系统和油库系统在全公司推广运用,实现对油品品种、运输路径、运输车辆、油站库存、配送时间的统筹安排和优化,并对配送过程进行跟踪与监控,提高了配送效率和管理水平。2012年以ERP为核心的五大信息系统全面集成,油库、加油站、二次配送和ERP系统实现了信息数据自动流转,减少人为干预,提高了数据的准确性。2013年,销售应用集成系统将在四川销售公司试点运用,实现与各销售信息系统管理者视图的集成。
四川销售公司的各个信息系统几乎覆盖了公司的各项经营和管理的方方面面,这些业务操作型信息系统的上马和推广运用,不仅实现公司各个层面的管控信息化,而且为数据仓库建设提供了大量的历史数据源。
建设省级数据仓库的意义
四川销售公司建设省级公司的数据仓库是对中石油总部数据仓库数据支持功能的补充和完善,有利于提高信息系统数据利用效率,弥补总部数据仓库无法满足四川销售公司对精细化管理等方面信息数据挖掘利用需求的缺陷。
总部数据仓库“脏数据”过多。由于总部数据仓库涉及面广,涵盖了整个中国石油的勘探与生产、天然气与管道、炼油与销售、化工与销售和其他部分,因而数据非常庞大。假设仅仅以全国32家销售公司的数据在一起建立一个数据仓库,那么对于四川销售公司来说,不仅其他板块的数据甚至其他销售公司的大量数据基本上为“脏数据”(按32家来计算,96.8%的数据为脏数据)。大量的“脏数据”不仅牺牲了分析的效率,而且降低了分析质量。
总部数据仓库的数据粒度级过粗,无法满足四川销售公司个性化分析需求。全国中石油旗下加油站每日产生的可以作为客户分析价值高的卡交易记录,每日总共可达13亿条,平均每月记录过亿,所以在总部级数据上无法提供卡客户低粒度级的分析。在交易明细记录上,每年的记录数预计高达53亿条以上,在上亿条记录的数据库中做任何统计计算几乎都是要命的事,所以要总部数据仓库提供“购物篮分析”之类细粒度级的数据挖掘功能是不可行的。
总部级的数据仓库的主要服务对象不是销售公司一般管理者(特别是二级公司级以下的管理者)。总部级数据仓库对四川销售公司来说,还达不到提升管理和精细化管理的要求。2013年中石油总部推广运用的销售应用集成系统主要运用对象是销售公司、地区公司和地市公司的领导,提供日常办公、业务数据查询分析、业务决策、舆情监控和应急指挥等功能;而对于需要大量数据进行分析、挖掘的一般管理人员缺乏分析工具和支持。
数据仓库设计思路
建立四川销售公司的数据仓库不仅是总部数据仓库数据支持功能的补充和完善,而且是四川销售公司整合自行开发各类辅助管理信息系统,新增数据挖据分析、商务智能等需求的核心和基石。近年来,四川销售公司为了满足自身管理提升需要,陆续开发了加油站辅助管理系统、油库辅助管理系统、商品管理辅助管理系统、非油辅助管理系统等诸多管理系统。然而这些系统都相互孤立,信息数据没有集成共享,大部分数据靠人工干预,不仅大大增加了工作量,而且各类信息数据的完整性、正确性和及时性大打折扣,信息数据共享和挖掘功能无法真正发挥。“顶层设计”的总部数据仓库的数据主要来源于五大系统,虽然确保了不同销售企业执行同一管理标准,为系统顺利集成、统一应用、科学评价奠定了基础,但是无法满足因地区和管理差异而新增的个性需求。特别是涉及到与四川本地相关的数据上,总部数据仓库几乎是空白。例如分析四川销售公司及其各个二级的销售总量、增幅与四川省及其对应地市GDP的总量、增速、能耗的关系时,总部级数据仓库是无法提供的。如果四川销售公司有自己的数据仓库,就可以把四川省及其对应地市GDP的相关数据作为外部数据源进行采集分析。再如需要分析路网建设、竞争对手网点布局对公司自身销售的影响时,必须要有独立的数据仓库,才能快速地得到量化的、科学的分析结果。有了数据仓库,商务智能才成为可能。没有数据仓库,商务智能只能是一个理论。
综合上述多方考虑,结合中国石油四川内江销售公司的研究成果、业务经营管理现状和前期需求调研分析,四川销售公司的主题需求可分为油品销售分析、非油品销售分析、卡客户分析、商品管理分析、加油站配送分析、财务分析、人力资源分析和市场分析八个主题。根据四川销售公司信息系统运用状况,数据源将涉及内部信息系统的有ERP、HOS、FMIS、油库、二配、加油站管理等,其中市场分析涉及外部数据的采集。
数据仓库系统接口设计
将数据放置在数据仓库中既是建设的难点,也是起点。一般数据集成和转换的过程需要花费约整个数据仓库建设80%的开发资源。由于ERP、HOS、油库、FMIS等操作型系统是总部统一开发设计,接口的最佳方式是总部能够提供对应的数据接口。但是由于“顶层设计”需要,总部没有开放相关数据接口。如何建立ERP等系统和数据仓库之间的接口,如何构思编写ETL软件实现自动将ERP等操作系统历史数据到数据仓库中,是四川销售公司构建自己数据仓库的重点和难点,这也是数据仓库攻关的难点。
通过对当前使用的ERP等系统的调研和分析发现,对于所有系统的数据源可以分为三类。一类是有数据库访问方法的系统(例如加油站管理系统的站级系统);第二类是没有数据库访问方法的系统,但有统一的数据导出方式的系统(例如ERP、HOS、FMIS等);第三类是既没有数据库的数据源,也没有统一的数据导出方式的系统(例如外部系统数据)。第一类由于能直接访问数据库,ETL设计的重点是数据的清洗和集成;第二类有统一的数据导出方式,ETL设计的重点是数据的采集、纠错和集成;第三类只能依靠设计模版,人工统一导入相关数据。因此对不同系统数据采集接口需采用不同的方法。
数据的集成到清洗
数据集成、转换和清洗数据是提高数据集成和提高利用效率的必要步骤。数据在从操作型环境向数据仓库环境的传送过程中所经历的转换非常复杂,一是DBMS的变化,二是操作系统的变化,三是硬件体系结构的变化,四是语义的变化和编码的变化等,所以必然存在转化和清洗。在这个过程中首先要将数据集成,当数据进入仓库时,要对各个应用的不同值进行正确的译码,重新编码为合适的值;其次必须建立各个不同源字段到数据仓库字段的映射;然后还需将各个系统不同技术存储的数据必须转换到同一种技术下存储。
在数据的转换与再清洗过程中,可以将数据以一种称为“时间间隔”的方式装载进入数据仓库,操作型环境新更新的数据可以在操作型环境中停留达24小时,然后才转移到数据仓库。例如在加油站管理系统得TILLITEM(交易明细记录表)含有大量的控制类数据,我们取数主要取对应的交易序号、营业日期、油品、价格、数量、金额、折扣、支付方式、卡号、枪号、罐号、起泵、止泵等数据。
保证数据采集准确性
数据的正确性验证是提高数据仓库数据准确有效的必要措施。提高访问现有系统数据采集正确主要有五种方法:一是扫描在操作型环境中那些被打上时间戳的数据(例如采集ERP等系统的销售订单时以创建时间为准,因为创建时间是系统自动生成的时间,不能任意更改);二是只扫描增量文件(例如采集加油站管理系统的站级数据);三是对取数机制进行了程序自动纠错,对没有获取完全的数据自动重新获取;四是对后台数据载入清洗程序进行修正,增加容错机制,对数据临时变化等问题进行了日志记录;五是将有对应关系的数据采集后进行对比(例如HOS的油品销售日报与ERP系统的纯枪销售订单进行对比),这种方法相对麻烦、复杂。其纠错验证在导入数据仓库前的临时数据库里,一旦验证正确后,方才导入到数据仓库。
此外,外部数据的采集对于数据仓库的建设格外重要,因为可以在一定时间范围内将外部数据与内部数据进行比较,以便给管理者提供一个独特的视角。例如天气变化给公司销量的影响是多少,节假日对公司销量的影响是多少,各个二级公司销量与GDP总量的关系,各个二级公司销售增量与GDP增量的关系?对此,有必要针对主题需求,增加成品油价格行情,四川(各地区)天气记录,四川(各地区)GDP数据(总量、增幅、能耗等)等外部数据的录入。
细化数据粒度
数据的粒度与分区是进行数据仓库设计决策的两个最重要方面。保存所有细节数据是错误的,一是存储和处理的开销可能是个天价;二是大量数据是有效分析技术的一个障碍;三是前面做的细节分析不可复用。所以对于四川销售公司来说,采用双重粒度是非常有意义的。
根据测算,全四川省站级系统的交易明细记录表一年的总记录数超过亿条,卡交易明细记录表一年的总记录数也有千万以上。所以,必须要根据DSS(决策分析)主题需求,进行双重粒度设计和分区。例如可以对卡交易记录进行概要记录统计(例如开卡时间、总消费额、消费次数、最大消费额、最小消费额、消费品种、消费区域、最近消费时间),便于以后的卡客户的相关分析,而对交易明细进行海量存储;同时可以对数据进行分区设计,比如按照年度来分区。这样大大提高了数据近期数据的访问速度。
由于非油业务开展还处于初级阶段,预计一年的记录数据估计在几百万条,可以保存做类似“购物篮分析”的数据挖掘运用。所以需要对卡交易明细和非油交易明细进行不同粒度的设计,以尽可能低的数据粒度来满足四川销售公司DSS分析。
数据仓库范文4
关键词:数据仓库;商务运作;集成
中图分类号:TP274 文献标识码:A 文章编号:1674-7712 (2012) 06-0077-01
通常来说,对数据仓库进行建立的过程就是对数据仓库进行构造和使用,在构造数据仓库时必须做到数据的统一、清理和集成。在对数据仓库进行利用的时候必须要借助于决策支持技术,这就使得主管、经理和分析人员等这些知识工人能对数据仓库进行使用,数据的总体视图可以方便和快捷的得到,进行决策的时候可以按照数据仓库中的信息得出。有些研究者在进行数据仓库构造的过程会选取术语“建立数据仓库”来进行标示,使用和管理数据仓库则选取术语“仓库DBMS”标示,在本文的研究中对两者不进行区分。目前已经有很多的组织机构进行商务决策活动的时候使用这些信息进行支持,其主要内容包括:对顾客关注度增加,包含购买时间、消费习惯、购买爱好、预算周期等顾客购买模式进行分析;依据地区、年度、季度等划分对营销情况做好比较,对管理投资和产品进行重新配置,做好生产策略的调整;对利润源进行查找和对运作进行分析;做好顾客关系进行管理,做好环境调整,进行合股人的资产开销情况进行管理。立足于异种数据库集成,这使得有着十分有效的作用在数据仓库上。目前有着许多的组织对各种数据进行收集,并且有着分布、自治和异种等数据源对大型数据库进行维护。通过对这些数据进行集成,这就会有着很大的希望提供有效和简便的访问,这也可以作为机遇而存在。目前数据库研究界和工业界都竭尽全力为实现这个目标。
而集成异种数据库,依据传统的数据库做法就是立足于多个异种数据库,通过集成程序和包装程序进行建立。折叠门的例子主要包括Informix的数据刀和IBM的数据连接程序。当有着查询给客户站点提交,首要的就是通过元数据字典转换查询,从而实现相应异种站点上的查询转换。在此基础上,映射和发送这些查询到局部查询处理器。集成不同站点所返回来的结果成为全局回答。而这种查询驱动的方法进行信息过滤和集成处理显得比较复杂,并且做到局部数据源上的竞争资源的处理。由于这种方法从功效上显得比较低效,并且进行频繁查询的时候,特别是在聚集操作查询,要有着很大的开销。
数据库为传统的异种数据库集成方法提供者有趣替代方案,在数据库当中通过更新驱动这种方法的使用,而摈弃以往的驱动查询的方法。这就使得出现预先集成在多个异种源的信息,并且在数据仓库当中进行存储,以便提供进行查询和分析。和联机事务处理数据库进行对比发现差异性是最近的信息不包含在数据仓库当中。但是数据仓库能够提供高性能在集成的异种数据库系统当中,这主要是由于拷贝、集成、预处理、注释和汇总数据,并且经过重新的组织成为一个语义一致的数据进行存储。查询在数据库当中部队处理局部源产生影响。另外就是通过对历史信息存储和集成在数据仓库当中,对多维的复杂查询进行支持。这样在工业界就非常流行进行数据仓库的建立。
通过与大家耳熟能详的商品关系数据库系统进行比较,就会对数据仓库很容易进行了解。对查询处理和联机事务进行执行这是联机操作数据库系统所具备的主要任务。通常将这种系统称之为联机事务处理系统。该系统通过对组织中的大部分诸如记账、注册、工资、银行、制造、库存、购买等日常操作。从另外的层面上来讲,数据仓库系统通过决策方面和数据分析使得服务于用户或者是“知识工人”。而在这个体系当中所使用不同的格式进行数据的组织和提供,以便因用户的不同从而不同需求的满足。通常将这种系统称为联机分析处理系统。联机事务处理系统也称之为OLTP,联机分析处理系统称为OLAP,两者之间的区别为:
一是用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。
二是数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。
三是数据库设计:通常,OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计。而OLAP系统通常采用星形或雪花模型和面向主题的数据库设计。
四是视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本。OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。
数据仓库范文5
摘要:该文基于对数据仓库系统本身的架构和数据模型特征研究,并结合元数据仓储架构的理论设计提出一种数据仓库元数据集成与转换功能的架构,并进行了系统实现,涉及到数据结构的分析、集成与转换的流程以及列冲突差异的实现。
关键词:元数据;集成与转换;数据仓库
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)28-7862-02
The Discussion of Integration and Conversion based on Data Warehouse Metadata
HE Chuan
(Electronic Engineering Institute, Hefei 230022, China )
Abstract: The paper introduces the structure and characteristics of data models based on the data warehouse system, and provides the design of a data warehouse meta-data integration and conversion of the architecture in combination with the theory of meta-data warehouse architecture, involving the analysis of the data structure, integration and conversion processes, as well as differences in the realization of the column of conflict.
Key words: Metadata;Integration and Conversion; Data Warehouse
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域中,已经有了成熟的框架可以利用。但在实施数据共享的过程当中,由于数据源的异构性、分布性、自治性引起的数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理是构建数据集成系统的核心问题。
元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和处理的基本工具,是理解数据含义和如何使用数据的关键。所以,每一个软件产品和工具能够在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。所以对数据仓库元数据集成和转换的研究是非常有意义的。
1 元数据集成与转换的设计
1.1 元数据的信息供应链
本文所设计的元数据集成与转换功能,是基于数据仓库的,该功能用来提取数据仓库中各部分产生的元数据,并应用某种策略对其进行综合管理。通过这些元数据,相关人员可以清楚地了解数据仓库中的数据结构、业务规则等,从而对决策支持产生巨大的战略价值。换句话说,元数据集成与转换管理工具的起点就是数据仓库的构建过程和业务使用过程。而数据仓库中信息流动的和处理过程常常用信息供应链(ISC,Information Supply Chain)来描述。
从数据源开始,信息经过多次处理,最终用于辅助决策支持。在整个流动过程中,顺序产生了四种数据,即源系统中的业务数据、ODS数据、DDS数据,以及OLAP数据,这几种数据的在粒度、抽象级别以及面向的应用等方面均存在不同[1]。为保证ISC的顺畅流动,并使参与此过程的软件产品都能够有效工作并基于数据层进行交互操作,就必须对描述各软件产品的元数据有一致理解。这是因为元数据定义了它们的内部处理逻辑和存储结构,通过元数据可以制定处理数据的策略。综上所述,构成ISC的每一个仓储产品和工具能够在数据层上进行有效集成的前提是,它们能在元数据层面进行有效的集成。
1.2 集成和转换的体系结构
本文以联邦式管理模式为基础提出元数据集成和转换功能的架构,主要分为元数据源、局部元数据仓储、全局元数据仓储、适配器、元数据抽取、元数据转换、元数据汇集等部分,如图1所示。
在上述架构中,所有元数据均来源于组成ISC信息供应链的软件产品。对于存储业务数据、ODS数据、DDS数据、OLAP数据的仓储软件产品,可以经过元数据抽取操作从中获得诸如存储结构等信息的元数据,存入各自的局部元数据仓储中;对于诸如ETL工具、报表工具等软件产品,产品内部往往会配备记录该工具使用规则等方面信息的局部元数据仓储,除此之外,还需对这些信息进行格式的一致性转换以提供元数据共享的途径[2]。
局部元数据仓储中是以关系型数据库的形式存放元数据的,其中的元数据可以分为两类,一类是仅为软件产品自身服务的私有元数据,另一类是需要在企业全局范围内共享的元数据,称之为共享元数据。对于前者,只需要存放在局部元数据仓储中,而对于后者,就需要进一步将其送入关系型的全局元数据仓储中保存和共享。
2 元数据集成与转换的实现
2.1 数据结构分析
本文所涉及的集成及转换工具,内部实现总共分为四个步骤。其中第一步就是将局部元模型导入到工具设计的数据结构中,利用这个数据结构,我们可以存储局部元模型的表结构以及冲突差异分析后产生的标记。本主涉及如下四个数据结构表。
1) 数据结构l:记录表来源的数据结构,如表1所示。
2) 数据结构数据结构2:记录列来源的数据结构,如表2所示。
3) 数据结构3:临时记录一一对应的列的数据结构,如表3所示。
4) 数据结构4:临时记录一一对应的表的数据结构,如表4所示。
2.2 集成与转换的流程
假设模型集成工具的两个输入模型分别为Ml和M2,目标输出模型为M3,则需要按照如下步骤完成模型集成:
Step1,将M1和M2中表的相应结构填入初始的集成工具的数据结构中。
Step2,针对数据结构中的数据进行如下流程实现模型的冲突和差异分析。
1) 检查M1和M2中所有表,将无同名的表的标记Tag值设为TD(Table Difference),同名表的标记Tag值设为TS,并将同名的表Id对加入到数据结构4中。进入步骤2)。
2) 针对每一对标记为TS的表,检查该表中列个数是否相同、名称是否相同。如果列一一对应则进入3),且将对应的列Id值对记录在模型集成工具的数据结构3中;否则进入步骤4)。
3) 查询并记录数据结构3对应的表项个数N,即对应的列的个数,分别检查每对列的属性,开始列对检查的循环,查看其数据类型是否冲突。
4) 首先将模型中无同名列的Tag标识为CDl(Column Difference1),说明这是某个输入模型的表中多出来的列。然后记录同名的列对的个数N作为循环次数,进入步骤5)。
5) 检查剩下的同名列的属性,如果相同,进入步骤6):如果不相同,进入步骤7)。
6) 检查同名列的数据类型。如果相同,则在数据结构2中,将该对应列的记录中Tag值设为CE,表示这两列的完全相同;如果不同,则在数据结构2中将这对列的Tag值设为CC,表示冲突。然后返回到步骤4)进行下一次的循环。
7) 检查属性不同的列对。如果其中一个列的属性是默认值,则进入步骤8);否则将数据结构2中的相应两个列对应的记录的Tag值设为CC,表示属性值冲突。
8) 继续检查该列对的数据类型。判断是否所有的同名列都已检查完毕,如果没有,则返回步骤4)进行下一次的循环。
Step3,针对分析过程中得到的不同种类的冲突和差异加以解决,并输出目标模型M3。在分析的流程中,我们得到了不同标记的表和列,针对不同标记有不同的冲突和差异解决方案。
2.3 列冲突差异的实现
1) 列冲突CC
思路:生成列冲突的原因是列属性设置或者数据类型不同。这种情况下,本文的集成工具默认认为其不存在模型合并的必要,只需将两个输入数掘模型的表结构完全拷备,添加到输出模型中即可。但是,如果将来需要用户选择解决冲突方式的需求,也可以在本文设计的集成工具的基础上增加这个功能。
算法:遍历查询数据结构2所在表每条Tag值为CC的记录,获得该记录的OwnedTableId,到数据结构l中查找符合条件的记录,使得该记录的TableID值等于0wnedTableId,这样,就找到了相应模型中的表结构,从而添加到新模型中。
2) 列差异CD
思路:CD表示某一输入模型的表较另一输入模型的表多了一些列,这种情况下,我们要将含有多余列的表结构加入到新模型中。
算法:遍历查询数据结构2所在表中每条Tag值为CD的记录,获得该记录的OwnedTableId,到数据结构1中查找符合条件的记录,使该记录的TableID值等于OwnedTableId,这样,就找到了相应模型中的表结构,将其添加到新模型中即可。
3 结束语
总之,数据仓库及其元数据是企业知识管理的重要组成,数据仓库的元数据管理终归是一个非常繁琐复杂的过程,其范围涉及数据仓库的整个环节,一个完整、通用的元数据管理系统的构建注定充满了迭代和不断反复,因此,对它的研究也应该是长期的、不断探索的过程。
参考文献:
数据仓库范文6
【关键词】数据仓库;OLAP技术;数据ROLAP技术
1 数据仓库概念及其体系结构分析
1.1 数据仓库定义分析
数据仓库的本质是由联机分析系统和决策支持系统共同构成的结构化数据环境,是一个具有稳定性和集成性,能够面向发展主题的数据集合,并通过数据的分布管理和并行处理以支持企业集体管理过程中的决策。数据仓库的建立为企业的决策处理提供了更为有力的支持,其数据并行处理的多变性也使得数据仓库能够在不同的数据环境中对大量的数据信息进行有效的处理。在数据仓库的实际应用中,高层次的数据归类标准能够使数据在宏观上得到类型划分,不同类型的数据在依照各自归属领域中逻辑处理后,经集成和加工后变为面向主题的数据集合,并为之后的数据调取做好准备。
1.2 数据仓库的体系结构划分
数据仓库在数据处理过程中主要分为数据的分析型处理和操作型处理,两种数据处理方式在实际应用中通常区别使用,以保证数据仓库中数据结构的整体性。为进一步完善数据仓库的体系结构,通常将数据仓库的体系结构划分为数据查询和分析组件,数据集成组件,数据源和监视器等体系结构。数据查询和分析组件能够将数据仓库的终端用户数据信息转换为数据源装入DW,并在数据集成组件的DW视图维护中完成数据源的合并及过滤。数据源作为一个数据库系统,主要包括HTML类型文件和SGML类型文件等,数据仓库的内容通过监视器与多类型文件相连接,以实现数据仓库中数据源的监测与处理。随着数据仓库在实际应用中的日渐完善,其体系结构的划分也更为具体化,数据提取工具,转换工具以及其他多种数据处理工具的协调使用使得数据仓库日渐成为数据处理系统的核心,并以此为基础满足用户的多方面数据需求。
2 数据联机分析处理技术发展背景讨论
OLAP技术即数据联机处理技术,该技术的发展是以数据库技术为基础的,随着计算机数据处理和计算技术的迅速发展,数据仓库的建立已经成为计算机数据处理的首要前提。在社会经济的迅速潮流中,企业经济成为了社会经济构成中的一部分,发展至今,企业经济已成为社会进步的主要推动力,因此为保证社会的经济进步,企业的经济建设是必不可少的。为进一步提升企业的运营效益,企业决策者引进了数据仓库技术,通过对企业累计的大量生产及业务数据进行分析处理,并从多数据类型中筛选出有效的数据信息,通过有效信息的筛选反应企业的运营实际情况,并为企业的决策提供数据支持。随着企业决策者对数据信息策略性价值的不断探索,数据联机处理技术得以开发,这一技术的开发与应用不仅充分展现了企业数据信息的策略性价值,也使得企业之间信息视图的互访成为可能。OLAP技术开发研究的逐渐深入,使其数据处理的效率和一致性都在一定程度上得以提升,随着OLAP技术在企业数据仓库技术基础上应用的进一步推广,企业决策者以及管理人员将能够更为明晰的洞察到数据仓库中数据的隐含规律,进而制定出更切合企业发展实际的发展决策。
3 基于数据仓库的OLAP技术概论
3.1 OLAP概念分析
OLAP技术是指在处理特定问题的情况下采取的联机数据访问和处理技术,通过对大量数据进行分析和处理,使得数据中所包含的信息内容能够被决策者快速的读取访问,进而为决策者的数据深入调查提供便利。OLAP技术在实际应用中是以多维视图的形式展现的,通过划分维度层次使数据中的细节信息得到多方面描述,并通过处理企业日常运营过程中产生的数据以起到支持企业决策的有效作用。
3.2 OLAP技术特点分析
根据OLAP技术的实际应用作用分析可知,OLAP技术具有信息性,多维性及可分析性等多种技术特点。从信息性角度分析,由于OLAP技术的职能是对大量的数据内容进行分析与处理,并且数据的存储位置无法影响到信息获取效率,所以OLAP技术通常用于管理大量的数据信息,并且在磁盘空间应用和数据仓库结合等多方面都有较为广泛的应用。OLAP技术还能够在进行数据逻辑分析的同时对数据进行统计分析,这便使得用户在定义全新的编程运算时无需针对运算过程进行程序编写,为用户的实际应用提供了很大的方便。OLAP技术的可分析性也体现在用户对OLAP系统的应用中。OLAP技术为用户提供了OLAP数据平台,用户能够在平台上完成数据分析,OLAP技术平台也能够连接到其他数据分析工具上,通过其他数据分析工具将分析结果录入到系统中,进而提升OLAP系统的数据处理效率和准确性。OLAP技术的多维性作为该技术的关键属性,是系统进行数据处理后结果的直观展示,OLAP技术中多维视图的展现,使得企业运营中产生的数据内容能够得到最为直观的展现,加之多维视图中层次维和多层次维的引入,更是使得数据内容展现得以进一步丰富。
4 基于数据仓库的OLAP技术探究
4.1 OLAP数据模型结构分类
OLAP技术主要应用于大量数据的分析归纳过程中,由于数据种类和处理方式的多样性,OLAP技术在实际应用中必须能够支持多维视图模式,并且具备一定的旋转性,这样才能有效满足用户需求。为进一步提升OLAP数据处理系统性能,通常要以关系型数据库为基础搭建数据仓库,并通过数据仓库与OLAP技术的协调运行来实现数据的数据的有效处理。为满足用户因数据接口不同而产生的数据存储需求,将OLAP数据处理技术分为三种数据模型。数据容量最小的是基于多维数据库的数据模型结构。该结构中数据的存场所是多维度数据库,数据库由多个多维数组存储单元构成,不同数组存储单元中存储的数据类型都具有统一的属性,这也为后期类型性数据的调取与处理提供了方便。基于关系型数据库的OLAP具有更为灵活的缩放性,该技术产品更加强强调对数据的并发控制管理,由于数据的并发控制管理在实际应用中最为普及,也使得这种数据模型结构成为当下最为成熟的模型结构。混合型OLAP数据模型结构是在最近得以发展的,该数据模型结构最大的特点是融合了多维数据库结构和关系型数据库结构的优点,两种数据模型结构的有机结合使得混合型OLAP数据模型结构具有更为优良的扩展性和数据处理速度。
4.2 OLAP数据模型搭建
在基于数据仓库下的OLAP技术中,OLAP数据模型的搭建是OLAP的技术核心。在整个数据模型中,维和度量共同构成了数据信息的分析处理标准,OLAP技术便是以这两种衡量标准进行数据的分析处理的。OLAP数据模型的搭建为终端用户的数据查询和报表提供了更为简要的处理方式,复杂的数据查询方式向简要数据切片处理方式的转换,使得数据仓库中的数据内容能够以多维视图的形式展现给用户,使得用户的数据查询和处理过程在很大程度上得到简化。在OLAP数据模型中,维是同种类型数据的集合,数据所具备的变量特性使得维具有自身的属性特点。OLAP数据模型中的度量则与维不同,它仅表示一个度量值,如在商品销售中,度量的存在形式主要包括商品单价,销售数量以及销售总额等,与数据模型中的维不同,度量更为强调数值本身的属性,是数值所代表内容的直观体(下转第166页)(上接第136页)现。
4.3 OLAP数据模型多维表示方法
在OLAP技术和数据仓库的结合与应用中,为有效提社OLAP数据处理效率,通常将多维数据库转换为事实表和维表两大类型。事实表在关系数据库中表示数据关系时,通常要以存储数据的实施度量值和不同位的主码为基础,而维表在OLAP数据模型的表示中则保留了描述不同维之间层次关系以及成员类别等必要的数据内容。在OLAP技术数据模型的多维表示中,事实表和维表的紧密联系能够使关系数据库中的数据类型分类更为明晰,维表中不同数据属性的ID主码也使得OLAP数据模型呈现出星型模式,这也进一步表明了数据仓库中数据二维关系的确立,为数据的多维查询和描述提供了有效参考。雪花模式也是OLAP数据模型的重要体现。在OLAP关系数据库中的雪花模式下,企业的决策人员和管理人员不再需要从多层次,多角度进行数据分析,而是从多维表的数据描述中得出数据的数据集构造。如在商品销售中,按照商品产地,商品种类和用途等将商品进行不同种类的划分,这就会使得OLAP星型数据结构的顶端出现分支,进而演变成为关系数据库的雪花模式。OLAP技术的雪花模式数据模型能够利用多张维表表示维层次复杂且成员类型较多的数据集,并且数据在存储时也要借助实施表和维表的联结才能实现,雪花模式下OLAP技术与数据仓库的结合使得维表形式更为规范化,这也为OLAP技术今后的探究与发展指明了方向。
5 结束语
随着我国社会企业竞争的日趋激烈,企业中决策人员的数据信息获取能力成为了影响企业发展的关键,也成为了企业竞争与发展的根本,OLAP技术和数据仓库的应用,为企业的数据处理提供了多维的数据分析方式,此外,OLAP技术的应用也为数据用户提供了便捷的数据查询途径。在计算机技术发展的推动下,我国基于数据仓库的OLAP技术将会更加灵活,数据分析与处理水平也会得到显著提高,随着我国对数据分析与处理研究的深入,OLAP技术将会受到更为广泛的应用。
【参考文献】
[1]王珊,等.数据仓库技术与联机分析处理[M].北京科学出版社,2010,12(8):35-56.