数据分析分析技术范例6篇

前言:中文期刊网精心挑选了数据分析分析技术范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据分析分析技术

数据分析分析技术范文1

关键词:大数据 智能 数据分析

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).

数据分析分析技术范文2

随着信息技术的发展以及计算机的数据存储和处理能力的提升,数据分析技术的应用领域逐渐拓展,各种技术也日趋成熟。目前,在数据挖掘分析技术上已经形成了较为完备的体系,在大多数行业的业务数据分析领域已经形成了固定的技术模式。

1数据源准备

数据源是数据分析技术应用的重要前提,数据来源关系到各种业务分析所需要的数据是否齐全、原始数据质量是否可靠、数据提供的性能方面是否满足相关要求等。对于不同的行业领域,数据来源的渠道各不相同,对于数据分析应用而言,也需要在众多的数据中选取合适的部分进行后续加工和处理。对于大多数信息化技术应用比较广泛的企业而言,主要的业务运营数据源都可以从自身的信息管理系统中取得,如业务支撑系统、企业资源规划和管理系统以及流水线作业信息管理系统等。有部分数据信息是从非常专业的系统中直接采集到的,如专业调度系统、电话交换机以及生产线控制系统等。从这些系统中,可以取得企业运营过程中的基础信息和关键数据,这些数据通常是最能真实客观地反映企业运行情况。此外,数据获取的成本也比较低,稳定性和质量比较好,并且易于管理和重构。然而,就经营分析的角度而言,从企业内部提供的数据还不能满足全方位分析的需要,需要从企业外部获取必要的信息。比如为了深入了解客户的信息,就需要进行相应的市场调研工作,设计一些调查问卷,搜集与业务开展和经营相关的重要信息。另外,在某些特定的场合下,还有可能还需要从其它一些外部渠道去集中获得一些有关客户和市场的数据信息,目前有不少机构专门从事市场信息数据提供的服务工作。从企业外部获得的业务数据往往是针对性较强,有较高利用价值的信息。但这些信息的真实性、稳定性程度就比内部的数据源要低,并且数据获得的成本相对比较高。

2数据仓库技术的应用

目前,数据仓库技术对于大多数经营业务数据分析任务而言,是必备的基础条件之一,尤其是对于规模较大、业务开展较广泛的企业。由于日常运营涉及到的数据来源和种类较多、数据量较大,在进行数据分析处理时需要对原始的信息进行大量的加工处理工作,因此数据仓库技术的应用就是必然的选择。应用数据仓库技术的主要目的是将原始的数据源按相应的要求进行转换并按专门设计的数据结构进行存储。数据仓库技术对原始数据加工处理流程目前一般称为ETL,即抽取(Extract)、转换(Transform)和加载(Loading)。抽取过程是指从各类原始的数据源获取数据的过程,综合考虑信息系统的处理性能和数据时效性以及分析应用需求等因素,数据抽取过程可以是实时的,也可以是非实时的。对于抽取出的数据需要进行一定的转换处理,才能够进行后续的应用,转换过程主要是根据后期应用需求将原始的数据进行过滤、异常处理后再进行格式变换、维度调整以及初步分类汇总等处理。数据加载过程就是将处理后的数据装载到仓库模型中,并根据应用需求进行数据关联关系的调整以及性能优化。在一些专题分析应用场合,还可以将已经加载至数据仓库中的数据进行进一步的归纳处理,形成相关主题的数据集市,以提高数据的可用程度。

数据分析方案的设计和实施

数据仓库建设完成之后,为了实现业务分析的目标,就可以考虑实施一些数据分析方案,选择合适的分析方法和工具建立相应的模型,对数据进行处理,最终得到能够支持业务经营分析的关键信息,这一步对于整个业务数据分析工作而言是一个关键点。数据分析建模工作不仅需要掌握相关分析方法技术,更需要对业务背景和业务分析目标有充分的认识。因为数据分析挖掘建模方法没有严格的定律可以遵循,往往需要在实践中运用一些基本的方法去探索影响业务目标的关键因素,并且需要长期跟踪业务发展情况,不断地完善模型、调整相关参数,才能够得到能正确辅助经营决策制定的方案。此外,随着业务运营模式的调整和市场环境的变化,业务分析模型还可能随时需要重构并且反复验证。目前用于数据挖掘分析的方法有很多,从基本的数理统计方法到目前研究比较广泛的神经网络、遗传算法等。但是并不是越复杂的算法效果越好。在很多场合下,应用较为简便的方法得出的结论更易于描述业务信息,便于理解以及实践操作。现在市场上用于进行数据挖掘和统计分析产品也比较丰富,比较典型的分析工具如SPSS、SAS、STAT等,在一些行业应用领域,还有更加专业的数据分析工具和软件包可供使用。在实际运用过程中,可以根据数据分析的需求和应用范围进行选择。

互动点播业务的业务分析需求

以及数据分析方案设计目前,有线电视运营商在互动点播业务开展过程中关注最多的经营目标是如何提高用户对服务的认可程度、扩大用户规模、避免用户流失以及提升用户的业务贡献价值等方面。在这个过程中同时也需要对点播内容的使用情况进行分析,判断哪些产品的点播频率比较高,以便进行内容安排方面的调整。为了支撑互动点播业务经营分析的目标,首先需要初步选择可能对点播业务使用频率影响比较大的一些关键性因素,并且判断哪些信息是有手段可以收集到的,以及从哪些渠道收集等等。这个过程通常需要对基础业务有一定的认识,此外还需要对信息数据的分布和管理有相应的了解。通常情况下,对于大多数有线电视运营商而言,目前都在建设和使用业务支撑系统。互动业务分析所需要的基础信息大多数都可以从业务支撑系统中获取,例如从客户关系管理平台中可以收集到用户的基本信息,如客户名称、联系方式、业务使用的地址等。另外,客户开通的业务信息以及订购的各种产品信息、业务变更记录信息以及终端信息等基本上都可以从业务支撑系统中获取到。经过一些信息转换和汇总,我们就可以了解到用户业务的在网时间、消费情况、订购记录、离网情况等。从这些基本信息里面可以选择一些业务上感兴趣的因素进行统计分析,以归纳总结出经营分析相关的业务特征。对于互动点播业务相关的另外一些信息,如客户的点播行为记录,一般就不是直接从业务支撑平台上进行采集到。这些数据的来源通常是在互动业务管理平台中,用户在终端上进行点播操作后,互动业务管理平台会记录下与用户点播操作相关的信息。从这些记录中,我们可以了解到用户的点播时间、点播内容、收看时间等等。根据点播的内容,可以在互动业务内容管理平台上关联到其价格、类型、上线时间等信息。综合上述信息后,就可以整理出互动点播业务的使用记录,通过统计分析可以发现用户点播的时间、内容偏好和使用量发展趋势等数据,这些数据可以帮助判断系统的容量以及内容的受欢迎程度等信息。最后,为了综合评估互动业务的发展情况,发现与业务分析目标关联较大的一些因素,可以综合用户的业务记录信息和点播使用情况进行模型构造,并且对结果进行验证和评估,以得到对决策分析有价值的信息。

互动点播业务的数据分析方案的实施应用

根据业务数据分析基本方案设计的思路,可以着手开始实施相应的分析方案。在本文中主要介绍两类数据分析应用案例,一个是基于基础点播行为数据进行的统计分析应用,另外一个是根据用户点播行为数据以及基础业务数据综合分析影响用户的互动业务在线情况的因素。

1用户点播行为数据分析案例

为了了解点播业务的使用情况,可以根据用户的点播行为记录进行数据挖掘分析,以实现总结互动点播内容、时段和使用量趋势等业务特征的分析目标。根据方案设计的结论,从互动业务管理平台中可以取得这类业务分析所需要的全部源数据。但是,互动业务管理平台中的点播记录通常全部是以文本记录的方式保存的,并且由于点播记录的数量较大,一般按照记录数量或者时间间隔进行了拆分。为了利用这些信息就有必要进行相应的数据抽取转换工作。在实际应用中可以使用预先设计的脚本定时从互动业务管理平台中进行数据的抽取,然后经过简单的类型变换后加载至数据仓库中。为了达到分析目标,主要抽取的信息有产生用户点播记录的用户ID、点播内容的代码及分类信息、点播的开始和结束时间等等。原始的点播记录信息转换后,就可以进行下一步的主题分析准备了,例如可以按照点播的时段、点播的内容,以及用户区域等信息进行不同维度的数据分析。图2是对互动点播类业务按每日播频率进行的一个分类统计后用SAS统计工具生成的图形,在生成统计数据前需要从原始数据中分离出点播时段信息,并行分类汇总。从图2中可以发现,点播频率在一天之中的大致分布规律。从点播总量上看,每天点播频率最高的时段是在18:00至22:30左右,峰值在21:00到22:00左右出现,此外在中午12:00左右也有一个高峰时期。点播频率最低的时段大约在3:00至5:00左右。根据每天点播业务频率的分布情况,可以进行相应的网络容量分析,比如通过业务高峰数值可以评估出互动点播平台的并发容量是否足够。另外,根据每日点播频率的分布特征,可以安排相应的业务运营工作部署。例如在业务高峰时段可以集中投放一些广告、通知信息,而一些系统割接和调试工作尽量应安排在使用频率较低的时段内进行。如果需要了解一些特殊的节假日的点播频率分布特征,可以在原始数据中进行重新过滤筛选,生成类似的频率分布图并与图2进行比对,然后分析其特点。从互动业务点播数据还可以按内容代码维度进行分析,以统计出与互动视频节目内容相关的数据,也可以将不同维度的数据进行组合分析,进一步挖掘出业务方面感兴趣的信息。

2影响互动业务用户在线状态因素的综合分析案例

互动业务经营分析的另外一个重点就是用户的流失特点分析,其目的在于找到影响用户在线状态的主要因素,并且根据这些信息和目前的业务状态去预测未来一段时间内可能流失的用户情况。另一方面可以针对影响用户在线状态的主要因素实施有针对性的市场营销策略,尽可能避免用户流失情况的产生。此外,在通过分析影响互动在线状态的主要因素后,也可以从中发现进一步发展扩大用户规模的一些线索。为了实现上述业务目标,首先需要确定分析数据来源。由于是综合因素分析,首先需要使用业务支撑系统中用户的互动业务状态变更信息以及其它一些属性特征信息。此外,用户的点播行为数据也是一项重要的数据源,因此也需要引入到模型中。由于最终目的是需要分析影响用户在线状态的主要因素,而在某一个观测时间点用户的在线状态一般认为是一个二值型的变量,因此可以使用逻辑回归(logisticregression)方法进行建模。然后将在此时间点前一个时段的用户点播次数、用户的在网时长、终端特征等作为自变量。在本案例中,按照某一个时间段内用户在线状态是否发生变更这一特征,选择一个用户的样本使用SAS软件的proclogistic过程进行分析。SAS的分析报告中还给出了模型的相关参数以及各变量的参数估计情况。根据分析结果中的卡方值和P值可以了解模型对数据的适配性和稳定性。从分析结果给出的参数估计信息中可以了解不同自变量对于互动用户在线状态的影响情况。用户的点播次数、在线时长以及终端属性等参数都会影响到用户的在线状态。从参数估计中可以看出点播次数较高的用户,其流失的比率相对较低,另外使用高清互动终端用户流失率也相对较低,并且终端类型因素有较高的预测能力。在网时长似乎对用户的在线情况影响不大,但实际建模的过程中需要考虑套餐赠送的情况,因此最好重新调整参数模型后再进行分析。根据分析的结果可以得出相关的结论,互动用户的点播频率越高,其连续使用的可能性就越大,并且使用高清终端用户连续在线的概率比使用标清终端的用户更大。因此在后续的分析过程中就可以预测目前点播频率较低的用户流失的风险较大,在进行针对性的营销活动时就可以设法引导用户更多地进行互动业务的体验,并且鼓励其进行终端升级,以提高这部分用户在线的概率。当然在分析过程中可能会发现一些使用频率非常高的用户意外流失了,这就值得进一步跟踪分析,因为很有可能这些用户选择了竞争对手提供的类似服务。

数据分析分析技术范文3

【关键词】数据集成技术 电力营销 具体应用 数据分析系统

电力营销数据分析系统的主要功能是采集数据,并对数据进行分析处理。而在中国推行电网改革后,电网系统的改革重点在于研究电力影响。此外,在电力营销工作中依然存在在一些问题,这些问题对中国电力营销行业的发展产生不良影响,甚至会导致企业资金的流失。在此形势下,结合数据集成技术对电力营销数据进行分析研究尤为重要。

1 实现电力营销数据分析系统的困难所在

电力营销数据分析系统指的是利用全球各个国家的网络技术采集不同地区的电力营销数据,并进行分析处理,然后利用远程控制技术对这些数据进行传输管理,为决策提供科学的数据依据。

1.1分布式数据的采集、传输与转换的障碍

我国电力营销系统从数据接口形式上来说,并没有形成完善严格的规定,系统软件的运用也有一定差异。但是营销数据的数量较为庞大,形式多种多样,将这些数据存放在同一个系统中,转换为系统所要求的格式进行存储。这样势必会使数据传输存在安全隐患[1]。

1.2系统中的算法结构与数据结构问题

电力营销系统中的数据结构与算法结构需进行改进处理,提高数据结构与算法结构的通用性。在电力营销中,数据结构与算法结构会因为系统的不同而存在差异。在计算与分析处理数据的过程中,要求深入了解原有系统的基本特征,积极做好系统的通用算法转换工作,调整与处理通用设计结构以及数据接口,在满足相关要求后,将其应用到系统中[2]。

2 在电力营销数据分析系统中应用数据集成技术

从我国从2010年,基础设施建设后,有关信息系统建设已经进入到一个全新的发展阶段,全年的系统集成服务市场总资产为288.69亿元。2011年,中国系统集成服务市场的规模为349.11亿元,同比增长了20.9%,而2012年、2013年系统集成服务的市场规模分别为419.67亿元、499.06亿元,详见表1。

表1 中国从2010年至2013年系统集成服务的市场规模和增长率

时间(年) 2010 2011 2012 2013

市场规模(亿元) 288.69 349.11 419.67 499.06

同比增长率(%) 19.7 20.9 20.2 18.9

中国内部系统集成市场的发展规模呈高速增长趋势,行业规模增长在219.5%左右。而推动数据系统集成技术发展,扩大其应用领域制造业、各级各类企业信息化、教育以及政府应用。我国其他行业信息化进程并没有完成,对于系统集成需求需要不断增加。电信、金融、政府这三大行业在系统集成服务中所占比重为55.1%,其他应用领域,尤其是电力营销领域所占比重较低。

银行作为金融业IT投入的主体,是总体投资规模的72.2%,而银行业IT投入的稳定也是金融信息化投入增长的一个主要原因。图1为2011年至2013年国内金融业IT投资规模。

图1 2011年至2013年国内金融业IT投资规模统计图

此外,虽然现阶段全球对于系统集成的市场需求较大,然而系统集成市场的增速并没有因此而快速增长,如图2所示。

图2 2007年至2013年全球系统集成的市场规模

其中 市场规模(亿美元)

因此笔者建议加强数据集成技术在电力营销数据分析系统中的应用研究。下文从两个方面应用思路以及实现应用这两个方面进行探讨[3]。

2.1应用思路

根据系统内部结构可以将电力营销数据分析系统划分为两个部分。其一,数据集成。其二,实现软件功能。电力数据分析系统在运行的过程中,上述两个部分使用的是同一数据库服务器。而在系统中利用数据集成技术,即在全范围内对数据进行总体设计与总体布局,在全部数据运行过程中,创造完整、稳定的数据环境,对系统基本功能以及算法结构进行定义,在掌握数据库结构的基础上,开发和利用[4]。

系统中的数据集成部分主要利用的是中间件技术,完成系统的再度开发,保障数据集成部分的功能得到正常得发挥,从而在采集数据与传输数据方面得到充分的应用。在选择利用中间件的过程中,需要密切注意中间件的质量,确保技术的先进性,以此才能够保障数据运行的稳定性与安全性,从而提高设计应用的质量,减少传输数据过程中所造成的损失。

此外,从数据采集方面而言,类型不同的电力营销系统也存在在一定的差异,这些差异包括以下三个方面。其一,数据内容的多样性。数据种类较多,包括了普通文件、关系数据等,要公开分析整理这些数据。其二,每个电力营销系统应用的是不同的数据管理系统,所以数据采集与数据管理也并不相同。其三,不同的数据访问模式。按照数据存放形式的不同,一些数据访问利用的是数据库接口完成访问,而另一些数据则利用访问文件来完成数据访问[5]。

2.2系统应用

数据集成服务器:因为采集数据的过程中,采取的单向方式,因此服务器接收端位于本地,发送端和分布式数据库联系在一起,分两端服务。

本地数据库:因为各个电力营销系统中的数据量较为庞大,为了确保访问速度与数据容量,采取的是多个数据服务器方式。在数据库中需要设计安装存贮设备与触发器,用来减少系统工作量,确保数据传输与处理的一致性。

应用服务器:从具体应用的要求出发,系统逻辑层的服务功能包括了两类,其一,低级服务;其二,高级服务。其中低级服务指的是本地数据库和其他数据库的连接与维护。而高级服务功能则指的是根据要求配备不同组件,所有组件提供至少要求能够提供一种特定服务。

数据传输的安全性要求:在传输数据的过程中,有多个渠道,而不同渠道在保障数据实时性与安全性方面并不相同,可以利用电子邮件进行数据传输,也可借助信息通信中间件进行数据传输,确保数据的单次传输。这种传输方式是以中间件作为渠道进行数据菜蔬,面向的是分布式信息中间件产品,在消息对列的基础上,为分布式应用搭建可靠、完整的信息交换平台。对于传输安全性有着较高要求的客户,可以利用信息通信中间件作为传输方式。例如:以信息通信中间件为主,电子邮件为辅的传输方式,数据接收服务器从信息队伍中自动提取有关消息,从而完成数据通信[6]。

3结语

综上所述,中国市场经济的稳步发展,要求电力营销企业不断提高自身的市场竞争力,在实际的发展过程呢个中,应用先进技术,不断改进自身的经营管理质量,在电力营销数据分析系统中充分应用数据集成技术,提高数据采集与数据处理效率。

参考文献:

[1]徐晶,徐锋.数据集成技术在电力营销数据分析系统中的应用[J].科技致富向导,2014,10(25):201-202.

[2]贾玉君.国内电力营销监控领域的研究现状与发展[J].电力信息化,2010,09(15):251-252.

[3]郭航宇.电力营销数据分析中的数据集成技术研究[J].科技与创新,2014,10(09):440-441.

[4]雷波.数据挖掘技术在电力营销系统中的应用研究[J].广东科技,2014,02(08):331-333.

[5]戴小廷,陈荣思,肖冰.基于信息熵的决策树挖掘算法在智能电力营销中的应用[J].郑州轻工业学院学报(自然科学版),2012,03(03):901-902.

数据分析分析技术范文4

关键词:大数据;分析及挖掘;交通行业

1技术背景

21世纪,伴随着信息技术和互联网的爆发式发展,人类进入大数据时代。数据成为国家核心战略资源和社会财富[1],全球范围内研究发展大数据、运用大数据推动经济发展成为大势所趋。IBM公司研究报告表明,当前各行业数据的分析利用率极低,仅为1%。交通行业数据虽然由于细粒度、连续性及信息丰富等优势具备大数据分析挖掘基础,但也由于数据增长快、覆盖面广、数据深度高、格式不统一、信息孤岛等原因,致使其分析挖掘比例更低。因此,加快交通大数据的清洗、分析挖掘及应用等关键技术攻关,对积极响应国家大数据战略、交通强国战略,促进山西经济转型意义深远。

2现有基础

2.1政策保障

山西省通过加快组织建设与政策保障推动大数据技术推进,给予大数据产业系列政策支持,发展潜力指数位居全国前列。2016年,山西省《山西省国民经济和社会发展第十三个五年(2016—2020年)规划纲要》和《山西省“十三五”战略性新兴产业发展规划》,明确构建现代综合交通运输体系,推动大数据、云计算等战略性新兴产业在交通运输、环保、国土资源等行业领域应用;2017年,山西省《山西省大数据发展规划(2017—2020年)》,力求在大数据战略实施上取得突破,促进全省经济转型发展;2019年,《山西省促进大数据发展应用2019年行动计划》再次明确“推进大数据在交通、旅游等民生领域应用不断深入”;2020年4月,山西省《山西省大数据发展应用促进条例》,要求推动经济社会各领域的数字化、网络化、智能化发展。因此,山西省交通大数据产业化发展符合政策导向。

2.2数据基础

自大数据国家战略实施以来,山西省积极推进山西联通、山西移动、山西电信、百度(阳泉)公司、吕梁军民融合研究院、北斗山西分公司等大数据中心建设,推动浪潮集团、华为公司、新华三通信公司等互联网企业数据中心和云平台项目在山西省落地建设。2019年,山西交通控股集团着力打造了自己的数据中心。山西省交控集团数据中心的建设使山西省交通大数据分析及挖掘工作成为可能,为深化大数据在交通行业的示范应用奠定了数据基础。

2.3技术基础

山西省交通科技研发有限公司致力于交通运输行业的科学研究与技术咨询,近五年,交研公司智能装备、智慧交通、交通安全及桥梁与隧道工程等研究院累计承担国家、省部级大数据相关科研项目7项。同时,项目开展过程中形成了由3名博士牵头、10余名硕士为技术骨干的“大数据分析与应用”“数据挖掘”“数据可视化展示”等跨院技术合作团队。

2.4人才资源

截至2019年底,全国共477所高校本科专业获批,山西省以14所高校的总量位居全国第五,如太原理工大学、山西大学、中北大学等。数据科学与大数据技术专业的设立培养了大批社会急需的具备大数据处理及分析能力的高级复合型人才,为交通行业数据分析及挖掘奠定了人才基础。

3研究方向

3.1研究内容

基于交通行业大数据规模大、速度快、多样、价值密度低等特点,建立大数据处理技术体系[2],并开展存储及融合、分析及挖掘、可视化决策、数据应用等研究工作。

3.1.1多源异构数据的混合存储及融合技术交通行业在生产、设计、施工、经营及管理过程中会产生大量异构数据,多源异构数据的统一存储及融合技术是首先要解决的关键问题,也是对交通大数据进行充分挖掘和应用的前提。开展数据存储技术及融合算法研究,并建立适用于交通行业的数据模型,实现异构数据的快速存储及查询、录入数据的统一标准化,是当前交通行业大数据分析工作的重点之一[3]。

3.1.2基于云计算的数据分析挖掘体系建立基于云平台的数据分析挖掘体系,提高非向量数据的挖掘能力,开展基于分类、回归分析、Web数据挖掘等方法的数据分析研究[3],并建立各类型数据挖掘模型,实现各结构类型数据的分析与深入挖掘,进一步提高交通行业大数据的服务价值。

3.1.3数据的可视化决策基于新型数据可视化决策技术,将复杂的数据信息以图、表形式直观显示,并动态呈现数据变化趋势,提高管理人员依据数据进行生产经营管理决策的科学性[4]。

3.1.4提升数据应用水平积极响应国家大数据发展战略,借助物联网、云计算等技术[5],切实推进大数据技术在交通产业的应用,打造深度融合数据存储、分析、挖掘、加工处理和应用展示的高度集成平台,从而促使交通行业的信息化管理水平取得全面提升。

3.2典型应用

基于现有数据开展面向交通运营的数据分析与挖掘技术研究工作,列举几个典型应用:(1)基于集团业务数据及战略布局,建立集团统一数据标准,通过数据清洗实现不同数据互联互通。基于大数据挖掘技术,建立业务数据模型,充分绘制潜在客户画像,为集团提供针对需求的预测数据进而驱动业务增长。(2)基于视频监控系统积累的海量数据,开展高速公路视频大数据挖掘分析与应用,构建以交通流大数据为特征的数据处理模型,解决道路拥挤、车辆稽查、交通安全等问题,提升高速公路整体营运管理和服务水平。(3)交控集团管理运营高速公路超5000km,占全省高速公路总里程95%以上,基于高速公路收费系统积累的海量数据,开展高速公路货运/客运情况的大数据分析,预测山西省经济景气情况,助力山西经济转型发展。(4)基于交控集团在高速公路等重大交通基础设施开展的全过程业务,创新型引入大数据能源管理,在设计规划、施工段、运营等多个阶段通过数据化的能源管理系统实现基础设施建设的安全、绿色、智慧,积极响应国家发展战略。(5)基于集团在高速公路路面、隧道、桥梁等开展的检测、监测及养护业务,开展病害数据、养护数据的分析与挖掘,为交通基础设施建设和养护提供全方面的决策信息支持,提高服务水平。(6)紧跟技术前沿,开展面向交通安全等相关领域的数据分析与挖掘技术研究。

4发展前景

数据分析分析技术范文5

论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。

本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

一、绪论

互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档SGML格式。

3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

4.数据挖掘中的关联规则

关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。

另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。

参考资料

1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999vol.36No.7P.870-875;

2.SrikantR,VuW,AgrawalR.Miningassociationruleswithitemconstrains.IBMAlmadenResearchCenter,TechRep:97.056,1997;

3.ParkJS,ChenM,YuPS.Aneffectivehashbasedalgorithmforminingassociationru1es.In:ACMInternationalConferenceonManagementofData,Caliform,1995;

4.Inmon,WilliamH,BuildingtheDataWarehouse(2nded.).Wiley.NewYork(1996);

数据分析分析技术范文6

[关键词]大数据;互联网+;农业;智能灌溉

引言

随着科技的日益进步,计算机的相关技术被引用到各个领域。智能灌溉系统是融合传感器技术、自动控制技术、计算机技术、无线通信技术与移动终端控制等多种高新技术,自动采集光照、温度、土壤水分、空气湿度等信息,通过无线通信技术传输给信息管理系统,自动控制喷水灌溉、通风除湿等设备,从而调节环境参数。智能灌溉系统应用大数据策略,在云服务平台进行数据分析处理,以关联图表显示历史记录,为农业专家提供决策支持,同时获取国家气象局天气预报信息,根据天气状况和作物需要智能调节喷水灌溉策略,调整用水量,实施精准灌溉,提高水资源利用率。智能灌溉系统支持多种应用场景如智能花园、温室大棚、高尔夫球场等,提供Web版、桌面版、移动终端3种管理系统供用户使用,使其随时随地操作管理。智能灌溉系统采用WiFi技术实现远程无线通信,采用Zigbee技术构建底层无线传感网,节能低耗,能够根据应用场景规模灵活增加无线节点模块,不会因为监测点过多而使布线复杂,降低系统维护运营成本。

1职能灌溉系统总体结构

系统总体结构如图1所示。系统实验室模型及部分实物操作界面如图2所示。

2智能灌溉系统功能模块简介

本系统根据物联网三层体系结构设计,功能模块划分及其主要设计内容如下表1所示。

3智能灌溉系统简易操作说明

下面主要说明桌面版管理系统、Web版管理系统、移动终端版管理系统的操作使用方法。3.1桌面版管理系统桌面版管理系统主要功能模块有:操作控制模块、数据与命令查看模块。其中,操作控制模块的功能如下:这部分提供了实时场景的选择,区域实时数据的显示,区域手动操作和自动控制的设置。可以通过输入服务器地址,进行场景的选择,然后对该场景下的区域进行手动控制,实时控制底层终端控制设备,也可以开启自动控制,输入要自动控制的参数范围,系统会根据输入的控制参数,进行自动控制。3.2Web版管理系统3.2.1登录界面系统的开始页面,界面简洁友好。只有获取权限才能进入控制系统。3.2.2首页这部分主要是显示项目的一些图片,页面下方是项目的介绍。3.2.3监控中心这是本程序的核心部分,在这个页面中,能够通过仪器表查看到当前的数据,并提供了天气预报,能够根据需要设置自动控制的外界条件,或是进行人工的操作处理。上述界面中,上面部分是最近一次采集到的数据,以仪器表的形式生动地展示出来,左下角是自动控制时的温湿度,光照强度的控制范围,在这里输入要控制的范围后,系统会根据用户输入的范围自动调控。右下角是系统的自动控制区域,在这里用户可以进行手动控制。3.2.4数据分析查看将历史记录以关联图表的形式展示出来,一目了然,为农业专家进行数据分析提供决策支持,最终确定适于作物生长的控制策略。3.2.5操作记录将用户的操作即自动操作记录下来,便于查看。3.2.6退出程序退出后,系统的工作模式不变,保持原状。点击退出后,登录状态被重置,并跳转到登录页面。3.3移动终端管理软件3.3.1登录部分这个是手机端的登录界面,简洁明了,选择联网模式,输入账号密码以及当前的服务器地址即可登录,可以选择保存密码,方便下次登录。3.3.2数据查看中心选择当前环境模式和区域,即可查看当前的实时数据。3.3.3控制中心选择当前的场景模式和区域,就可以对该区域进行控制,可以根据需要输入环境参数,设置自动控制的范围,也可直接进行手动控制。

4结语