前言:中文期刊网精心挑选了大数据网络营销范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
大数据网络营销范文1
【关键词】大数据 网络营销 发展
一、大数据与大数据技术
大数据——根据维基百科的解释,“大数据”指的是“普通软件工具不能在一定时间内抓取、管理以及处理能力的数据集合”。
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是近来的一个技术热点,但从名字就能判断它并不是什么新词。毕竟,大是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。
然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互的要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。大数据技术就在这种情形下应运而生了。可以说大数据技术的诞生和发展动力来自于企业改善自身经营水平、提升经营效率的需要。
二、网络营销及其现状
网络营销是指利用Internet等网络进行的营销活动,是一种结合了信息技术和营销理论的新型营销方式。
“网络营销”,是将互联网与营销的本质结合,进行系统的、持续的、交互的客户关系管理。作为一种全新的交互的系统性的平台,互联网与传统媒体存在本质的不同,甚至,它不只是一种媒体。在传统媒体投放广告,广告本身和业务是物理隔开的,比如受众在电视上看到广告,还需要到其他渠道去购买或者进一步了解。而在互联网这个平台上,从广告到营销、销售、客服,整个过程都是一气呵成的。但长期以来,网络营销仍与传统营销一样,营销主动在前,数据被动在后,互联网所特有的定向、精准并没有特别的体现。
在传统媒体时代,电视台的数量是几百家,报纸的数量是上千家,杂志的数量是数千家,而互联网时代,网站的数量是数以百万计,网民的数量是数以亿计,而每个网站上每一天的互动行为则不计其数,可以说互联网的快速发展在一定程度上推动了大数据的产生和发展。随着数据的爆炸性增长,互联网也就此进入了它的大数据时代。
三、大数据技术对网络营销的推动作用
根据数大数据技术在网络营销管理中的现实与到目前为止的理论研究成果,可以发现大数据在网络营销管理中的应用已渗透到从产品销售关联、潜在客户分析、客户关系管理到广告投放决策等等方面,主要应用介绍如下:
(一)产品关联分析,形成网上推荐系统
在线下,史上啤酒与尿布放在货架邻近处一起销售的营销经典案例就是产品关联规则的侧面反应。而在线上,随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
在推荐系统中,应用大数据技术,根据用户的信息、需求、兴趣以及其他消费者购买历史数据等,通过计算后将用户感兴趣的信息、产品等推荐给用户。和传统的搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的需求信息。
(二)寻找替在客户,推动网络营销精准化
数据与营销精准化可以说是一个硬币的两面。要做到以人为本的精准化营销,积累并应用起以人为本的数据是根本,网络媒体在这方面有着先天优势。传统媒体营销不具备完整的数据收集能力,无论平面媒体还是电视,只能通过抽样问卷调查获取数据。但在互联网上,每个环节、每一步细节行为,都可以把数据采集回来,形成海量数据规模。通过建立的海量用户行为数据管理平台DDMP(Dratio Data Management Platform),每天采集数据量,积累每天网民的可连续分析的细节行为数据。海量而真实的数据,使还原网民的每个细微需求成为可能。
大数据技术在寻找替在客户主要工作是识别好的潜在客户、为接近潜在客户选择沟通渠道、信息简档的匹配等。不像传统的仅靠营销部门的经验去选择一部分人群,大数据技术提供了许多效果显著的更为精确的定量方法,从而更为精准地知道哪些人有可能是企业或公司的客户。
(三)升级客户管理方式
在产品高度同质化、客户需求多样化的今天,如何进行有效地客户管理已是企业竞争能力提升的的重要基础。以前,人们认为客户管理就是“以客户为中心”对客户进行管理,这种观点虽然有一定的道理,但只是概念性描述,没有具体的量化指导措施。只是片面强调表面现象,没有深层次的分析。如无法精准地辩别出哪些客户最有价值,对如何保持客户和流失客户分析缺少令人信服的方案。而大数据技术的出现使得对客户的实时的、差异化的分析与管理成为可能。大数据的挖掘就像是在给用户画像。先搜集用户在网络上留下的痕迹也就是数据,然后通过技术处理对数据进行分析,得出用户的特征,洞察用户的喜好,将用户的画像渐渐越描越细。通过更丰富的消费者数据,包括网站浏览数据、社交数据和地理追踪数据等,可以绘制出更完整的消费者行为描述。
(四)互联网广告新业态
大数据的应用正在逐渐影响甚至改变着网络营销的广告模式,实时交易广告模式RTB(Real-time bidding)悄然崛起。RTB,是近年兴起于美国的网络广告交易模式。如今这一模式正在全球范围内被大力发展。相关数据显示,欧美数字广告发行商中有2/3使用RTB模式。Google Double Click高管则认为展示广告的市场规模会从现在的200亿美金扩张到2015年的500亿美金,其中50%以上的展示广告将通过RTB模式完成。
RTB可以说是大数据在网络营销领域最成功的模式和变革,它利用第三方技术手段在数以百万计的网站上对每一个用户的行为进行评估、分析并出价购买。RTB的出现,改变了网络广告的策划逻辑,即从媒体购买向人群的实时购买转变,它所带来的基于大数据的实时精准,规避了无效的受众到达,让广告主、消费者和媒体的利益同时得到最大化。
同时,RTB也给网络广告带来了结构性的变化,它带来了展示广告的新趋势和新变化,让展示广告进入了效果营销的时代,可以说RTB正在重塑整个展示广告的生态。此前,搜索广告在网络广告中一枝独秀,但现在RTB和大数据让有些式微的展示广告也能焕发第二春,让它有了与搜索广告比肩的可能,在我看来,这是大数据在网络营销领域带来的最大的变化。
四、结论
随着大数据技术的不断发展和企业越来越重视从网络平台营销数据中获得知识,大数据技术在企业营销数据管理中将扮演着更为重要的角色。同时企业信息化的加强和营销定量分析的俱增,大数据技术在网络营销管理中的应用将越来越广。充分利用大数据技术为企业的网络营销服务,提高从营销数据库中发现知识的能力,从而使企业在竞争中处于有利位置。
参考文献:
大数据网络营销范文2
一、获取全网用户数据
首先需要明确的是,仅有企业数据,即使规模再大,也只是孤岛数据。在收集、打通企业内部的用户数据时,还要与互联网数据统合,才能准确掌握用户在站内站外的全方位的行为,使数据在营销中体现应有的价值。在数据采集阶段,建议在搜集自身各方面数据形成DMP数据平台后,还要与第三方公用DMP数据对接,获取更多的目标人群数据,形成基于全网的数据管理系统。
二、让数据看得懂
采集来的原始数据难以懂读,因此还需要进行集中化、结构化、标准化处理,让“天书”变成看得懂的信息。
这个过程中,需要建立、应用各类“库”,如行业知识库(包括产品知识库、关键词库、域名知识库、内容知识库);基于“数据格式化处理库”衍生出来的底层库(用户行为库、URL标签库);中层库(用户标签库、流量统计、舆情评估);用户共性库等。通过多维的用户标签识别用户的基本属性特征、偏好、兴趣特征和商业价值特征。
三、分析用户特征及偏好
将第一方标签与第三方标签相结合,按不同的评估维度和模型算法,通过聚类方式将具有相同特征的用户划分成不同属性的用户族群,对用户的静态信息(性别、年龄、职业、学历、关联人群、生活习性等)、动态信息(资讯偏好、娱乐偏好、健康状况、商品偏好等)、实时信息(地理位置、相关事件、相关服务、相关消费、相关动作)分别描述,形成网站用户分群画像系统。
四、制定渠道和创意策略
根据对目标群体的特征测量和分析结果,在营销计划实施前,对营销投放策略进行评估和优化。如选择更适合的用户群体,匹配适当的媒体,制定性价比及效率更高的渠道组合,根据用户特征制定内容策略,从而提高目标用户人群的转化率。
五、提升营销效率
在投放过程中,仍需不断回收、分析数据,并利用统计系统对不同渠道的类型、时段、地域、位置等价值进行分析,对用户转化率的贡献程度进行评估,在营销过程中进行实时策略调整。
对渠道依存关系进行分析:分析推广渠道的构成类型与网站频道、栏目的关联程度(路径图形化+表格展示);
对流量来源进行分析:分析网站各种推广渠道类型的对网站流量的贡献程度;
对用户特征及用户转化进行分析:分析各个类型的推广渠道所带来的用户特征、各推广渠道类型转化效率、效果和ROI。
六、营销效果评估、管理
利用渠道管理和宣传制作工具,利用数据进行可视化的品牌宣传、事件传播和产品,制作数据图形化工具,自动生成特定的市场宣传报告,对特定宣传目的报告进行管理。
大数据网络营销范文3
讯:毫无疑问,这是一个大数据营销的时代。大数据业已成为互联网企业的重要资产,全球的数据量正在以每18个月翻一倍的惊人速度增长。全球畅销书《社会消费网络营销》的作者拉里·韦伯就认为,所谓大数据,包括企业信息化的用户交易数据、社会化媒体中用户的行为数据和关系数据以及无线互联网中的地理位置数据等。
进入到收集数据的黄金时期,如何整合这些数据成为企业未来的关键任务,而借助于大数据展开的大规模个性化营销也将成为企业未来的核心竞争力。2013年5月29-30日,国内专业的网络营销会议举办机构赢时代将在中国无锡举办2013年GOMX全球网络营销大会(以下简称GOMX),本次GOMX大会数据分析专场就将针对如何提升大数据时代下的企业核心竞争力带来《更智能的分析和数据驱动取向将如何提升你的CRM》、《如何收集、解读并使用你的网站分析数据》、《移动互联网时代的大数据挖掘》和《网商关注的那些数据》等精彩纷呈的演讲内容。
身处大数据营销时代,机遇与挑战并存,大环境改变、媒体变革、应用丰富、终端变化等无一不改变着消费者的生活方式和消费行为,相应的,企业的营销思维和营销方式也正随之改变。国内专业的网络营销会议举办机构赢时代CEO曾荣群就明确指出,在网络整合营销中,数据的价值表现为可以帮助广告主找到目标受众的属性和与之契合的整合媒介平台,从而通过媒体平台释放传达品牌主张,成功实现网络营销。
而通过各项数据分析,可以帮助企业对用户行为的追踪和理解更加具象,同时从多维度关注用户、洞察用户。可以说,对数据的研究即对受众的研究,受众习惯的变化将直接指导品牌营销的方向。本次GOMX大会的数据分析专场已邀请到《New Internet:大数据挖掘》的作者谭磊、速淘COO俞冰及品众互动、天拓、管易等等行业内众多知名企业高层代表出席并发表精彩演讲。嘉宾的分享主题更是涵盖了众多时下热门及企业关注的内容,相信这些实用热门的数据分析经验分享必将给广大与会者带来新的启迪和思索。(来源:美通社)
大数据网络营销范文4
[关键词]大数据;消费者行为;商业模式;消费模式变革
[DOI]101.3939/jcnkizgsc201627025
1大数据的主要特点
大数据呈现出四个重要的特点:一是数据类型繁多(Variety)。类型的多样性把数据分为结构化数据和非结构化数据;二是数据体量巨大(Volume)。[1]截至目前,人类生产的所有印刷材料的数据量约200PB(1PB=102.4TB),而历史上全人类说过的所有话的数据量大约是5EB(1EB=102.4PB);三是处理速度快(Velocity)。这是大数据区别于传统数据挖掘的最显著特征;四是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。
2大数据时代下消费者行为的演变
2.1消费者行为更容易受外部介绍的影响
传统的消费者往往通过口碑相传、杂志推荐等来得知对商品的评价,而在大数据的网络时代下,消费者可直接在贴吧、论坛、微博、博客等社交媒体上发表自己的主观看法,这些评价信息将毫无保留地传递给后来者。因此,大数据网络时代下的大众评价影响更加深刻和广泛,对潜在的客户有着更加直接的购买影响力。而且,大众的评价数据将会被转载或更大化地转播,影响到的消费者也随之越来越多,产品的购买情况也受到很大的影响,在这一方面淘宝、京东等基于网络营销的基础上,在云计算的帮助下,把广告推送和流量引流更好地转化为消费者的购买。
2.2消费者的品牌依赖度逐渐下降
根据品牌成长的社会链:知名度――可信度――美誉度――忠诚度――依赖度理论来看,传统销售时代,品牌的知名度和美誉度在一定程度上主要取决于产品的质量和口碑。而在大数据时代下,随着科技进步和社会发展名牌产品和普通产品在质量上的差距越来越小,青少年追求个性化的需求越来越高,从而打破了传统的品牌成长的社会链。使之发展成为以质量为前提,个性化定制为驱动,消费便捷化促生产的良性循环,再加上网上传播速度和口碑的爆炸效应,带来了营销界的广泛关注和研究。消费者在新一轮的科技变化中,对品牌依赖程度逐渐下降已成趋势。
2.3消费者选择更加个性化
随着商品经济的不断发展,新一代的消费者对个性体验的重视不断加强。商品已经超越了简单的物质需求,而成为了新消费者的存在方式,成为了他们心理安全的保护机制。他们把消费作为树立个人形象,反映精神世界,个性宣言的方式。借助消费,他们表达对自由选择的渴望,流露对个人幻想的追求,展现对品质世界的向往。长期以来我国企业大多只重视产品的质量和本身产品的性能,但在大数据时代背景,企业要从原来单一的追求产品本身的性能和质量转变为增加商品外在的元素,以便满足消费者个性化的需求。
3在大数据背景下针对消费者行为的商业创新
3.1精准营销在商业政务中的应用发展
大数据时代下,企业手中掌握着越来越多的用户数据、产品数据、消费数据等,怎样才能在合理范围内使用这些数据并使之变成消费者购买力创造价值,成为企业亟待解决的难题。而对这些数据的使用,准确把握消费者心理和行为,生产和销售消费者偏好的商品,提升综合服务效率,进行精准营销,将是大数据时代背景下企业创造价值的最佳切入点。企业可以通过大数据的收集和整理,分析消费者商业消费习惯,判断其类型和消费偏好,对消费者进行精准定位,从而制定出有针对性的产品组合、营销计划和商业决策,并在数据分析中不断发现商机。在这方面,一些企业已经走在时代前列,如贵州大数据之都建立,实行全城Wi-Fi,通过硬性规定将政府IT系统搬到阿里云上,全程智能地分析城市天气、交通、农业、政务的规律特点实时进行专事专点调整,在2015年没有发生过一起死亡3人以上的交通事故。[2]
3.2网络营销等全渠道营销结合将成为趋势
随着信息技术和电子商务行业的快速发展,我国传统的销售渠道正在面临着严重的威胁。一方面房租价格在持续上涨、人力成本持续上涨、传统企业落后的思维模式,另一方面电子商务在大数据的推动下更加全面精准的营销使之网购规模增幅不断扩大,线上线下整合势在必行。电商企业既可以借助线下渠道补足网购对商品触感问题和信誉问题,同时传统企业也可以借助电商平台改善传统渠道销售单一、辐射面积有限、广告投放盲目等问题。在大数据时代背景下,市场将会越来越趋向于简单、快捷、多样,而要求商家的渠道构建也越来越全面和准确,所以线上线下相融合的方式发展将会成为一大趋势。例如,在2016年8月阿里联合苏宁易购加强合作。
3.3商业定位的转变
大数据时代背景下,消费者对品牌的忠诚度不断下降,使得大数据时代商业模式必须从以品牌为中心向以消费者为中心转变。[3]阿里巴巴于2016年提出了以“消费者的生命周期”来做销售。充分体现了现在商业社会对品牌的转变逐步增加到了以消费者为中心的转变。在工业时代,我们无法获知消费者的翔实数据,但是在大数据时代下数据的原始积累和获取变得容易,借助于智能手机和穿戴设备等科技的发展,数据变得越来越翔实,因此让商家更容易全方位了解消费者,能够针对消费者做到千人千面。从而增加产品的依赖性和忠诚度。所以未来企业的竞争力逐步转变为:谁能提供专业化的产品和服务,谁能全面了解和分析信息,谁就会站在商业的浪潮上。
3.4商业理念从以商品为主向服务转型
大数据时代,消费者的知识水平越来越高,消费者会从已有的大量数据中全面了解商品的功能、价值等,如果仅仅是在商场或互联网简单的介绍商品品牌、包装及使用方法已经远远不能满足消费者的需求了。消费者依据大量的数据,对产品的了解程度甚至比营业员还要充分,因此企业不仅要非常精准地把商品构架、各种性能指标等解剖出来外,还必须向消费者提供大量的解决方案,即大数据时代企业卖出的不仅仅是简单的商品,而是方案的系统集成和商品的服务。所以转型势在必行,从以商品为主转向以服务为主,增加顾客对商品的忠诚度和依赖度,迎接新一轮的商业变革。
4结论
2016年是大数据的发展年,据保守估计,未来大数据的市场规模至少达到万亿元以上。在这股大数据时代背景下,消费者行为的变迁也越来越趋于不确定,移动互联网更是加速了这种不确定因素,电商和传统企业变得越来越离不开数据,数据即将成为未来企业的核心竞争力,企业要不断完善自己的企业治理结构,抓住市场潮流的变化,让不确定的消费者变得确定,这样才能有针对性地做到千人千面,提供个性化的商品和服务,在未来竞争格局中占据一席之地。
参考文献:
[1]Allison Cerra,Kevin Easterwood,Jerry Power商业模式重构:大数据、移动化和全球化[M].北京:人民邮电出版社,201.4:29-43
大数据网络营销范文5
关键字:Web日志;Hadoop;Sqoop;Hive;数据迁移
中图分类号:TP391 文献标识码:A
User Behavior Mining Based on Hadoop platform
Zeng Zhihao,Yao Bei, Zhang Qionglin,Sun Qi
(School of Computer and Communication, Hunan University of Technology, HuNan Zhuzhou 412000, China)
Abstract: As rapid development of Internet brings the data explosion,make web log data is becoming bigger and bigger, How from huge amounts of Web log mining valuable information become the focus of the present study.This paper presents based on the Hadoop cluster framework for Web log mining.Experimental results show that, this cluster system can processing massive web log data ,Also it’s can be mining valuable information. And confirmed the feasibility the data migration between Hive warehouse and traditional database by use sqoop.
Key words : Web log ; Hadoop ; Sqoop ; Hive ; Data migration
1 引言
互联网的快速发展,使得Web日志数据呈现出爆炸式的增长,这些海量的Web数据中蕴含了大量的信息,这些信息对企业而言是一笔巨额的财富,企业的发展需要这些数据提供更好的战略决策支持,因此对这些数据具有极大地挖掘需求;这使得从海量的Web数据中挖掘有用的信息成为了目前研究的热点,同时大规模的计算能力成为Web数据挖掘技术能否有效实现的外部需求[1]。
针对海量数据处理出现的技术问题,以Hadoop[2]为代表的新技术得到了国内外科技工作者的极大关注;Hadoop平台的最大优势是它实现了“计算靠近存储”的思想[3],此思想省去了海量数据网络传输的这一大开销,大大减少了数据处理时间,同时其并行化的数据处理方式非常适用于处理海量数据。
针对Hadoop分布式处理海量数据的优势,国内外一些学者纷纷对Hadoop平台进行了相关研究,文献[4]基于Hadoop平台,实现了对Web数据的并行化处理,提高了数据运行处理时间;文献[5]通过基于Hadoop平台,设计了一个用于处理海量搜索日志的分析平台;文献[1, 6]基于Hadoop平台进行了Web日志挖掘实验,并证实了Hadoop平台的可用性。
本文基于Hadoop平台首先对Web日志进行了数据清洗,根据数据挖掘的具体需要,过滤冗余、异常或者与挖掘目的无关的信息,然后通过HIVE数据仓库分析用户行为的关键指标,对Web日志数据进行用户行为挖掘,利用MySQL进行挖掘结果展示,同时利用了sqoop[7]组件在关系型数据库与非关系型数据库进行了数据迁移。
2 相关技术介绍
Hadoop是Apache软件基金会旗下的一个分布式计算平台。以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce[8](Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构[2]。
对于Hadoop的文件系统HDFS具有高容错性的特点,它可以设计部署在低廉的硬件上,同时它可以通过提供高吞吐率来访问应用程序的数据。
MapReduce是一种编程模型,用于大规模数据集的并行运算,它主要以对数据进行映射(Map)、化简(Reduce)来实现计算,即MapReduce在执行时先指定一个Map(映射)函数,把输入键值对映射成一组新的键值对,经过一定处理后交给Reduce,Reduce对相同Key下的所有value进行处理后再输出键值对作为最终的结果。
Hive[9]是一个基于Hadoop文件系统之上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力;同时Hive定义了类SQL的语言―Hive QL。
HBase是一种NoSQL存储数据库,它可以用来快速随机读写大规模数据,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价机器上搭建起大规模结构化存储集群[10]。HBase利用HDFS作为其文件存储系统,利用MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。
Zookeeper是Google的Chubby一个开源的实现,是一个为分布式应用所设计的开源协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务、配置维护和命名服务等;用户可以使用Zookeeper提供的接口方便地实现一致性、组管理、leader选举及某些协议,同时Zookeeper不仅可以为单机提供服务,同时也支持多机组成集群来提供服务。
Sqoop[7]是“SQL to Hadoop”的缩写,是一款用于在Hadoop系统和结构化数据存储系统间进行数据交换的软件,它可以用于将传统数据库(如MySQL、Oracle)中的数据导入HDFS由MapReduce程序或Hive工具使用,并支持将处理后的结果数据导出到传统关系型数据库中[11]。
3用户行为挖掘的关键指标介绍
浏览量PV:页面浏览量即为PV(Page View),是指所有用户在该网站浏览页面的总和,一个独立用户每打开一个页面就被记录1次;对于网站总浏览量,其可以作为考核用户对于网站的兴趣。同时对于网站运营者来说,更重要的是网站每个栏目下的浏览量。
注册用户数:每一天网站新注册的用户人数;运营者通过对注册用户数分析可以查看出网站推广状况。
IP数:一天之内,访问网站的不同的独立IP 个数总和;其中同一IP无论访问了几个页面,独立IP 数均为1。
跳出率:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总;跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度,即跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户;该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉的人数。
4用户行为挖掘的平台设计
日志采集模块:负责将各个前端web服务器中的日志传送到日志接收节点上。这里可以采用每天定时的将各个服务器中的日志传送到接收节点。对于日志服务器数据较小时,接收节点可以通过shell命令直接将日志数据上传到HDFS中;如果日志服务器非常多,数据量大时,可使用flume进行数据处理。
日志清洗模块:通过Hadoop的编程框架MapReduce对上传到HDFS的原始数据进行清洗;具体工作可分为两个阶段:Map阶段和Reduce阶段。这两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个<key,value>形式的输入,然后产生同样为<key,value>形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合到一起传递给Reduce函数,Reduce函数接收一个如<key,(list of values)>形式的输入,然后对这个value集合进行处理并输出结果,Reduce的输出也是<key,value>形式的。
分别将三个<key,value>对标记为<k1,v1>、<k2,v2>、<k3,v3>,以上数据处理流程可用图1表示:
图1 MapReduce程序数据变化的基本模型
查询分析模块:将清洗后的数据导入到Hive中,使用Hive对清洗后的数据进行多维分析;并且将Hive返回的查询结果以某种形式表现出来,供用户查看。用户可在浏览器客户端上输入或选择需要查询的内容。
结果显示模块:使用Sqoop将Hive中产生的分析结果导出到MySQL数据库中;如果用户需要查看详细数据,可以使用HBase数据库进行展示。
图2所示的是整个系统的架构图。
图2 系统架构图
5实验结果分析
为了测试系统,我们在测试平台上做了实验,分别利用几组大小不同的数据分别在单机情况下和在集群情况下进行了数据清洗时间消耗测试。
1 实验环境。本测试平台实验环境中,单机配置为:处理器类型,Intel(R) Core(TM)2 Duo CPU E7500 @2.93GHz,内存容量为2GB。集群配置是由三台与单机配置相同的服务器组成,其中,一台服务器是主节点,另外两台服务器是从节点;同时使用了Zookeeper组件对集群进行了协调服务管理。在集群中所有的服务器都运行在CentOS-6.4操作系统上,同时每台服务器均安装了hadoop-1.1.2和jdk-6u24-linux-i586和zookeeper-3.4.5,在三台服务器中,主节点安装了Hive-0.9.0、MySQL数据库和Sqoop-1.4.3.bin_hadoop-1.0.0。本实验通过配置Eclipse的Hadoop应用开发环境进行程序开发的。
2 实验数据及内容。本实验的数据来自于某论坛服务器上的日志数据。实验通过对论坛日志数据处理分析,来计算论坛关键指标,即浏览量、注册用户数、IP数、跳出率,最后通过对关键指标分析,进行用户行为挖掘,将挖掘结果提供给运营者运营决策。
实验一 通过五组不同数据量大小的日志作为输入,并统计出每组分别在Hadoop集群和传统的基于单机模式下的数据清洗所消耗的时间,其结果如图3所示。
图3 单机与集群对比
实验二 分别在集群计算节点为1、2、3时对同一个Web日志进行数据清洗处理,并分别统计数据清洗所消耗的时间;其结果如图4所示。
图4 节点个数不同对执行时间的影响
3 实验结果分析。通过实验一结果分析,我们可以知道,如果数据量小于40M时,Hadoop集群无法发挥其分布式处理海量数据的优势,甚至其所消耗的时间大于单机处理所消耗的时间。但是,当要处理的日志数据达到50M以上时,Hadoop集群的并行化处理优势会随着数据量的增加而显示出来。通过实验二结果分析可知,对于同一数据量,随着集群中计算节点的数量增加,数据清洗所消耗的时间明显减少。
6结论
针对目前单机环境下无法处理海量Web数据的问题,本文提出了基于Hadoop平台的集群环境下处理海量Web数据的问题,利用Hadoop集群的并行化处理海量数据的优势,解决了单机模式下数据处理效率低下且无法解决海量数据的问题。本文通过利用Hadoop集群环境,对Web日志数据进行了相关数据清洗,得到运营者需求的关键指标;同时利用sqoop组件在Hive数据仓库和Mysql数据库中进行数据迁移,大幅度提高了数据迁移效率,同时对处理关系型数据库中的数据向非关系型数据库中的数据迁移提供了一定参考价值。
参考文献
[1] 李彬,刘莉莉.基于 MapReduce 的 Web 日志挖掘[J].计算机工程与应用,2012,48(22): 95-98.
[2] 陆嘉恒. Hadoop 实战[M].北京:机械工业出版社,2012:2-7.
[3] 朱湘,金松昌,贾焰. 一种基于 Hadoop 平台的海量 Web 数据挖掘系统研究与实现[C]//张新生.中国通信学会--第九届中国通信学会学术年会论文集. 北京:北京邮电大学出版社,2012:72-76.
[4] 顾涛. 基于 Hadoop的Web信息提取和垃圾信息过滤研究与实现[D]. 成都:电子科技大学,2012.
[5] 赵龙. 基于hadoop的海量搜索日志分析平台的设计和实现[D]. 大连:大连理工大学,2013.
[6] 程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39.
[7] Ting K, Cecho J J. Apache Sqoop Cookbook[M]. " O'Reilly Media, Inc.", 2013.
[8] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM ,2008, 51(1): 107-113.
[9] Thusoo A, Sarma J S, Jain N, et al. Hive: a warehousing solution over a map-reduce framework[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1626-1629.