前言:中文期刊网精心挑选了好的日志文章范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
好的日志文章范文1
关键词:日志规整;实时采集;日志分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)28-6433-04
1 背景
当前营业员和用户在业务支撑系统(简称:BOSS系统)办理业务出现问题和故障的时候,通常由用户打10086投诉或者营业员报障给后台维护人员进行故障分析和处理。这个处理流程很耗时间,影响问题的解决效率。
在BOSS系统的各个渠道查询或受理业务的过程中,都有可能会因网络、数据库、应用系统等各方面原因抛出异常错误信息,这类错误信息记录在BOSS系统各主机的日志文件中,由于BOSS系统每天产生大量的日志文件,从日志文件中定位查找错误信息需要花费大量的时间,对维护人员处理问题和故障带来不便,影响问题的及时发现和处理实效性。
2 研究思路
考虑从主机的日志文件中及时地收集到这种系统异常错误信息,并自动入库进行分析,维护人员就能及时的了解BOSS系统当前的运行情况,发现系统问题,查询错误信息,能够在营业员或客户投诉之前就可以去核查解决,提升问题处理的及时性和效率,保障系统健康稳定的运行,从而提高系统业务支撑水平,提升营业员和客户的内外部满意度。
3 实现方案
建立BOSS系统日志分析管理平台,对BOSS系统主机产生的各种日志进行日志异常分析和日志管理,针对主机系统产生的大量日志文件进行处理:日志采集,日志管理,日志分析,日志综合告警执行以及执行前流程审批权限设立、分析结果处理执行中的流程跟踪、分析结果处理执行后的日志留痕。通过日志分析管理平台,维护人员能够方便的查看日志的分析结果、以及日志异常产生的次数和时间段,如系统错误产生的次数、产生的时间段、业务执行人员信息记录、业务执行影响等信息,从另一个角度去分析主机的稳定情况以及运行效率,以往一些不容易察觉的异常信息,通过对日志分析规则的配置和数据采集,也会在系统中体现出来,从而提高系统维护管理的水平。
3.1 日志分析平台系统架构
系统架构说明:
1)采集客户端:运行在生产主机上的采集客户端程序,负责收集相关日志,预处理并通过socket方式发送给采集服务端。
2)采集服务:采集服务端对消息进行缓存,由消息处理器进行异步处理,生成消息首先放入内存,同时发给实时告警,当内存中的记录数达到配置的阀值时写入文件数据库。
3)告警处理:实时告警收到消息后根据告警规则配置进行处理,并将结果入库。
4)查询服务:查询服务接收web端和统计进程的查询请求,从文件数据库和采集服务端的内存中查询符合条件的记录返回给调用端。
3.2 日志分析平台系统功能
系统功能说明:
1)日志监控采集:从各渠道的业务主机上实时读取新生成日志信息。由于BOSS系统各台主机上每天生成的日志信息量很庞大(达到830G),因此部署的客户端程序要能够实时采集日志,并且对主机性能不会造成大的影响。设计上采用客户端部署日志爬虫程序,实时采集日志并传送给服务端,采集传送时间
2)日志规整处理:对采集完成的的日志文本信息,按照既定格式统一进行规整处理,便于后续的存放和分析。
3)消息缓冲处理:将规整好的日志信息,送入待发往消息中心的缓冲区中。
4)消息发送处理:将缓冲区中存在的日志信息,取出发往消息中心;对发送出错的消息,记录关联信息到错误重发文件中。
5)错误重发处理:根据错误记录文件检索需要重新发送的日志信息,将消息再次发送。
6)日志分析处理:对日志进行分析,从有利于维护人员定位分析问题的角度出发,全方位提取错误的信息并进行归类分析,如业务调用路径分析、业务调用关系分析、调用函数分析、异常效率分析等,对分析出来的信息在WEB界面进行关联展现,便于对信息全方位的查看和分析。
7)统计告警查询:根据错误信息进行归类,达到一定阀值的进行告警(阀值可以进行手工调整),对告警的详细信息在WEB界面进行统一展现,并对错误信息进行统计,对外提供查询。
3.3 系统处理流程
从总体流程来看,整个日志处理过程分为三大部分:
1)采集流程:通过采集配置-日志采集引擎根据配置信息从指定主机日志文件中采集关键信息-持久化采集信息-数据入库。
日志采集要求对多个大容量的日志文件进行实时的采集,采集的方式主要以全量采集和增量采集为主,可开启多个采集进程进行同时采集,采集引擎根据配置信息里的采集关键词,以及需要采集的日志文件名称,在对应的主机日志文件中查找存在关键词的行。
2)告警流程:当采集的信息数量达到事先设定的阀值时,会产生告警信息(包括发送短信到维护人员手机和页面告警两种方式)。
3)分析流程:业务日志分析查询-日志分析程序分析采集信息-得出分析结果-返回查询操作-用户查看分析结果视图。
以上日志采集、告警和日志分析组成了整套日志采集分析流程。在采集时只需要添加采集配置信息以及采集关键词,后台采集程序即会自动根据配置信息,到相应的主机日志文件中采集,无需人工干预。当采集的信息数量达到事先设定的阀值时,会进行告警(见图4),同时将采集信息入库。采集信息入库后,要查询日志关键信息,只需要登录日志分析管理平台进行查询(见图5),查询方式可以按天,按日志文件名,产生日志的日期等。平台会自动根据日志采集信息生成统计图型,方便维护人员对一段时间内的采集信息进行评估,并提供日志信息导出功能。
4 应用效果
BOSS系统日志分析管理平台2011年12月上线后,通过部署在CRM系统一台中间件主机上的日志采集客户端程序对日志文件进行统一采集,发送到日志分析服务器上进行统一管理和展现,取得较好的应用效果:
1)采集处理对中间件主机的CPU使用率的影响很小(
2)提升工作效率:维护人员通过日志分析平台的前台界面查看日志信息,节省了维护人员频繁登录各台主机搜索日志的大部分繁琐的工作。平台上线前,维护人员面对庞大的日志记录,定位目标信息至少需要15分钟;平台上线后,维护人员在系统上选择对应主机IP和关键词信息即可查看日志信息,1-2分钟内即可定位,日志信息定位效率提升10倍以上。
3)加强系统监控:平台上线前维护人员需要手工登录各个系统,并查看刷新的日志记录是否存在异常,大量异常信息无法实时捕捉到,无法进行系统的实时监控;平台上线后,日志采集程序在各个主机平台实时采集分析日志信息,实时定位异常信息点,并告警通知相关维护人员,保证了各系统7*24小时的实时监控,提升了系统的稳定性。
4)缩短故障处理时间:平台上线前,故障处理人员需要登录对应主机,查看系统日志进行故障分析,过程需要20分钟甚至更久;平台上线后,故障处理人员只需登录平台系统在监控和告警管理界面能查看故障信息,就能进行故障定位,只需要5分钟甚至更少时间,故障定位处理时间缩短15分钟以上。
5 小结和展望
日志分析管理平台对BOSS系统的日志信息实现了统一配置采集,统一日志信息展现,去除人工搜索日志信息带来的时间浪费,维护人员不用再登陆到各个主机上搜索日志,只需登陆到日志平台查询各种日志信息,减少重复的人工操作和对主机资源的浪费;平台对采集到的日志进行错误信息实时告警,方便了维护人员对故障问题的发现、定位和解决,提高问题解决的实效性,对提升前台和客户满意度起到较好的效果。
2012年6月,日志采集客户端部署在CRM三台中间件主机上运行。后续将根据实际使用情况部署到其他主机上运行。
参考文献:
[1] 《广西移动BOSS应用服务评估分析项目技术建议书》神州数码思特奇信息技术股份有限公司[Z].2011.
好的日志文章范文2
关键词:网络安全审计;日志;日志格式
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)14-20803-02
1 引言
防火墙、入侵检测系统和安全审计系统等安全产品为内部网络提供了良好的保护作用。安全审计系统提供了一种通过收集各种网络信息从而发现有用信息的机制,将这种机制应用于局域网内部,从多种网络安全产品中收集日志和警报信息并分析,从而实现效能的融合,与防火墙、入侵检测系统等安全产品形成合力,为局域网的安全提供强有力的保障。
如何高效的从各种网络设备所生成的海量的日志数据信息中提取有用信息,通过格式的统一整合后为安全审计系统提供统一接口,这是安全审计系统一项十分关键的工作,也是影响整个系统性能的一个重要因素,本文就此进行探讨。
2 安全审计系统的功能需求
安全监控与审计技术通过实时监控网络活动,分析用户和系统的行为、审计系统配置和漏洞、评估敏感系统和数据的完整性、识别攻击行为、对异常行为进行统计、跟踪识别违反安全法则的行为等功能,使系统管理员可以有效地监控、评估自己的系统和网络。监控审计技术是对防火墙和入侵检测系统的有效补充,弥补了传统防火墙对网络传输内容粗粒度(传输层以下)的控制不足,同时作为一种重要的网络安全防范手段,对检测手段单一的入侵检测系统也是有益的补充,能及时对网络进行监控,规范网络的使用[1]。
目前,安全审计系统是网络安全领域的一个研究热点,许多研究者都提出了不同的系统模型,这包括对内容进行审计的安全审计系统、对用户行为进行审计的安全审计系统以及对各种安全设备生成的日志进行审计的安全审计系统等等。
基于日志的网络安全审计系统是一个日志接收与日志分析的审计系统,该系统能够接收、分析审计局域网内的防火墙、入侵检测系统等网络安全产品生成的日志,审计局域网内的网络信息安全。基于日志的网络安全审计系统的功能需求如下:
(1) 集中管理:审计系统通过提供一个统一的集中管理平台,实现对日志、安全审计中心、日志数据库的集中管理,包括对日包更新、备份和删除等操作。
(2) 能采集各种操作系统的日志,防火墙系统日志,入侵检测系统日志,网络交换及路由设备的日志,各种服务和应用系统日志,并且具备处理多日志来源、多种不同格式日志的能力。
(3) 审计系统不仅要能对不同来源的日志进行识别、归类和存储,还应能自动将其收集到的各种日志转换为统一的日志格式,以供系统调用。并且能以多种方式查询网络中的日志记录信息,以报表的形式显示。
(4) 能及时发现网络存在的安全问题并通知管理员采取相应措施。系统必须从海量的数据信息中找出可疑或危险的日志信息,并及时以响铃、E-mail或其他方式报警,通知管理员采取应对措施及修复漏洞。
(5) 审计系统的存在应尽可能少的占用网络资源,不对网络造成任何不良的影响。
(6) 具备一定的隐蔽性和自我保护能力。具有隐蔽性是说系统的存在应该合理“隐藏”起来,做到对于入侵者来说是透明而不易察觉系统的存在。
(7) 保证安全审计系统使用的各种数据源的安全性和有效性。若采用未经加密的明文进行数据传输,很容易被截获、篡改和伪造,工作站与服务器之间的通讯应进行加密传输,可采用SSL、AES、3DES等加密方式。
(8) 具有友好的操作界面。
3 安全审计系统的模型概述
如图1所示,基于日志的安全审计系统主要包含如下模块:
(1) :负责收集各种日志数据,包括各种操作系统的日志,防火墙系统日志、入侵检测系统日志、网络交换及路由设备的日志、各种服务和应用系统日志等。定时或实时发送到审计中心。其间,日志数据的传送采用加密方式进行发送,防止数据被截获、篡改和伪造。
(2) 数据预处理模块:将采集到的日志数据经过解密后按照数据来源存入相应的数据库中。
(3) 系统管理模块:负责对日志、安全审计中心、日志数据库的集中管理,包括对日志数据的更新、备份和删除等操作。
(4) 数据处理模块:负责自动将收集到的各种日志转换为统一的日志格式,并且从海量的数据中通过模式匹配,发现并找出可疑或危险的日志信息,交由“日志报警处理模块”进行处理。
(5) 日志报警处理模块:处理已发现的问题,以响铃、E-mail或其他方式报警通知管理员采取应对措施。
(6) 数据库模块:负责接收、保存各种日志数据,包括策略库也存放其中。
(7) 接口模块:供用户访问、查询。
4 安全审计系统中有用数据整合的方法
4.1 安全审计系统的数据源
安全审计系统可以利用的日志大致分为以下四类[2]:
4.1.1 操作系统日志
a) Windows系统日志。Windows NT/2K/XP的系统日志文件有应用程序日志、安全日志和系统日志等,日志默认位置在%systemroot%\system32\config目录下。Windows是使用一种特殊的格式存放它的日志文件,这种格式的文件通常只可以通过事件查看器EVENT VIEWER读取。
b) Linux/Unix系统日志。在Linux/Unix系统中,有三个主要的日志子系统:连接时间日志、进程统计日志和错误日志。错误日志――由syslogd(8)执行。各种系统守护进程、用户程序和内核通过syslog向文件/var/log/messages报告值得注意的事件。
4.1.2 安全设备日志
安全设备日志主要是指防火墙,入侵检测系统等网络安全设备产生的日志。这部分日志格式没有统一标准。目前,国内多数防火墙支持WELF(Web Trends Enhanced Log Format)的日志格式,而多数入侵检测系统的日志兼容Snort产生日志格式。
4.1.3 网络设备日志
网络设备日志是指网络中交换机、路由器等网络设备产生的日志,这些设备日志通常遵循RFC3164(TheBSD syslog Protocol)规定的日志格式,可以通过syslogd实现方便的转发和处理。一个典型的syslog记录包括生成该记录的进程名字、文本信息、设备和优先级范围等。
4.1.4 应用系统日志
应用系统日志包含由各种应用程序记录的事件。应用系统的程序开发员决定记录哪一个事件。Web应用程序日志往往是系统管理员最关心的应用系统日志之一。
a) Apache日志。Apache日志记录Apache服务器处理的所有请求和出错信息,它支持两种格式的日志:普通记录格式(Common Log Format),组合记录格式(Combined Log Format)。
b) IIS日志。IIS日志文件记录了所有访问IIS服务程序的信息,IIS日志文件一般位于如下路径:%systemroot%\system32\LogFiles。IIS支持“W3C扩充日志文件格式”、“NCSA通用日志格式”和“ODBC数据库日志格式”。
好的日志文章范文3
关键词: Web日志; 序列模式挖掘; GSP算法
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)30-0217-02
随着网络服务的迅速发展,互联网上已有庞大数量的网站,且还在不断的建设,通过对网站服务器的操作和访问进行专业而详细的分析,可以了解网站的运行情况并能进一步发现网站所存在的缺陷,为促使网站更好的运营与发展提供可靠的技术支持与决策依据。为了能够促使网站更好的运营与提供针对性与个性化的服务,必须要了解电子商务网站以及其所展示的各产品模块的具体访问情况,而这些信息只能通过获取对Web服务器上网站的相关运行日志文件,并对其包含的数据信息进行统计与分析得到。
互联网用户具有多样性的特点,全球大概有10亿多个网站,网民数量接近30亿,他们来自不同的民族,具有不同层次的经济收入水平,具备不同的教育背景与不同的个人兴趣,他们访问的目的也均不同,但他们在浏览Web页面过程中均留下了访问信息。特别是像淘宝、京东等大型的电子商务网站,它们每天都有数亿的在线交易额,而这些交易以及用户的浏览(指没有交易的用户)都产生可谓海量的Web访问日志数据。Web日志挖掘是Web大数据应用领域或者电子商务商业智能应用中的一个最为重要的内容。
本文以某电子商务网站的Web访问日志为研究对象,利用SQL Server提供的SSIS服务和T-SQL语句进行数据预处理,得到序列数据库,然后用java语言编程实现GSP(Generalized Sequential Patterns)算法对其进行序列模式的挖掘测试分析,通过对结果的分析可以为改善该网站的布局以及产品展示方式的调整提供参考。
1 基于Web日志的序列挖掘
Web日志序列挖掘一般分三个步骤,即数据预处理、挖掘算法处理以及模式分析。
数据预处理主要是对Web日志进行序列挖掘之前的对原始日志文件进行数据转换、清洗等一系列的操作,最终形成可供序列模式挖掘算法所使用的规范化数据。其具体工作主要包含数据净化、会话识别、用户识别以及路径补充等过程。数据净化工作主要是对挖掘中不需要的相关数据进行删除操作;会话识别主要是对每个用户在某一段时间内的所有请求页面进行分解从而得到用户会话;用户识别是将用户和请求的页面进行相关联的过程,其中主要是处理多个用户通过防火墙或服务器访问站点的情况。在用户识别的过程中,不仅需要服务器日志,还需要知道站点的拓扑结构;路径补充过程就是将本地或服务器缓存所造成的遗留请求也补充完整。执行上面的操作后,就得到了序列模式挖掘算法所需要的输入信息(用户会话文件),该文件中包含访问Web站点的用户,用户请求的页面及请求发生的顺序,每一页浏览的时间等信息[1]。
挖掘算法处理主要是指在基于数据预处理的基础上,通过实现某种序列算法得到挖掘结果,这些结果主要包括如每页的访问数,最频繁的访问的页面,每页的平均浏览时间等。序列模式算法主要有两类:一类是类Apriori算法,以GSP算法为代表,这种算法基于一个事实:一个序列是频繁的,它的所有子序列必然是频繁的;另一种挖掘序列模式的思想是基于数据库投影的序列模式生长技术的应用,如PrefixSpan算法。
模式分析是依据挖掘算法所得到的模式集合,再结合实际所感兴趣的模式进行筛选和分析,然后采用可视化技术对这些模式作为挖掘的最终结果进行直观和个性化的展示。
2 基于GSP算法的实现流程
序列模式挖掘一般分为五个步骤,这些步骤分别为排序阶段、大项集阶段、转换阶段、序列阶段以及选最长序列阶段。
GSP算法的主要流程如图1所示:
1)序列数据库进行扫描,得到长度为1的序列模式L1,作为初始的种子集。
2)根据长度为i的种子集Li通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列的支持数,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。
3)重复第二步,直到没有新的序列模式或候选序列模式产生为止。
3 网站日志挖掘实例分析
本文采用ECML_PKDD 2005会议提供的公共点击流数据,它收集了380多万条电子商务网站的服务器日志记录,每个日志文件包含的是一个小时所收集的记录,每个文件包含的信息有时间、IP、会话标识、请求页面和引用页面等相关信息。日志记录形式如下:
16;1074661208;212.209.160.2;09b611d2583514c458f 8946841f880a5;/ls/?id=139;http://shop6.cz/
其主要结构如表1所示。
本文通过取该站点上的一个服务器日志文件,共计353K字节,2978条记录,为了减少算法的计算量以及提高数据挖掘结果的准确性,利用T-SQ语句和SQL Server的SSIS服务功能将原始数据文件进行数据转换净化、访问的处理、用户识别、会话识别、链接规范化、排序等数据预处理,然后得到序列数据库,总共是179条记录,107个序列。
通过java编写的GSP算法对该电子商务网站的访问日志进行数据挖掘测试,根据GSP算法,我们将最小支持度设为8,得到了该电子商务网站的频繁访问序列总共计9条,其序列模式挖掘的结果如图2所示:
从运行的结果我们可以很容易看出,用户对该网站的这9种产品相对比较感兴趣,其中最感兴趣的是该网站的Digital cameras产品。
4 结束语
本文利用SQL Server对某电子商务网站的日志进行了数据预处理并产生序列数据库,并通过java编程实现GSP序列模式挖掘算法对其进行测试分析,通过对结果分析可以做出对该网站布局和内容(或产品)调整提供参考,使其更好为其用户提供针对性的服务。
参考文献:
[1]朱鹤祥.Web日志挖掘中数据预处理算法的研究[D].大连:大连交通大学,2009.
[2]汪莉栋. Web日志挖掘中数据预处理算法的研究及实现[D].贵阳:贵州大学,2008.
[3]赵畅,杨冬青,唐世渭.Web日志序列模式挖掘[J]. 计算机应用,2000,20(9):15-18.
[4]李林,崔志明.用户Web日志序列模式挖掘研究[J]. 微机发展,2005,15(5): 119-121.
[5]朱琳玲,胡学钢,穆斌.基于Web的数据挖掘研究综述[J].电脑与信息技术,2002,20(6):45-48.
[6]王Z. Web使用记录挖掘技术综述[J].四川经济管理学院学报,2008,20(1):49-50.
[7]王新,马万青,潘文林.基于Web日志的用户访问模式挖掘[J].计算机工程与应用,2006,21(9):156-158.
[8]刘沛骞,郭海儒,袁玲玲.Web日志挖掘中的用户访问模式识别[J].雁北师范学院学报,2006(2).
好的日志文章范文4
关键词:消息中间件(MQ);队列;队列管理器;通道;错误日志
中图分类号:P409 文献标识码:A 文章编号:1007-9599 (2012) 17-0000-02
1 WebSphere MQ的概述
消息中间件(MQ)是一种独立的系统软件或服务程序,分布式应用系统借助这种软件在不同的技术之间共享资源,管理计算资源和网络通讯。它在计算机系统中是一个关键软件,它能实现应用的互连和互操作,能保证系统安全、可靠、高效的运行。消息中间件位于用户应用和操作系统及网络软件之间,它为应用提供了公用的通信手段,并且独立于网络和操作系统。
消息中间件(MQ)适用于任何需要进行网络通信的系统,是基于消息队列的存储转发机制,负责建立网络通信的通道,进行数据或文件发送。 MQ在不同平台及不同语言编写的系统之间传递消息,只需简单的调用几个MQ的API(应用程序接口),就可以实现互相通讯,并不需要考虑底层系统和网络的复杂性。MQ作为IBM的一个拳头产品,虽然功能看上去简单,就是个消息队列,但它却是IBM中间件的核心。MQ不仅有很高的性能,而且对各种平台的支持极优,几乎你能想到的硬件和操作系统平台以及编程语言,MQ都有专门的API支持。依靠这些优势,MQ 在消息类中间件市场上占领了统治地位,已经成为事实上的行业标准,在各类应用中承担了可靠的信息数据传输的基础支撑。
2 WebSphere MQ的工作原理
MQ的工作原理如图1所示:
2.1 本地通讯:应用程序A和应用程序B运行于同一系统A,它们之间可以借助消息队列技术进行彼此的通讯:应用程序A向队列1发送一条信息,而当应用程序B需要时就可以得到该信息。
2.2 远程通讯:如果信息传输的目标改为在系统B上的应用程序C,这种变化不会对应用程序A产生影响,应用程序A向队列2发送一条信息,系统A的MQ 发现队列2所指向的目的队列实际上位于系统B,它将信息放到本地的一个特殊队列-传输队列(Transmission Queue)。我们建立一条从系统A到系统B的消息通道,消息通道将从传输队列中读取消息,并传递这条信息到系统B,然后等待确认。只有MQ接到系统 B成功收到信息的确认之后,它才从传输队列中真正将该信息删除。如果通讯线路不通,或系统B不在运行,信息会留在传输队列中,直到被成功地传送到目的地。 这是MQ最基本而最重要的技术--确保信息传输,并且是一次且仅一次(once-and-only-once)的传递。
3 MQ在民航气象数据库中的应用
3.1 MQ在民航气象数据库系统中的总体架构
如图2所示气象数据库系统是一套分级式的数据交换网络,通过ATM高速交换网实现了气象数据共享。以北京为主中心、地区中心为分中心构成了核心的数据交换网络。在进行数据交换时MQ起到了桥梁的作用,各航站只能与所属地区中心进行数据交换,各地区分中心与北京主中心进行进一步的数据交换。
3.2 MQ在航站级民航气象数据库系统中的架构
下面以本航站(ZYTL)为例,对MQ在民航气象数据库系统中的应用进行介绍。
(1)以图3的数据流程来对民航气象数据库系统中航站与中心之间MQ的通讯原则进行说明:
①每个分中心所管理的航站通信分系统通过网络方式将本航站生成的数据资料(包括报文和产品)传送到分中心的交换服务器通信系统,交换服务器通信系统将这些数据(除了请求报)全部上传到二期主业务通信分系统;②每个分中心二期主业务通信分系统将收到的所有数据分别传送到本分中心的所有数据库系统(包括交换服务器上的数据库系统);③每个分中心二期主业务通信分系统收到数据后,根据用户的指定,将需要分发的数据发送到交换服务器通信系统;④交换服务器通信系统收到二期主业务通信系统发来的数据,根据用户事先的指定进行分发;⑤交换服务器通信系统收到请求报,将检索交换服务器上的数据库系统进行应答。
(2)由图3可知MQ在航站与中心通讯过程中数据流有三个单向、二个双向。
单向: 预报平台 双向:(即发又收) 航站通信服务器
航站通信服务器 DB00 中心交换服务器
DB01 中心二期主业务
4 MQ常见故障分析与处理
任何一种软件都会存在一定的系统管理工作,MQ当然也不例外,下面我就对日常维护工作中常见的故障进行分析阐述。其实MQ为我们提供了丰富的故障分析手段,MQ错误日志即是一种简单易行、快速有效的手段,另外MQ还提供了其它方式方法,如:MQ的系统管理命令、MQ的TRACE、FFST等途径,都是用来对错误信息进行追踪和记录,从而帮助解决问题。
4.1 错误日志分析
当MQ运行过程中出现问题时,第一个应该采取的行动便是查看MQ的错误日志。MQ在各种层次上,为用户提供了丰富的日志文件,这些日志文件包含了所有被启动的队列管理器、有关对MQ的队列管理器操作、以及被启动的通道的相关信息,当队列管理器和通道等运行时,有关信息包括出现异常情况时的信息都将在日志文件中有所体现。
日志文件:当系统建立了队列管理器以后,该队列管理器所需的日志文件随之即在/var/mqm/qmgr/QmgrName/errors子目录下会产生三个日志文件:
AMQERR01.LOG、AMQERR02.LOG、AMQERR03.LOG。它们是以循环方式存储错误消息,因此,最新的错误信息总是存储在AMQERR01.LOG中,历史信息存储AMQERR02.LOG 和 AMQERR03.LOG中。我们应该按照该顺序查看错误信息,并从该文件中获取信息,根据它的提示采取相应的措施。
4.2 常见故障分析
如果查看错误日志经初步分析无法解决问题,则必须更近一步的查找原因,应对如下问题进行深入分析。
MQSeries的通道是MQ的重要组成部分,是MQ的难点和精华,它运行正常与否对MQ系统的正常运行起着致关重要的作用,并且在MQ的网络环境中,相当数量的异常问题与通道有关,因此,相比而言,对MQ通道的维护工作是MQ系统管理员系统管理工作的重点。
通道状态异常时应采取的措施:
(1)查看网络连接是否畅通MQ的通讯是建立在系统网络运行正常的基础之上的,当通道不通时,要首先检查网络连接是否正常。可以使用操作系统ping命令,也可以采用ftp方式,在两个主机之间尝试进行数据传输,以判断网络是否正常。(2)查看通道定义是否正确。通道所使用的传输队列定义是否正确,通道两端的定义是否匹配,如两条通道最大传输的消息长度,Message sequence number wrap是否一致。若不一致,要重新定义通道,可使用脚本命令DEFINE CHANNEL。(3)查看通道的状态。用以下命令来判断通道状态:dis chstatus(ChannelName)或dis chs(ChannelName) 其中,ChannelName代表通道的名称。(4)查看通道的当前消息序列号。用dis chstatus(ChannelName)或dis chs(ChannelName)查看通道的当前一些属性值,在通道的属性值中,current sequence number代表通道当前的消息序列号值,若消息序列号不一致,则可用MQSC命令RESET CHANNEL命令来将消息序列号重新置1。
5 结束语
过通实践验证在民航气象数据库系统中引用MQ技术,极大优化了系统的架构。系统在数据交换过程中选择基于队列等候的MQ 通信方式极大增强了信息的实时性,信息通过队列可以瞬时完成检索和发送;同时安全可靠性方面也很到了极大的保障,MQ 通讯不存在忽略或丢失信息的危险,只有证实信息已经从队列中取出并到达接收端之后,信息才会从发送系统中删除。一旦信息放到MQ Series 手中,那么交付任务便可保证绝对成功。如果通信过程发生中断,信息仍会安全存放在队列中,一旦连接恢复,信息便一次发送过去,对业务的集成不会产生任何影响;日常维护方面MQ日志文件提供较为全面的信息,使机务人员对系统的日常维护和排故工作更加容易开展。MQ所特具的这些先进性、安全性、可管理性和易于维护开发等优势,使民航气象数据库系统的运行效率得到了极大的提升。
参考文献:
好的日志文章范文5
关键词:Web挖掘;日志挖掘;数据预处理
中图分类号:TP393 文献标识码:A 文章编号:1007—9599 (2012) 14—0000—02
一、引言
随着信息技术的飞速发展,Web已经成为是信息获取、及共享的重要途径,Web上的各类信息越来越齐全、越快速的增长。面对日益膨胀的各类资讯,将数据挖掘技术应用对Web页面的各类内容、结构以及用户访问信息进行有效信息提取,更好的服务于Web事业发展,已经成为众多研究者的热门研究方向。
Web挖掘(Web Mining)是指通过对Web资源进行分析和研究,从中发现隐含未知的、有价值的规律和知识的过程。根据Web挖掘的对象和内容的不同,Web挖掘可以分为Web日志挖掘(Web log mining)、Web内容挖掘(Web content mining)和Web结构挖掘(Web structure mining)。其中,Web日志挖掘是指通过挖掘Web日志来发现用户的访问行为及模式,可以实现用户聚类、页面聚类和发现频繁访问路径,进而改善网站结构设计和为用户提供个性化服务,已成为众多研究人员关注的焦点。
二、Web日志挖掘技术概述
(一)Web日志挖掘基本概念
Web日志挖掘是We挖掘技术中的一种,是指通过对Web日志记录进行挖掘分析,对用户访问Web页面的模式进行分析和总结,得到用户进行Web访问中隐含的规律或信息,并借助于这类信息来改进Web站点的性能和组织结构,提高用户查找信息的效率和质量,并通过统计和关联的分析找出特定用户与特定地域、特定页面、特定时间等要素之间的内在联系。这在电子商务等领域有着非常重要的作用。用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问信息发现。Web日志挖掘是关于用户行为及潜在顾客信息的发现,一般可以分为以下三个阶段,数据预处理(Pre processing)、模式发现(Pattern Discovering)、模式分析(Pattern Analyzing),其体系结构如图:
(二)数据预处理
数据预处理是指对为了将数据变成适合挖掘的数据格式,将原始日志文件进行筛选、过滤和重组后,并保存到数据库中,以便不同类型的数据挖掘的进行操作。在Web日志挖掘中,数据挖掘预处理主要包含数据净化、会话识别、路径补充、用户识别以及事物识别等。对Web的数据预处理会直接影响到挖掘算法的模式和结果,是保证Web日志挖掘有一个高质量结果的关键。
1.数据净化
数据净化是指将Web服务器中的日志中的无效数据进行删除,消除日志数据中的冗余量,减少所需处理数据的总量。一般情况下,与用户会话的日志信息中只有HTML文件,因此,可以建立一个后缀名表列,可以帮助删除经过检查后无关的URI资源。经过数据净化后,可以减轻数据的大小,缩小数据预处理的容量,使得数据十分集中。
2.会话识别
会话识别是指将访问记录进行分解,分解为单个的会话。用户的一次会话是某用户对某个Web站点的一次访问过程中所引用到的全部页面。由于用户的访问是随机的,因此用户何时会离开一个站点是无法预知的。最简单且最有效的判断用户是否已经离开该网站的方法是利用最大的超时来进行判断。如若两个页面的请求时间超过了预设的门限,就认为一个会话已经结束,并且已经开始了一个新的会话。
3.路径补充
路径补充是指在用户的会话文件中将遗漏的请求信息补充进来,也可以根据网络拓扑结构和引用日志提供的信息把路径补充完整。检查Web日志中是否由于Cache而导致重要的页面访问记录丢失。
4.用户识别
用户的有效识别是一件非常复杂的事情,这主要是服务器、防火墙或本地缓存所造成的。常用的方法为基于日志的方法,并结合一些启发性的识别规则。例如:如果IP地址相同,但是信息变了(信息,在IIS5.0环境下的W3C扩展日志文件格式的cs(User—Agent)字段),表明用户可能是在某个防火墙后面的内网的不同用户,则可以标记为不同的用户;还可以将访问信息,引用信息(cs(Referer)字段)和站点拓扑机构结合,构造出用户的浏览路径,如果当前请求的页面同用户已浏览的页面没有链接关系,则认为存在IP地址相同的多个用户。然而,使用这些规则并不可以保证一定可以准确识别用户,用户识别是个难题。
5.事务识别
事物识别是对用户会话进行语义分组,即针对用户会话的数据挖掘活动进行特定的事件定义。在Web日志挖掘领域中,对关联挖掘任务的粒度太粗,因此要采用特定的算法,将会话分割成更小的事物。经过分割后变成页面序列,再进行事物识别,可以得到诸多有意义的信息,及用户会话中的网页浏览路径。
(三)模式发现阶段
模式发现阶段是指为了得到数据背后隐含的规律和模式,使用各种挖掘算法的过程,如机器学习、统计分析、模式识别等其他学科领域中已开发出来的方法和算法。当然,要将这些算法和Web日志挖掘的特性结合起来,目前已经得到广泛应用的算法有序列模式、统计分析、关联规则和聚类分析等技术。
好的日志文章范文6
关键词:电子商务;Web挖掘;客户行为
中图分类号:F224-39
文献标识码:A
文章编号:167Z-3198(2009)08-0237-02
1 电子商务中客户的重要性
营销学上有个著名的公式;100-1=0,即一个企业即使有100个客户对其感到很满意,但是只要有一个客户对持否定态度,企业的盛名就可能立即化为0,尽管这个观点有点夸大其实,但是至少它说明了一个问题,即:客户满意的重要性。
市场经济体制下,公司的目标就是为企业持股者争取利润的最大化,而公司的利润从何而来――客户。换句话说,为客户服务能创造长期的利益,而长期的利益又能够满足持股者的目的需求。虽然,使客户满意需要花更多的钱,同时也需要更长的周期,但是长周期加上大量的资金意味着企业更多的利益。所以,客户对企业的重要性是越来越突出。即使在电子商务领域这个遵循市场经济体制的网上交易体系。这一重要性也是同样符合的。
如今Google、Amazon、Yahoo、MSN等一些Web公司都要求员工运用Web挖掘技术来了解客户行为,并根据挖掘出的信息数据及模式设计更加符合客户需求的服务和产品。也就是说利用Web挖掘可以了解客户行为,其分析的数据结果可提供给企业参考,做出合适的调整策略。
2 客户行为的Web挖掘
2.1 挖掘数据来源
在挖掘过程中,关键性步骤是提供合适的挖掘对象。在电子商务中,客户行为挖掘的数据源,主要有以下几种:
(1)服务器日志文件。
Web服务器日志文件记录了客户每次登录浏览网站的行为信息,包括了IP地址、时间、页面等,是Web挖掘的主要数据源。
(2)Cookies日志文件。
Cookies是服务器为自动跟踪网站浏览者而在客户端生成的标志,用于存储类似于购物手推车状态信息或者浏览者所访问的电子商务网站的页面信息或交易信息等。
(3)客户信息。
客户信息指客户通过Web页在屏幕上输入的、要提交给服务器的相关信息。在电子商业网站须进行信用授权才能进行交易,因此客户大量的个人资料会传到网站上。对这些信息组织序化后,存储到数据仓库中可作为长期分析客户消费趋势的来源。
2.2 挖掘过程
对客户行为的Web挖掘并不是杂乱无序的,一般其过程可分为三个阶段:
(1)数据的预处理;
预处理主要对用户访问日志(包含用户的访问日志、引用日志和日志)进行过滤、反蜘蛛化、客户验证、会话和路径补全等处理,形成用户会话文件。
①过滤:收集完数据后,首要的步骤便是过滤出不想要的记录,为分析做准备。
②反蜘蛛化:所谓蜘蛛,就是搜索引擎对万维网的扫描建立索引的半自动化程序。蜘蛛的行为与人的行为不同(要比客户的全面),在数据处理中要把蜘蛛的行为和客户的行为区分开来,并过滤掉蜘蛛行为在服务器上的记录。
③客户验证:在会话之前必须识别客户,一是识别出同一客户在一次浏览中为建立会话而发出的页面请求,另一目的是识别在多次站点浏览的同一客户,使我们能够分析客户在数天,数月或是数年中的行为。
④会话;会话指客户在一次访问中访问的所有Web页面,通过这些可以反映出访问者对网站什么地方有兴趣或关心。
⑤路径补全;客户在浏览网时可能出现页面后退现象,导致路径损失,所以需要根据客户访问前后页面进行推理,补全访问路径。
(2)模式发现:
模式发现是对数据预处理所形成的用户会话文件,利用数据挖掘的一些有效算法,例如统计分析、关联规则、聚类、分类等。来发现隐藏的模式、规则。
①统计分析:统计方法是从电子商务网站中抽取知识的最常用的方法。可以根据选择的特征来分析网页此特征的点击次数,根据获得的数据结果来调整网站。
②关联规则:根据关联规则,可以从客户访问网站的行为中找出相关性。利用这些相关性,可以改进电子商务网站的结构,例如哪些产品可以摆在一起或捆绑销售。
③聚类和分类:聚类规则是从一组数据项中聚集出相似特征的一个聚类,可分为用户聚类和网页聚类。而分类规则是找出描述并区分数据类或概念的模型,并使用模型预测类标记未知的对象类。
(3)模式分析:
在这个阶段,主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式,并辅助理解。最常见的模式分析方法是采用sQL查询语句进行分析。另一种分析方法是先将数据导入并提供可视化的结果输出。
3 Web挖掘的应用
网络个性化服务是目前电子商务商业运作和发展的新方向,它根据用户兴趣、爱好、习惯,以及各个用户之间的相关性等向用户在线推荐商品,提供浏览建议,通过不定期调整网站的结构方便用户访问。动态地为用户定制个性化的网站等。
如今,许多商家一直在寻求识别有利可图的市场分割和追踪网络使用者的行为习惯,其目的是提醒用户他们可能感兴趣的产品的实用性。这就出现了像亚马逊网站那样的一种新模式,根据某一特殊用户可能感兴趣的问题提出所需信息。对于被特征化的用户,运用一些客户分类、挖掘技术,让他们了解所感兴趣产品的预报。
网络个性化服务的本质就是以客户为中心提供Web服务。首先,客户浏览访问电子商务网站的资源;其次,系统分析客户行为特性,创建访问模型;最后,根据所获取的信息知识调整服务,系统进行推荐来满足不同用户的个性化需求。通过客户与系统不断的交互,最终为客户提供个性化服务。
4 Web挖掘面临的问题
Web挖掘给电子商务带来新机遇的同时,也带来潜在的问题――隐私安全问题。网络的特点使得我们在网站上留下的信息几乎都可以被全世界获得。事实上,对用户数据的采集和挖掘,有些时候利用了用户的注册信息和登记信息,这包括客户姓名、性别、地址、出生年月、电话号码、购物习惯、收入、信用卡号码、电子邮件及经常访问的Web站点地址等私人信息。如果这些信息的利用未得到客户的允许,则会涉及到隐私权问题并产生纠纷。
如何对客户隐私进行保护,我们可以从三个方面着手:第一,立法进行强制性规范;第二,对涉及隐私的网上数据采取技术防范;第三,行业自律,不随意泄露客户信息,禁止买卖数据等。