数据清洗范例6篇

前言:中文期刊网精心挑选了数据清洗范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据清洗

数据清洗范文1

关键词:时空冗余性;概率算法;贝叶斯推理;数据清洗

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2016)29-0232-03

1 引言

RFID是一种允许物体在一定范围内,被自动识别而无需直接观测到的电子标签技术,采用电磁和响应交换[1,2]。目前大量的零售商如沃尔玛、中国EMS、思科在仓库和分发中心的存货系统中安装RFID技术。然而RFID阅读器收集到的数据是不可靠的,中间件系统需要纠正阅读数据并提供清洗过的数据。目前大部分解决方案是清洗一组阅读器采集的数据[3]。然而,已有的方法主要存在三个方面的限制:

1)未利用RFID数据的时空冗余性提高数据的准确性。由大量拥有重复检测区域并且静止的阅读器可产生数据的空间冗余,移动的阅读器在一段时间内持续的数据采集可形成数据的时间冗余。

2)没有有效地利用标签物体和RFID阅读器的先验知识提高数据的准确性。

3)未有效的利用特定应用中的限制(比如一个房间或书架的容量)清洗数据。

本文提出一种考虑到这三种限制的新方法,充分利用数据的冗余性、先验知识和应用限制来提高准确性和数据清洗的有效性。

2 贝叶斯推理框架及n元检测模型

2.1贝叶斯推理框架

首先描述如何基于贝叶斯推理的方法来处理冗余数据和先验知识。贝叶斯推理是根据观察(y)得出假设(x)可能性的统计学方法。贝叶斯推理表明后验知识跟先验知识息息相关,可表示为[pxy∝pyxpx]。

假设在检测环境中有m个区域和n个物体,每个区域中间位置部署一个阅读器。oi表示拥有ID为i的物体。对于每个oi,它的位置表示为一个随机变量hi。因此,n个物体在m个区域可能的分布表示为一个向量[H=h1,h2,…,hn]。hi表示物体oi所在的位置。例如h1=2表示物体o1当前在区域2内。对于区域j中的阅读器,从物体oi标签接受到的未处理的数据(0或1)定义为zij。从m个阅读器每次完全的扫描得到的未处理数据矩阵可以表示为[n×m]阶矩阵[?]=|zij|。那么贝叶斯定理可以如公式(1)所示,其中[postH?]表示根据给定未处理数据[?]得到后验位置矢量[H],假设满足以下约束:如果[H]无效,[postH?]=0;如果[H]有效,[postH?]>0;如果[H1]比[H2]可能性大,则[postH1?]>[postH2?]。如果在未处理数据矩阵中zij=1而实际中物体oi没在区域j中,那么zij就是误报。

为了计算[postH?],假定每个阅读器检测不同的标签是独立的(阅读器成功检测到一个标签不影响它成功检测到另一个标签),可以得到公式(2)。假定不同的hi(物置)之间是独立的,并且假定对同一物体每个阅读器的检测是独立的,每个物体的先验分布不依赖于其他物体。由此可得到公式(3)。采用格式化常量[α]重写公式(3)可获得公式(4),对已给定的脏数据[?]和假设[H](每个物体的位置),可以基于公式(4)得到假设的可能性。

我们的目标是创造一个大的有效假设样本集,而有效假设采样的一个先决条件是可以精确计算每个假设的后验概率。

2.2 RFID阅读器检测模型

算公式(4)中每个样本的先验概率的关键是准确计算p(zij|hi)的可能性。为此引入n-状态检测模型来精确的计算其可能性。

RFID的物理特性决定其数据采集和传输是不可靠的。阅读器的检测范围可以分为主要检测区域和次要检测区域,其中主要检测区域在距离阅读器较近的范围内,其阅读率可以维持在95%,而次要检测区域的阅读率呈直线下降趋势,超出阅读器的检测范围时,阅读器的阅读率恶化为0。

为了解决这个问题并利用重复的数据,本文提出了一个n-状态检测模型,将阅读器的所有检测区域分成成许多子区域,每一个区域都对应唯一的读取率。不同状态的读取率构成一个等差数列。

为了捕获这种相关性,选择n=3(生成3-状态检测模型)具有更好的可行性。当系统有更多可靠的阅读器就有更少的不确定性,3-状态模型比2-状态在目标定位上提供更多的信息。根据读取率和信息熵之间的关系可以证明,信息熵随着读取率的增大而减小,但是n的取值也不是越大越好,实践应用中3-状态检测是比较理想的模型。

3 具有约束的采样算法

由于公式(4)容易计算但难于采样,本文提出一种对采样进行约束管理的Metropolis- Hastings采样算法(简记为MH-C),算法产生的每个样本可以自动的满足所有的约束,可有效地从先验分布中抽采样本。

马尔可夫链蒙特卡尔理论(MCMC)是通过模拟一个马尔可夫链来从状态空间采样。当样本的数目足够大时,所有的样本都能随机获得后验知识。因此,可直接构建马尔可夫链来近似逼近后验概率。选择MCMC而不是其他采样技术是因为MCMC维持了样本之间的相关性。在MCMC中,下一个样本的选择取决于当前的样本[8,9]。下面首先阐述如何利用采样样本的相关性来提高效率,定义如下术语:

定义1 候选样本. 称从采集器获得的任何样本为候选样本,一个合格的样本是满足所有约束的候选样本。

通常采用的完全随机采样方法中,由于相邻样本相关性的丢失,产生独立样本的效率将受到影响。可以利用样本之间的相关性来改善采样效率,合格的采样空间是完全采样空间的一个子集。

尽管MCMC提高了采样效率,MCMC所产生的样本不一定是一个合格的样本。虽然原始的Metropolis- Hastings算法可以通过构造马尔可夫链来评估后验分布,但它没有把约束条件考虑进来。如果利用约束采样,将会拒绝许多样本,这是由于它们是不合格的样本。

为了在采样中利用约束条件,提出了MH-C方法。MH-C的每个区域都与资源描述符的变量相关,当前的资源描述符表示有多少相关资源仍然是可用的。假设使用一个变量DescriptorZonei跟踪区域i能可用的空白资源,初始的DescriptorZonei值是区域i内能容纳的最大容量。那么,占用空间值为Volumeobjectj的j物体能否存储在i区域可以表示为:

DescriptorZonei= DescriptorZonei -Volumeobjectj (5)

只有在DescriptorZonei不为0时资源分配才是可行的,否则必须重新采样直到找到一个满足所有约束新的分配。因此,资源分配是否可行的问题可以简化为检测描述符的值。

MH-C算法基于Dobject的空间矢量通过空间迭代获得每个样本,如果任何分配的资源符小于0,那么目前的样本不可能成为合格样本,应该丢弃当前的值并重新选择维度进行采样。构造一个随机游走链,选择关于步长的一致方案分布。MH-C算法的描述如下,表1给出了相关符号的含义。

Algorithm 1 支持约束的Metropolis-Hastings 采样算法

1) 初始化[S] = ?,获得原始数据矩阵[?]

2) 载入n-状态检测模型

3) 将资源描述符初始化为最大容量.

4) 初始化[C],在Post([H]|[?])中随机选择合格的样本作为开始点.

5) for Cycle = 2 to E+B do

6) for j = 1 to Dobject do

7) repeat

8) Pj = Cj+ Random(-S,S) {根据当前值和建议步长生成新整数}

9) if Pj < 1 then

10) Pj = 1+ (1-Pj ){溢出并重设}

11) end if

12) if Pj > Dzone then

13) Pj = Dzone -(Pj -Dzone)

14) end if

15) until所有与引用区域相关的资源描述符值不小于0,在接受当前对象的建议分配之后

16) j j + 1

17) end for

18) Jitter生成0,1之间的一个随机数

19) if Jitter ≤ min(1, [Post(P|?)Post(C|?)]) then

20)[C] = [P] //Metropolis-Hastings采样

21) end if

22) 将[C]添加到[S]作为下一个样本

23) 重置所有资源描述符

24) Cycle Cycle + 1

25) end for

算法1中用到的符号含义如下:[S]:样本集, [C]:马尔可夫链上当前的样本,[P]:马尔可夫链上建议的样本,Cj:[C]的第j维,Pj:[P]的第j维,E:有效样本个数,B:老化阶段的样本个数,S:统一建议分布步长,Dobject:监测对象的总数,Dzone:区域总数。

4 实验验证

为了验证算法性能,本文模拟大型仓库生成检测物品的RFID数据集,让物体对应盒子,区域对应货架。采用3-状态检测模型实现MH-C算法,并且作为对比,扩充基于SIS的方法[4],增加利用重复读数功能,达到可对比程度。

4.1实验数据及测度

本文设计了模拟器生成大型仓库的随机产生分布矩阵(行表示物体,列表示货架(区域))和具有噪声的RFID原始数据,通过100次试验来验证MH-C方法在重建的效率和准确性方面相对于SIS的性能。

定义2 前k成功率. 真实位置匹配了重建分布中前k个预测位置的箱子个数在总共箱子个数中所占的百分比,k=1时表示最佳成功率。

4.2 验描述及性能分析

本节模拟5000个箱子和200个货架的大型仓库环境,比较MH-C和SIS在重建效率和准确性方面的性能。在重建精度实验中,随机生成的真实分布矩阵和100个相应的RFID蕴含噪声的矩阵。在每个重建分布中,记录采样时间,计算平均K-L散度,5000例的最佳成功率(每个结果进行平均5000次位置查询)。

实验1:重建准确性

在本实验中,改变合格样本的数据、数据冗余度和每个阅读器管理货架的数目,研究这些因素对重建准确性的影响。

实验2:冗余度对算法性能的影响

接下来,通过改变数据的冗余度研究MH-C和SIS的重建准确度的性能。因为误报实际上是阅读器成功检测到了在次要检测区域的物体,使用在次要区域的读取率来定义数据冗余程度。越大的冗余程度表明一个阅读器越可能检测到邻近区域(货架)内的物体。

实验3:阅读器管理货架数目对算法性能的影响

为了使部署在仓库中的阅读器更加有效率,用户可能要为每个阅读器分配多个货架。目前实际应用场景中,一个普通的RFID阅读器的整体检测区域几乎没有超过5米的,因此设置每个阅读器管理货架数目从1到6变化。

5结论

实际应用中,RFID设备所接收的数据被是不可靠的。本研究提出采用贝叶斯推理方法清洗RFID原始数据,从而可以充分利用具有时空冗余的读数。为了估计位置信息和聚合查询结果,本方法采用先验知识来量化每个物体的不确定位置和每个区域的剩余容量,并且提出了n-状态检测模型捕获可能性,设计并实现了MH-C算法。实验证明本文提出的方法可有效的环境中从后验分布环境中符合约束采样,可以广泛地应用于物联网实际应用。

参考文献:

数据清洗范文2

〔关键词〕图书馆;决策分析;大数据清洗;系统设计

DOI:10.3969/j.issn.1008-0821.2016.09.018

〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0107-05

〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.

〔Key words〕library;decision analysis;big data cleaning;system design

当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现了对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降。

据美国普化永道会计事务所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心;在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,而将不同数据源的数据进行抽取和整合时,可能会产生一些新的不清洁数据[2]。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。

1图书馆大数据清洗的需求与挑战

11大数据环境下数据清洗的需求发生变化

大数据时代,图书馆数据的结构、类型、规模和复杂度发生了巨大变化,其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成,这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点,因此,与“小数据”时代图书馆的数据清洗需求有本质区别。

大数据时代,非结构化、半结构化数据占据图书馆大数据总量的85%以上,图书馆数据清洗的重点已从“小数据”时代的标准化文本、数字、符号等结构化数据为主,转变为以全文文本、图像、声音、影视、超媒体等非结构化复杂数据为核心[3]。其次,“小数据”时代图书馆数据清洗的主要对象是实例层的数据,依据函数依赖等完整性约束条件对数据记录进行处理,而“大数据”时代则重点关注处理模式中数据属性之间的语义关系。第三,图书馆数据清洗工具的效率、互操作性和可扩展性,以及数据清洗工具描述性语言能否满足数据清理中关键词大致匹配的需要,是关系图书馆大数据清洗科学、高效、精确和经济的关键。

12图书馆大数据采集方式多样性易导致数据结构不完整当前,为了提升读者服务的科学性、实时性、可预测性和个性化水平,图书馆大数据应用采取了全面采集、实时分析、动态决策和评估反馈的原则,有效提升了图书馆大数据资源的价值密度、分析科学性和服务可靠性。图书馆大数据来源主要包括Web服务器日志数据、视频监控数据、用户管理系统数据、传感器网络数据和读者满意度反馈数据等,这些数据的数据采集来源、采集方式和数据模式标准不同,导致所采集的元数据存在着字段缺失、字段名和数据结构前后不一致、数据被异常破坏等现象,严重影响了图书馆大数据结构的完整性。其次,这些不完整大数据如涉及读者的个体ID标示、数据价值关键字段、信息集成模式的匹配,则会导致数据资源不可用或者大数据决策错误。因此,如何科学、高效和准确地发现图书馆大数据中的缺失字段,并在规定的时间内对缺失字段进行修复,是图书馆确保大数据结构完整的重要措施[4]。第三,图书馆对大数据资源库查询请求的科学、完整和可控性,是关系数据查询结果清洁性的关键。因此,如何完善、修补不同来源和不同类型的缺失数据字段,并有效挖掘其中蕴含的知识,是关系图书馆从不完整大数据中发现数据价值信息和保障知识服务效率的重要问题。

13海量、重复的大数据严重降低了数据决策效率

为了提升大数据的价值总量,图书馆会利用多数据采集源多方位、多角度和不间断地进行相关大数据的采集。读者个体特征和行为数据,是图书馆进行读者阅读需求预测、服务模式制定、服务满意度评估和服务过程优化的关键数据,为了保证相关大数据采集的全面性、完整性、可用性和可靠性,图书馆会通过视频监控设备、服务器日志、传感器网络、移动基站监测设备、阅读终端监测设备等,尽可能全面地采集读者相关大数据,并描绘一幅完整、精确的读者阅读行为自画像。多个不同类型终端设备全方位、不间断地采集同一读者的个体大数据,会导致读者个体大数据采集过程低效率、重复和识别精度低,这大幅度增加了图书馆大数据处理、分析和决策的复杂度与系统资源损耗。因此,如何删除图书馆采集的海量、重复大数据,是关系图书馆大数据决策可用性和经济性的关键。

其次,随着图书馆服务智能化和个性化水平的提升,机器人等人工智能技术已广泛运用到图书馆的管理与读者服务中去。机器人通过深度学习技术,可为读者提供诸如阅读导航、服务推荐、问题解答、微博更新和聊天等服务,实现了机器人与读者的实时互动与交流。但是,这些机器人产生的数据除具有动态生成、海量、多类型和低相关性的特点外,还存在着数据重复采集、标示多样和部分错误的现象,因此,如何有效区分、清洗机器人产生的大数据,将对图书馆在服务中实施读者阅读行为跟踪、读者阅读需求分析、用户精确画像和科学服务决策产生极大影响[5]。

14图书馆对错误大数据的识别与修正需求

图书馆大数据主要由数据中心IT服务系统配置参数与运营数据、用户与服务管理数据、读者个体行为与阅读数据、传感器网络数据、服务资源数据、读者阅读反馈与满意度评估数据等组成,这些数据的产生具有多数据来源、多采集模式、编码与存储复杂、数据清洗难度大的特点,大幅增加了图书馆对错误大数据识别与修正的难度。

随着图书馆组织结构和内部业务关系复杂度的增长,图书馆员在向业务系统录入元数据时,可能存在着滥用缩写词与惯用语、数据录入错误、数据中内嵌信息错误、重复记录、丢失数据字段、拼写错误、计量单位错误和过时的数字编码等问题。同时,图书馆当前业务管理系统数据纠错的智能水平较低,不能完全识别与纠错数据录入中存在的数据错输成全角数字字符、字符串数据后面存在空格符、日期格式错误与日期越界等。其次,OCR(光学字符识别)软件在对印刷体文字转换成为黑白点阵的图像文件,以及通过识别软件将图像中的文字转换成文本格式时,OCR软件的拒识率、误识率、识别速度、用户界面友好性、产品稳定性和易用性等,也是关系图书馆数字化文献资源加工正确率的重要因素。第三,近年来,射频识别(RFID)技术因其快速扫描、体积小、可重复使用、无线穿透性和无屏障阅读等优势,已广泛应用到智慧图书馆的构建和读者智慧服务中,有效实现了图书馆无线门禁的进出管理、人员精确定位、区域定位管理、安全防卫和图书智能化存取等功能。由于RFID硬件设备易受数据传输距离、环境噪声、地理环境、无线干扰等影响,导致RFID阅读器存在着漏读、多读和不清洁读等现象,如何识别与纠正RFID阅读器在大数据采集过程中丢失、重复、模糊和错误的数据,已成为关系RFID应用有效的关键[6]。

15图书馆大数据清洗需制定科学的行业规范和标准图书馆大数据具有海量、多类型、高价值和处理快速的4“V”特征,据统计,其结构化与非结构化数据占据大数据总量的85%以上,且随着图书馆服务模式多样化和数据环境复杂度的不断增长,其非结构化数据占据大数据的总比例将快速上升,因此,大数据海量、多类型和结构复杂的特点给图书馆的数据管理带来了很大困难。

不同类型的图书馆在大数据采集源的结构和数据库类型上差别巨大,导致不同图书馆在大数据的采集方式、组织结构、存取方法和数据库构建类型上有较大区别,即使是同一种数据的存储也存在着多种不同标准和数据库关系结构。因此,制定统一的数据库建设和数据管理、存取标准,提升数据清洗工具与数据库系统在数据端口、清洗规则和配置参数上的兼容性,是关系图书馆大数据高效清洗和多用户共享的前提。

在实际的工程操作中,数据清洗通常会占据数据分析全过程50%~80%的时间,因此,依据国家标准构建图书馆界的数据行业规范,是关系图书馆大数据开放性和降低大数据决策成本的重要问题。图书馆内部不同部门之间也存在着大数据重复采集和数据标准、类型不统一的问题,我国图书馆界与其它行业或第三方运营商,在数据库建设规范、数据传输接口、相关应用程序上也存在较大差异,给大数据的清洗、共享和分析带来了额外的负担[7]。此外,图书馆对所属大数据的安全性管理、读者隐私大数据保护、大数据价值和可用性保证等,也大幅增加了图书馆大数据清洗过程的复杂度和成本投入。

2图书馆大数据清洗平台的构建与大数据清洗关键问题21图书馆大数据清洗平台的构建

图书馆数据除具备大数据的4“V”特性外,还存在着诸如不清洁数据来源多元化、随机产生、隐匿性强和噪声过滤难度大的特点。因此,在图书馆大数据清洗系统的设计中,作者依据图书馆业务导向和大数据的信息流程,重点突出了大数据源分类存储、不清洁数据识别与发现、不清洁数据清洗和数据清洗流程控制等4个系统功能与流程的设计,实现了从数据产生与存储、不清洁数据发现与清洗、清洗有效性评估、评估结果对清洗流程的反馈控制等4个过程的大数据生命周期质量管理[8]。所设计的图书馆大数据清洗系统功能结构如图1所示:图1图书馆大数据清洗系统功能结构图

为了保证图书馆大数据存储系统安全、高效、经济和可控,系统底层的大数据存储库依据大数据的来源、类型、应用对象和不清洁数据特点,划分为客户管理元数据库、系统配置与运行数据库、读者服务数据库和主数据库等,这些数据库的不清洁数据主要存在结构不完整、数据重复、错误和不一致的问题。

不清洁数据发现系统平台主要由大数据的获取、数据完整性检测、数据重复性检测和错误数据检测4个功能模块组成,通过对大数据变量的取值范围、相关性、无效性、缺失值和重复值的判定,将从大数据源中发现、提取出的不清洁数据传输至不清洁数据清洗模块。

不清洁数据清洗系统平台是大数据清洗系统的核心,数据管理员在对不清洁数据产生的原因、存在形式和数据结构复杂度进行分析后,制定出科学的不清洁数据定义、评估、清洗和规则反馈优化程序,依据数据清洗的实时性需求,控制系统实现不清洁数据的离线清洗和在线清洗,并对清洗后数据的完整性、有效性、一致性、准确性和相关性等进行判定,如果清洗结果不达标则进行不清洁数据的二次清洗[9]。

不清洁数据清洗管理平台由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和质量管理4个模块组成,负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和不清洁数据清洗质量的管理,可有效保证不清洁数据清洗过程安全、高效、经济、高价值和可用。

22关系图书馆大数据清洗质量和数据可用性的关键问题221有针对性地选取图书馆大数据的清洗对象

大数据是图书馆IT系统构建、读者管理和服务模式变革的直接决策依据,大数据的价值总量、密度和清洁度等,直接关系图书馆大数据决策的科学性、效率、经济性和可用性。图书馆大数据具有海量和总量级数递增的特点,但是,不同类型的大数据在数据价值总量、价值密度、分析可用性和与决策对象的相关性上差异较大,导致不同大数据在图书馆决策的科学性、精确度、可靠性和经济性上的影响度不同。因此,图书馆应根据大数据决策的对象、内容、精确度和经济性需求,有选择地开展大数据的清洗活动。

个性化智慧服务是未来图书馆读者服务的重要目标,而精确地判定读者需求、图书馆未来服务资源总量和读者阅读情景,则是确保图书馆读者个性化智慧服务内容实时、精准投放的前提。因此,图书馆对大数据清洗对象的选择上,在保证大数据获取难度可控、数据覆盖率广泛和具备一定的数据规模前提下,应选取与读者个性化智慧服务决策相关性较大的数据,并重点清洗与读者个性化智慧服务决策相关性较大的诸如读者个体特征、阅读历史行为、阅读实时兴趣、个体移动路径、阅读终端模式、读者服务评价与满意度反馈、系统未来服务资源总量与服务负载等数据,才能在较小大数据清洗成本投入和降低清洗复杂度的前提下,大幅度提升图书馆大数据的价值密度与数据可用性。

222依据大数据决策实时性需求制定数据清洗策略

图书馆大数据决策可划分为实时决策和离线决策两部分。实时决策主要应用于图书馆安全与服务即时管理、读者在线服务需求实时判定、实时服务策略制定与服务推送、服务系统的实时评估与优化等方面,要求大数据应用平台在较短的时间内获取、清洗和分析实时数据,为大数据实时、动态决策提供科学数据支持。实时决策对大数据获取、传输、清洗、分析和决策过程的时效性要求较高,数据总量偏小、低清洁度和价值有限的实时大数据可能会影响图书馆实时决策的科学性和可用性。离线决策主要应用于图书馆的宏观战略方案制定、用户服务模式变革、服务有效性评估和服务市场竞争环境分析等方面,这些离线决策虽然因为海量大数据的复杂分析而降低了决策的时效性,但决策结果具有较高的科学性、准确度和可靠性。因此,图书馆必须依据大数据决策实时性需求制定相关的大数据清洗策略。

大数据清洗策略的制定应以图书馆服务效率的提升和读者阅读满意度为依据,结合图书馆数据中心大数据应用系统的资源总量和大数据清洗的负载量,依据决策内容实现大数据清洗实时性、算法复杂度、精确度和可靠性的完美结合。大数据在线清洗对实时性的要求较强,因此,图书馆应完全记录用户服务流程线上的实际数据,依据决策对象的重要性、实时性、相关性和服务收益需求,对需要清洗的数据进行优先级别划分和系统资源分配,确保在线清洗结果的时效性、准确性、可用性和可靠性综合评估最优。在离线大数据清洗策略的制定中,图书馆对数据清洗优先级别的划分,重点应放在决策对象的重要性、服务的收益率、系统资源的损耗和实时性需求上,科学分配二级子指标的权重比例,并依据读者需求和图书馆服务模式变革进行动态反馈调控,不断提升宏观决策的科学性和可行性。

223图书馆大数据清洗质量评估标准的几个重要维度

图书馆对不清洁数据清洗质量评估的科学性,既是关系图书馆数据价值保证和大数据决策可用性的关键,也是图书馆对数据清洗系统进行反馈控制、优化和完善的重要依据,因此,必须选择科学、全面、完整和可操作的大数据清洗质量评估维度,才能确保大数据清洗过程高效、优质、快捷、经济和可控。

图书馆大数据清洗质量评估体系的构建应坚持评估指标覆盖面广泛、指标因子权重分配合理、评估系统开放和易于操作的原则,所设计的图书馆大数据清洗质量评估维度如表1所示:表1图书馆大数据清洗质量评估维度表

编号维度内容大数据清洗评估维度的描述1规范性数据的存在性、质量及存储标准2完整性与准确性数据结构完整度、准确性和可用性3重复性数据在字段、记录内容或数据集外重复4一致性和同步性在不同数据库、应用和系统中的一致和同步5及时性和可用性非实时数据的清洗和价值可用性测量6可识别和相关性数据可理解、价值可测量和可相融程度7易用性和可维护性数据可访问、使用、更新、维护和管理的程度8数据价值覆盖度数据在决策中的价值、对象和内容覆盖程度

此外,对图书馆大数据清洗质量的评估,应根据大数据决策过程对数据清洁度、价值密度和可用性的需求,动态调整大数据清洗质量评估维度表中各指标的权重因子,增强大数据评估结果对大数据清洗系统的反馈控制与优化功能,才能确保大数据清洗过程安全、高效、经济和可控。

224图书馆大数据清洗流程的设计

大数据清洗流程的科学性、数据流可控性和评估标准有效性,是关系图书馆大数据清洗流程安全、高效、快速和经济的重要问题。因此,本文在图书馆大数据清洗流程的设计中,坚持在保持大数据价值总量不变的前提下,以提升大数据的价值密度、可用性、决策实时性和降低大数据应用成本为根本目标,有效保证了大数据决策的科学性、可靠性、实时性和经济性。图书馆大数据清洗流程如图2所示:

图书馆大数据清洗系统首先对所接收的大数据进行预处理,并将拟清洗的大数据导入数据清洗系统,检查元数据诸如字段解释、数据来源、代码表等内容描述是否正确,初步统计拟清洗数据的类型、结构、实时性需求和存在模式问题[10]。其次,在大数据的清洗中,应根据大数据清洗的复杂度、大数据总量多少和流程相关性,按照去除和修补缺失大数据、去除重复和逻辑错误大数据、异常大数据的检测与处理、非需求大数据清洗、大数据的关联性验证等步骤进行,最后对已清洗大数据的质量和可用性进行评估,并将不符合大数据决策需求的不清洁数据传输至数据清洗输入接口进行二次清洗。

3结语

图书馆大数据具有多数据来源、多维度、多采集方法和多存储模式的特点,导致大数据中不可避免地存在着错误、粗糙和不合时宜的非清洁数据。这些非清洁数据的存在,增加了图书馆大数据应用的复杂度和数据决策成本,降低了图书馆对读者阅读需求的感知和对未来服务发展趋势的预测能力,严重影响了图书馆服务决策从主观经验主义向大数据决策的转变。因此,如何通过科学、高效、经济和实时的数据清洗,将非清洁数据转化为高质量的干净数据,是图书馆增强大数据可用性、提升大数据决策效率和提升知识服务水平的关键。

图书馆大数据清洗是一个涉及面广泛和影响力深远的工程,不科学的清洗流程和方法会导致数据清洗收益率下降,甚至产生新的不清洁数据而影响图书馆大数据决策科学性。因此,图书馆在大数据的采集、传输、存储、标准化处理、分析和决策中,首先应将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段,从制度上规划保证数据质量管理有效和防止不清洁数据的产生。其次,应加强对大数据融合、集成和演化流程的监控与检测,防止因为大数据的产生、流入或数据更改而产生新的不清洁数据。第三,数据清洗过程会消耗大量的系统资源和大数据应用成本,因此,图书馆数据清洗目标的制定应以大数据决策需求为依据,不能人为制定过高的数据清洗清洁度目标而导致大数据决策综合收益下降。

参考文献

[1]王曰芬,章成志,张蓓蓓,等.数据清洗研究综述[J].现代图书情报技术,2007,(12):50-56.

[2]吴向军,姜云飞,凌应标.基于STRIPS的领域知识提取策略[J].软件学报,2007,18(3):490-504.

[3]刘喜文,郑昌兴,王文龙,等.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013,(5):22-28.

[4]蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013,(5):16-21.

[5]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践,2007,30(1):93-96.

[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥/node/15557443,2016-05-16.

[7]黄沈滨,王海洁,朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用,2015,5(3):88-90.

[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.

数据清洗范文3

12月7日至9日,上海市戏剧家协会和上海市剧本创作中心联合举办了为期三天的2010年度“第二届青年戏剧编导演读书班”,上海各戏剧院团和区县文化馆报名踊跃,推荐优秀青年编导演人员共计43名学员参加了活动。

上海剧协副主席、著名昆曲艺术家张静娴讲授了《戏曲的传承与创新――行当与角色的演绎》,以从艺多年的宝贵经验为学员们言传身教,和大家分享了对经典剧目《牡丹亭》、《班昭》的演绎体会;著名编剧、“百家讲坛”主讲人翁思再从几十年文艺记者的观察和思考出发,在《漫谈剧种分工论》课题里剖析了当下戏曲不景气的原因,别开生面地讲述了选材对各剧种体现的意义以及题材分类的技巧。著名文艺理论家毛时安从改革开放三十年来的社会转型入手,让学员们了解当下戏剧创作的环境,呼唤有人文精神的作品出现。《即兴表演――直觉的创造》是由上海戏剧学院教授何雁带来的互动形体训练课程,让学员们重新打开自己,激发他们在专业表演的注意力与形体语言即兴创造上的灵感。“戏剧是高贵的”,著名导演陈薪伊在《情节是性格发展的历史》以丰富的戏剧经验和舞台素养为学员们讲述戏剧构成的本源,以话剧《原野》为案例生动讲解了塑造人物性格在戏剧创作中的核心价值。

活动期间,“读书会”安排了学员们观看了话剧《天堂隔壁是疯人院》,并和该剧导演尹铸胜进行了座谈交流。“读书会”为上海戏剧人才拓展戏剧视野及提升文化素养,为他们提供了跨专业的业务学习和交流平台,在各戏剧院团反响热烈,其中不乏参加首届读书班的一、二级演员如上海沪剧院的程臻、朱剑,以及青年编导中坚力量,改项目已成为上海剧协每年度的保留项目。

数据清洗范文4

[关键词]小学数学 练习设计 学情 探索

[中图分类号] G623.5 [文献标识码] A [文章编号] 1007-9068(2015)17-062

在设计数学练习时,教师首先要依据本班学生的实际,紧密结合教材内容,充分发挥聪明才智,设计出学生应做、爱做、能做和敢做的数学练习,从而避免将练习课上成机械乏味的操练课、作业课,让练习变得有目标、有针对性,变得有效。

一、看一看,学生“应做”哪些练习

教师要经常看一看学生平时作业最容易出现错误的地方,然后“对症下药”,设计出学生应该要做的练习。

对于比较容易疏忽的知识点,可以设计“专项练习”。在学习新知识后,有许多同学没有明确所学生知识的真正内涵,表现在练习上是错误多多。比如在学习“分数的初步认识”时,重点是理解分数的意义,关键在于理解“平均分”,即每份分得“同样多”,而部分学生只记住了分,而忽视了分得同样多。因此,针对这个容易被学生疏忽的重点,可以设计如下的专项练习,让学生在明辨中理解“平均分”:

用分数表示下面的涂色部分,对吗?

而对于最容易混淆的知识点,可设计一些“对比练习”。在练习中,学生对一些貌似质异的练习题,经常因混淆而导致差错。为此,可以围绕这些容易混淆的知识点,进行对比练习的设计,让学生在对比练习中明晰练习题之间的异同。例如学习了“分数乘除法应用题”,为了让学生正确区分单位“1”,并认识到其带来的解题方法的变化,认识稍复杂分数应用题的结构,可设计如下题组:

(1)有20个足球,篮球比足球多1 / 4,篮球有多少个?

(2)有20个足球,足球比篮球多1 / 4,篮球有多少个?

(3)有20个足球,篮球比足球少1 / 5,篮球有多少个?

(4)有20个足球,足球比篮球少1 / 5,篮球有多少个?

二、听一听,学生“爱做”哪些练习

“课本的题目做了好几遍了!”……听话听音,每当听到学生流露出不耐烦的声音时,表明学生并不太喜欢这些古板的练习题。因此,教师可结合教学内容,从学生的生活着手,设计联系学生现实生活的数学练习,让学生体会到数学就在身边,感到学习数学的用处。

例如,学习了“长方形和正方形的周长”后,可以让学生为教室的黑板报、相框设计花边;学习“千克和克的认识”后,可以让学生调查周围物品的重量:一袋盐、一袋洗衣粉、一个鸡蛋、一袋大米……;学习“认识钟表”后,可以让学生自己制定作息时间表;学习“统计”后,可以让学生统计学校门口主要道路上车辆通行的情况;等等。这样的练习设计,引导学生从小课堂走向大社会,给学生以更广阔的数学学习的空间,学生学到的将不仅仅是数学知识本身,更重要的是观察、分析、合作、交流、创新、实践等综合素质得到了培养和训练。

三、问一问,学生“能做”哪些练习

在教学活动中,通过提问或间接问其他学生,可以得到一些信息:即不同的学生掌握的知识不尽相同。因此,应依据学生的练习实际,坚持循序渐进的原则,精心设计练习的层次,使练习有一定的“坡度”和“难度”,让不同的学生都“能”做练习。比如设计一定数量的基础题或模仿题,用于巩固“双基”训练;设计一些变式练习,以利于学生新旧知识的沟通、思路的拓展;还可以设计一些综合性较强的思考题,促进学生知识向技能的转化。

例如,在教学“能被3整除数的特征”时,根据难易度设计了以下几个层次的练习。

(1)“”级:用手势判断54、83、147、262、2016、1785能否被3整除。

(2)“”级:在下面每个数的里填上一个数,使它能被3整除。7 44 42

(3)“”级:用5、1、7、2四个数字可拼成几个四位数?请判断这些数都能被3整除吗。

(4)“”级:100以内的能被3整除的数有几个?200以内呢?

四、想一想,学生“敢做”哪些练习

数据清洗范文5

[关键词]地面观测;数据维护;数据异常分析;情况分析

[DOI]1013939/jcnkizgsc201716318

1引言

随着计算机技术在气象观测中的广泛应用,地面气象观测工作逐步向自动化、智能化发展,但是,与此同时,自动气象站也存在一定的弊端,比如说当网络运行缓慢、计算机故障的时候,气象观测数据就会出现中断以及丢失的情况,严重降低了气象观测的质量。因此,及时地对地面气象观测数据进行监控,实施定时维护并对异常状况做出调整,这是十分重要的。正点地面气象观测数据维护是指气象观测人员对观测数据和相关气象报文资料进行人工检测,对一些数据异常情况进行分析,并及时采取一系列处理措施,为自动气象观测数据的连续性、系统性提供可靠保障。

2操作基本要领

正点地面观测数据维护界面窗口的右上角为时间设置,其初始值是计算机的系统时间,观测人员可以根据气象观测的实际情况选取任意年、月、日、r,进行数据维护。系统时间是24小时制的,均以北京时间为准。

在时间确定之后,观测人员可以从基本数据库(B文件)、自动气象采集数据(Z文件)中进行数据读取。值得注意的是,在读取数据之前需要先确定一下B文件中是否有该时次的相关记录,如果有,则可直接读取;如果没有,就要从Z文件或者R文件中进行数据读取。另外,当出现同一个项目从多个文件进行读取的情况时,一般以B文件的数据为准(前提是B文件读取数据不为空)。如若B文件的数据为空,那么就要以Z文件中的数据为准。

正点地面观测数据维护的内容主要包括当前时次的自动气象站观测数据和人工观测数据,以及本时次的有关统计数值,系统运用表格滚动的方法统计出了所有与本时次的统计值相关的自动气象站观测数据。同时,为了保证自动气象站观测人员进行人工审核的时候能够更加方便、迅捷,正点地面观测系统还设置了正点观测值与小时内逐分钟观测值进行分析比较的功能。

当所有观测数据都准确无误之后,数据维护人员就要把数据上传并保存。为了确保上传数据的安全性,如图1所示,系统在文件存储之前会对当前操作员进行口令验证,点击确定之后,正点地面观测数据维护界面的左下角会显示上传数据的文件名以及相关内容(见图1、图2)。

3数据异常情况分析

31降水量及云的输入异常

在人工输入降水量时,有时会出现“有江水天气现象无编报降水量”的提示栏,降雨量无法输入,面对这种异常状况,操作人员要把天气气象编码进行删除,并按照正确的顺序重新输入;在输入云的状态时,需要注意中英文模式的转换,如果提示“云高不能为空!”,就需要在云高的输入栏填写相应云高,并且要把编报栏的云量数据删除。

对于这些输入数据的异常情况,还有一个办法就是把软件重启,不对异常数据进行存储,然后再次重新进入地面测试软件,正确输入相关数据。

32新软件出现维护界面无数据的自动提示

当观测软件系统运行时间过长,就会出现新软件维护界面无数据的提示。遇到这种问题,有三种解决办法。第一种是:点击“维护界面”上的“补读”选项,对气象观测数据进行补读操作。第二种是:关闭观测软件,然后再重新进入系统。如果以上两种方法都没有解决问题,就只能卸载气象自动站监控软件数据采集中的“常规数据”,然后人工补测了。第三种是:把整个软件卸载重装,但是这种方法对观测数据造成的影响比较大,不到万不得已,不要轻易使用。

33气温、相对湿度、气压、降水量以及地温等数据超出历史极限

当气温、相对湿度、气压、降水量以及地温等数据超出历史极限时,系统会出现是否发送数据的提示,这时候需要人工对气象观测数据进行分析、审核,通过正点观测数值和小时内每分钟观测数值的比较,判断其变化是否合理,如果符合逻辑规律,则选择发送并保存数据;若数据是属于异常情况,那么就要按缺测进行数据处理。面对记录超出历史值范围的这些异常情况,软件操作者要及时地对系统规律库中的数据进行合理化设置,以便预审核天气报时能够对数值进行判断分析。

34判断定时数据出现异常或者缺测

当自动气象观测站出现异常情况,比如说判断定时数据出现异常或者丢失时,地面观测数据维护人员就需要对观测数据进行备份替换,具体来说就是:双击此次操作的时间栏――选择准确的分钟数据备份资料――将文件中某分钟的数据备份替代为自动气象站正点的观测数据。若是出现备份无法进行替换的情况,那么可根据中国气象局的《改版后的〈地面气象测报业务软件〉操作使用(2)》,进行如下操作:将插入点放到待处理数据的单元格上,之后点击鼠标右键,则会出现“气温、湿度、最高气温、最低气温、本站气压、地面温度、地面最高温度、地面最低温度、5~320cm地温”等选项,单击鼠标左键逐一选择,直接在选项上输入相对应的人工监测的数值,即可完成人工进行数据补替的工作。

35正点降雨出现野值或者疑误

遇到正点降水出现野值或者疑误的情况,一般要对自动气象站的时降雨量和分钟降雨量的数值进行分析查看,若是实际天气并没有降雨现象,就要把“时降水量”和“分钟降水量”选项中的数值删除。具体操作步骤:用鼠标选中“时降水量”/“分钟降水量”,然后按“DEL”进行数据清空;对于自动气象站降水量的数据采集出现错误的时候,操作人员需要在“时降水量”和“分钟降水量”的单元格上相应地输入“-”,清空错误数值。

4结论

总而言之,正点地面观测数据维护是提高气象观测质量最为有效的措施,对保障气象观测资料的准确性、系统性起到了很大的作用。气象相关部门要对正点地面观测数据维护中的数据异常情况进行分析,总结经验教训并形成规范文件,记录“数据输入异常”“记录值超出历史极值”以及“新软件出现维护界面无数据的自动提示”等这些常见问题的解决对策,为数据维护工作提供指导。再有,气象工作者要提高自身的综合素质,增强专业技术的掌控能力,规范观测工作的操作流程,对正点地面观测系统的应用要了如指掌,以便为气象观测数据维护工作的顺利进行提供人为保障。

参考文献:

[1]文强,张兴云,孙松,等正点地面观测数据维护中数据异常的分析处理[J].气象科技,2013(3).

[2]薛斌彬自动站正点地面观测异常数据的维护处理[J].黑龙江科技信息,2014(29).

数据清洗范文6

关键词:大数据 大数据分析方法 情报研究 适用性

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4 需要继续关注的方法

基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。

参考文献:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.

[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.

[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.

[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.

[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.

[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.

[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.

[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.

[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.

[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.