大数据时代的定义范例6篇

前言:中文期刊网精心挑选了大数据时代的定义范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

大数据时代的定义

大数据时代的定义范文1

论文关键词 大数据 隐私 刑法体系

随着“可佩带”智能设备的出现,我们每一个人的位置、行为都可被记录分析,随之而来的便是大数据时代的来临。而源自1890年沃伦和布兰代斯提出的隐私权内涵也不断地扩张,逐渐成为一项基本权利。大数据和隐私权,两者随着各自边界的延伸而交织在一起,其相互争夺自身发展权利的场景将是我们这个时代最为重要的事件之一。

一、大数据和网络隐私权涵义辨析

(一)大数据的内涵

正如诸多新兴事物一样,大数据至今还没有统一的定义。在维基百科中,大数据是这样被定义的“大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”可以说这并不是一个精确的定义,因为定义中采用了“无法通过人工”这样的否定句式,而“合理时间”亦是一个模糊的范围。IDC(International Data Corporation)则如此定义“大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。”这个定义虽然给出了明确的量化标准,但是只强调了大数据数量大、增长快的特征,并没有把握住其实质内涵。实际上,大数据所蕴含的是一种数据处理理念,即放弃样本分析而采用所有数据的方法。

(二)网络隐私权的定义

在诸多论著中,都将网络隐私权当做一般隐私权在网络环境下的延伸来对待。而实际上,基于现代网络海量数据的特性,网络隐私权已经超出一般隐私权的范畴,正如1988年哥伦比亚广播公司诉司法部一案中9名大法官指出的一样,“在一个有组织的社会里,几乎每一则信息都在不同的时候以不同的方式公开过。但是,就个人隐私而言,不同时期零散地公开和一次性完整地公开,即使内容相同,也有本质的区别。”

网络隐私权应当包含以下内容:

信息使用权。权利人对其个人信息享有按自己的意志使用的权利。

信息控制权。权利人有权决定是否允许他人访问或使用自己的个人信息。

知情权。权利人应当有权知道服务提供者掌握的个人信息以及信息的分享范围。

大数据时代的定义范文2

关键字:大数据;公共危机;公共危机管理

1公共危机管理概述

十六届五中全会中明确提出要“建立健全社会预警体系和应急救援、社会动员机制,提高处置突发性时间能力”。党的十七大报告中进一步明确要求“完善突发事件应急管理机制”。现在对公共危机管理的研究更加深入,学界中研究公共危机管理主要有两种思想:一是认为对突发事件直接救援的应急管理思想;二是认为公共危机管理是一个全过程的管理,在危机发生前后都具有重大意义,只是在危机发生之时的意义相比之下尤为重要。张小明认为,“公共危机管理”是指对公共危机的管理,其主体不仅包括政府部门、非政府公共部门(NGO),也包括企业,甚至将公民涵盖在内。我国是一个社会危机和自然灾害多发的国家。一方面,我国改革开放以来,社会转型导致不同社会主体之间的权利和利益重新分配,不同地区不同阶层之间的贫富差距不断拉大,那些受益不足的群体会产生心态上的失衡,这样就会造成行为上的变异,诸多不稳定因素随之而来,例如火灾、投毒、爆炸、杀害青少年儿童等极端事件不断发生,公共危机管理将会面临巨大的挑战;另一方面,我国疆土辽阔,常发生自然灾害,地震、洪水、干旱等。这些自然灾害的发生也会给中国带来巨大的损失,这些自然灾害的发生是防不胜防,加强公共危机管理则先需要清楚其本质和存在的问题。因此,对公共危机管理的研究是时代趋势所需。

2大数据特征及大数据时代下的公共危机管理

大数据时代下的信息传播迅速,涵盖的信息量大,影响范围广,公共危机事件会在短时间内被大数据时代的新闻媒体等工具快速剖析。公共危机信息是多角度多层次的传播,信息超链接,公共危机信息被强化。大数据,单从字面来看,它表示数据规模的庞大,但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(massivedata)、“超大规模数据”(verylargedata)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义。在这些定义中,比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。除此之外,还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。大数据的定义很难达成一个完全的共识,但事实上,在面对实际问题时,只要把握好3V定义,然后适当地考虑4V特性即可。大数据时代下我国公共危机管理更是遇上了新的挑战,与传统媒体相比,大数据时代下公共危机传播之规模大,形式多样化,速度快,把内容变得丰富多彩。大数据也解决了反应时间短,“事中反应”困难等问题。一方面,大数据时代下,对公共危机发生之前有相应的管理和设施准备,大数据运用软件和硬件设施相结合,采集数据。另一方面,管理层面大数据扮演着重要的角色,如系统互联互通、信息共享,确保信息安全和隐私等,大数据的运用对我国解决公共危机问题提供了新的的思路。

3公共危机的类型

现在,我国已经开始重视公共危机管理,在新时代的背景下,我国不但要增强忧患意识,还要对危机管理开展更加广泛的研究,在国内学界,胡宁生(1998)在其主编的《中国政府形象战略》一书中对危机进行了非常细致的分类:按动因性质分为自然危机和人为危机;按影响时空范围分为国际危机、国内危机、组织危机;按主要成因及涉及范围分为政治危机、经济危机、社会危机、价值危机等;按所采取的手段分为和平方式的冲突方式和暴力性的方式;另外还分为特殊状态的危机,如核危机与非核危机等。危机管理专家薛澜在《危机管理》一书中,从危机产生的原因上将国内危机事件的类型做了以下的归纳,如表1所示。基于公共危机种类的各种划分标准的讨论,可以作如下评述:其一,国外学者对危机类型的学术解读走在前端,且大多被纳为危机涵义的研究视角;其二,国内学界对公共危机的学术分类大多在2003年,这一年因“非典”爆发而被视为我国危机管理研究“系统化学术话语构建的起始之年”;其三,关于公共危机与非公共危机的区别和联系的并没有得到完全的界定;其四,自然危机的界定十分清楚,但是对于人为危机并不是十分清楚;其五,公共危机的生成诱因与其基本类型息息相关,只有将公共危机的基本类别分析得很透彻才能参透公共危机的本质,为公共危机管理工作指导思路、指明方向。

4公共危机管理研究现状分析

公共危机管理的基础是制度的建设,但是只单纯地依靠构建政府危机管理的机制是不能够完全保证让社会处于无忧无难,公共危机管理体系的构建是一项综合系统工程。全社会应该参与进来共同治理公共危机,但是根据社会的相关调查数据表明,很多群众是不愿意参与到公共危机管理处理工作之中的,我国历史上就推崇“舍小家为大家”的理念,但是现在人民对公共危机的关注度和参与度并不乐观,显然没有人民群众的支持,工作很难展开。在这种压力之下,我国也在尽快完善危机管理的体系,规范危机管理的行为,发挥社会团体的力量,集中社会、管理部门的力量形成合力来提高我国公共危机管理的能力。近年来我国公共危机管理研究受到广大学者们的青睐,尤其是大数据时代下公共危机管理是更是倍受关注,现以表2,图1来说明公共危机管理研究的发展趋势。结论分析:从1995~2000年,公共危机管理研究只占总体的30.8%,主要研究在经济领域;从2000年开始注重公共危机管理,研究比例比上一个五年增长了30.9%,2010~2015年增长到44.7%;从纵向上看,期刊文章的数量呈明显上升的趋势。除此之外,紧急事件和应急机制这一类文章的数量也随着国家的需求而增加,这表明虽然我国对公共危机管理的研究逐渐增多,但我国还仍然需要对公共危机管理理论进行更加正规化、系统化的深入研究。相比国外公共危机管理而言,我国存在的问题是多方面的:其一是我国预防公共危机体系不健全,相关部门对方案的精髓都不能全部掌握,换句话说,预案的设计没有与实际情况相结合,更加谈不上及时采取相关措施解决公共危机的突然发生;其二是我国没有全面的法律条文,没有法律条文的约束就会造成在管理执行过程中产生诸多不确定因素;其三是公共危机管理也被称为政府危机管理,那么政府作为主体,有职责规范其行为,减少负面信息和误导公民信息的传播,但是现在大数据时代下,各种媒体新闻传播迅速,很多消息的传播给人们带来的惶恐不安是相关部门的措施做的不到位,才会导致人心不稳;其四是面对公共危机事件时,大家是一个不可分割的一个整体,社会秩序的稳定是广大群众关注的要点之一,安抚好受危机影响群众的心情,保障涉及危机事件人民的利益。

5公共危机管理存在问题的对策

(1)完善预案体系。我国各地地区都编写、制定了应急预案和专项应急预案,预案上应该写入参考的实际情况,提高预案的可操作性,健全预案的策划、安排、监督、管理和评价机制。如针对社会出现的危机,有公共危机事件也有非公共危机事件,我们公共部门则需要针对公共危机事件做出特别的措施,明确各部门的工作责任,提高工作人员对公共危机事件的专业素养,能够有效地向上级反应情况,报告数据。(2)健全危机管理的法律法规。我国关于公共危机管理法律并不完整,法律的重点要放在公共危机处理事件中政府和有关部门人员职责上。国外在公共危机管理方面的法律有很多值得我们借鉴的地方,如美国为了提高人民对危机的认识,美国纽约危机管理办公室建立了危机管理在线定位系统,日本建立了信息管理一体化的评测小组,而我国首先要做到的就是根据我国自身具有的特点制定有利于我国国情下的法律条文,有了法律的保障,才有了危机管理的前提。(3)强化政府对大数据时代下公共危机管理的规范。现在许多危机事件的发生是防不胜防的,但是公共危机的恶意传播,造成人们的恐慌是可以避免的。政府应该加强对大数据时代媒体的管理,约束其行为,尽量防止媒体歪曲事实误导社会公众的公共危机意识。对不法分子的典范应该严惩不贷,显示出政府在人们心中的威信,让人们相信政府,在大数据时代下具有明辨是非的判断力。(4)运用多元治理手段处理好社会的秩序和共勉权利保障。现代政府的本质在于社会的秩序和共勉权利保障的问题,不管是在正常社会的状态下,还是在非常社会的状态下都应该充分发挥其作用。风险社会和和谐社会中的“风险”和“和谐”不仅是一种社会存在,而且是一种公众的心里暗示。公共危机的频发打破了社会的秩序,引起了社会的矛盾,给人民的心里带来了不和谐、不安全的暗示,现代公共危机管理就是要实现对社会公众不安心理的疏导,恢复和维持社会的有序与和谐。

大数据时代的定义范文3

关键词:大数据 期望最大化 算法

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2015)04-0124-02

1 引言

随着信息化时代的到来,公共数据和个人数据都在以几何级数的速度增长,人们对信息数据的需求、海量数据的处理对传统数据挖掘算法的挑战正不可避免, 我们生活在数据时代,全球数据总量的具体数值是难以想象的,面对海量数据,人们在工作、学习、生活的每个领域都要从海量的数据中寻找一个理想的期望值。人们在遨游淘宝、微商和各种网上零售购物,从海量的影片中筛选期望的影片及求职找工作时同时又不同的公司不同的职位进行期望比较。通过数据挖掘,利用数学知识以大学生求职找工作为例来确定最大期望算法中最大似然估计值来找到期望的工作,事实证明当前大数据背景下海量数据的处理。从传统的数据挖掘算法中,最大期望算法适合大数据的数据挖掘,是我们选择处理大数据环境的重要方法。

2 大数据和最大期望算法概述

随着公共数据和个人数据呈几何级数的急剧增长,大数据已深入到人们的工作、生活、学习当中。面对海量数据,我们会感到束手无策,当我们要对每天的工作进行数据分析,对每一天在生活中所使用的数据以及在获取知识学习中所产生的数据进行分析时,都有一个共同点,就是要满足人们在工作、生活、学习中的需要也就是期望,我们可以利用数据挖掘中的最大期望算法来实现。

2.1 大数据的概述

大数据是一个仁者见仁智者见智的广泛概念,大数据的研究先驱麦肯锡在报告中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。

国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

亚马逊的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。

维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”

上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。通过采用对多个行业调研、分发调查问卷、面对面交流沟通和参加有关大数据的会议,经过归纳总结给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。

2.2 最大期望算法定义

最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,其主要核心思想是用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在第一步计算期望值E的基础上求得的最大似然值来计算参数的值。在最大化M 基础上找到的参数估计值被用于下一个 最大期望计算中,这个过程不断交替进行。

3 基于大数据的最大期望算法研究

面对海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型、我们采用最大期望算法来获取巨大的数据价值。本章将对大数据中采用最大期望算法的理论进行分析,对大数据中最大期望算法推导、最大似然估计值进行了相关的研究。

3.1 大数据中采用最大期望算法的理论分析

在海量的数据中,我们用最大期望算法来计算出我们所需要的最大似然估计值。这不太好理解,毕竟数学知识有限,那就举个典型的例子来对大数据中采用最大期望算法进行形象的说明。来对大数据中采用最大期望算法进行通俗的理论分析。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直迭代地执行下去,直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。最大期望算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。那我们用数学语言来描述为:假如有200人的学生群体,把这群体分为男生和女生两部分,我们先随便猜一下男生身高的正态分布的参数,即均值和方差是多少,如果男生的均值是1.7米,方差是0.1米,然后计算出每个人更可能属于第一个还是第二个正态分布中,有一个同学,他身高是1.8米,那很明显,他最大可能是属于男生的那个正态分布。按照同样的办法,我们把这200名同学,分成男生和女生的两个正态分布中。我们根据最大似然值,把刚刚分入男生正态分布的N个人重新进行估计男生正态分布的参数,同时也对200―N个女生重新进行估计女生正态分布的参数。这样,两个分布的概率改变了,我们就要调整期望值,如此这样不停的反复迭代,直到参数基本不在发生变化为止。

3.2 大数据中最大期望算法推导

结合上面的例子,我们把每个人作为一样本,利用样本来完整的描述整体,我们把整体看做一个三元组Yi={xi,zi1,zi2}, xi是第i个样本的观测值,zi1和zi2是利用高斯分布,zij在由第j个高斯分布产生时值为1,否则为0,假如一个样本的观测值为1.8,来自男生的高斯分布,样本就可表示为{1.8,1,0},此时如果知道zi1和zi2的值,我们就可以知道任何一个样本是男生还是女生了。而在大数据中,我们虽然能标出具体样本是男生还是女生,但我们总想要有个最大的期望值,也就是要让我们找到的样本最接近、最适合。我们利用概率论的原理,一个随机变量的期望值就是变量的输出值乘以其概率的总和,通俗说期望值就是该变量输出值的平均数。期望值表示为:E[X]=。

3.3 最大似然估计值

最大似然估计值得思想是:已知某个参数能使这个样本出现的概率最大,在生活中,我们当然不会去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值,这其实也概率论在统计学中的典型应用,也是参数估计的方法之一。

4 基于大数据的最大期望算法应用案例

随着大数据的应用越来越广泛,我们每日都可以看到大数据的一些新颖的应用,这些新颖的应用帮助人们从中获取到真正有用的价值。许多组织或者个人都会受到大数据的剖析影响,但是大数据是怎样帮助人们挖掘出有价值的信息呢?下面就结合上面的大数据的最大期望算法,以大学生求职为例来进行阐述。我们设想某大学生甲在求职过程中得到了三个公司的面试通知,按面试时间的顺序,这三家公司分别记为A、B、C,假定每家公司有三种不同的职位:极好、好和一般,估计能得到这些职位的概率为0.2、0.3、0.4,被拒绝的可能性为0.1,按规定,双方在面试后要立即作出决定提供、接受或拒绝某种职位,三家公司的工资承诺如表1所示。

现在我们采取最大期望受益的原则。由于面试从A公司开始,甲在选择A公司三种职位时必须考虑后面B、C公司的待遇,同样在B公司面试时也必须考试C公司的待遇。因此从C公司开始讨论。即第三次面试工资的期望值为:=4000 *0.2+3000*0.3+2500*0.4=2700,而B公司一般职位工资只有2500元,低于C公司的期望工资,因此在面对B公司时只接受极好和好的职位,否则去C公司。而第二次面试的期望值可由以下数据求知:极好的职位工资3900元,好的职位工资2950元,接受第三次面试期望工资2700元。所以第二次面试工资期望值为 =3900*0.2+2950*0.3+2700*0.5=3015元。最后考虑A公司,A公司只有极好职位工资超过3015元,因此甲只接受A公司的极好职位。

这样,对于三次面试应采取的决策是:A公司只接受极好的职位,否则去B公司,在B公司可接受极好的和好的职位,否则去C公司,在C公司可接受任何可能提供的职位。在这一策略下甲工资总的期望值为3500*0.2+3015*0.8=3112元。因此在求职时收到多份面试通知时,应用期望受益最大的原则不仅可以提高就业机会,同时可提高工资的期望值。

5 结语

本文首先从大数据的定义入手,对大数据进行了简单的阐述,并对基于大数据的最大期望算法进行了研究,以大学生求职为具体实例,从数据挖掘的角度,利用数学知识来确定大学生求职的最大期望,从计算出来的最大似然估计值,来确定大学生找到自己最期望的工作。事实证明基于大数据的最大期望算法符合大数据数据处理的需要。

参考文献

[1]王修君.高效数据流和海量文本处理算法研究[D].中国科学技术大学,2011年.

[2]楼巍.面向大数据的高维数据挖掘技术研究[D].上海大学,2013年.

[3]王珊,王会举,覃雄派,周@.架构大数据:挑战、现状与展望[J].计算机学报,2011年10期.

大数据时代的定义范文4

双方合作旨在重新定义人们的工作方式。具体内容包括:面向零售、保健、银行、旅游等多个行业推出超过100个iOS应用,IBM将在Iphone和iPad中预装为各行业量身打造的解决方案,并将IBM的大数据分析能力带给iPhone手机和iPad平板电脑。双方的共同愿景是利用IBM的知识、数据、分析和工作流程来为商界专业人士提供独特的iPhone和iPad应用。

苹果首席执行官库克称:“iPhone和iPad是世界上最好的移动设备,这些产品已经改变了人们的工作方式。我们将有史以来第一次把IBM闻名于世的大数据分析能力交付给iOS用户,这将为苹果开辟庞大的企业市场。对于企业来说,这是一种根本性的变革,而只有苹果和IBM联手才能带来这种变革。”

IBM首席执行官罗睿兰称:“移动设备正在与大数据和云服务联手,以创造历史的方式对商业和各行各业进行改造。与苹果之间达成的这项合作将促进我们把创新带给全球客户,届时,用户可有效利用IBM在分析、云、软件和服务等领域的领先技术。与苹果的合作将改造人们的工作方式、行业的运作方式以及公司的运营方式。”

企业级市场就其体量而言,绝不比消费级市场小。如果从苹果的角度来看,其竞争对手包括谷歌、亚马逊、微软等,均以互联网、云计算、大数据为依托,在企业级市场收获颇丰。苹果虽有iPhone和iPad等硬件、移动互联和数据优势,但在企业级市场却弱于对手。如果从IBM的角度看,一方面由于先天性互联网基因缺失,在大数据时代陷入有技术、缺数据的困境;另一方面先前在PC时代曾经拥有的硬件终端优势也不复存在。这使得IBM陷入艰难的转型困局。

从两家企业当前的处境来看,这次联合确实有鲜明的互补性。苹果可以从IBM获得全球领先的大数据技术和涉及广泛领域的企业解决方案,这将使苹果有机会甩掉对手,一举占领企业级市场的制高点。IBM则能借助苹果在终端领域的绝对优势和苹果的互联网基因,获得大数据,从而在极高的起点上,基于云和大数据重新构造和定义企业级应用。这或许是IBM顺利完成其战略转型的最后机会。

排他性是两家公司这次合作极其关键的一点。按照双方的战略构想,将基于iPhone和iPad和云计算、大数据重新定义企业级应用。如果双方能实现其战略构想,那双方合作的排他性约束就表明,整个安卓阵营和传统的PC阵营都将被挡在“重新定义的企业级应用”之外。

库克称,笔记本电脑在企业中的数量仍然超过平板电脑,二者的比例大约为3:1,但在两家公司展开合作后,这种状况可能发生变化。可以想象,有朝一日,企业中将会人手一台平板电脑。

大数据时代的定义范文5

关键词:大数据时代 ;大数据 ;情报学;学科发展

中图分类号:G250 文献标识码: A 文章编号:1003-1588(2015)08-0002-03

作者简介:刘艳朵(1987―),南开大学商学院信息资源管理系硕士研究生。

大数据趋势产生的深层原因是海量数据的存在和越来越多的事物是以数据形式存在的。随着计算机技术全面融入社会生活,我们的工作、生活,甚至国家经济的发展都受到了大数据的影响,现在人们已经意识到了大数据的重要性。在大数据时代因素的推动下,情报学的理论研究、研究方法以及情报学技术等都将做出新的改变,趋势预测性情报的分量将继续加重,情报产生中的跨界合作将增强,但现在我们对大数据环境下情报学的发展研究还远远不够。

1 大数据的内涵及基本特征

1.1 大数据的内涵

按照维基百科的定义:大数据是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息集合。研究机构Gartner的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。

现在越来越多的领域开始关注和研究大数据,这是因为大数据涉及不同的学科领域,人们从不同的角度、不同的科学领域出发,对大数据的定义进行了诠释。到目前为止,大数据尚未形成统一明确的定义。笔者认为,大数据的“大”不单单是指数据的量很大,还指数据无时无刻不在急剧增长,数据的形式纷繁多样,另外,数据的覆盖面很广泛,数据之间交互频繁,数据之间相关关系复杂,这些都是大数据“大”的表现。

1.2 大数据的基本特征

业界有人将大数据的特征归纳为“4V”,即数据种类繁多(Variety),数据体量巨大(Volume),数据生成和处理速度快或理解为流动速度快(Velocity),至于第四个“V”,有人的理解是价值密度低或者理解为数据的价值日益突现(Value),也有人认为大数据具有真实性(Veracity)的特征。笔者更赞同的是Volume、Velocity、Variety、Value四个特征。虽然业界也有很多人赞同上述四个特征,但是对大数据特征含义的理解却不尽相同。笔者认为,大数据具有以下特征。

1.2.1 数据的体量巨大。据麦肯锡全球研究院(MGI)估计,2010年,企业的磁盘中存储了超过7EB字节的新数据;用户在个人PC机和笔记本等设备上的新数据存储量也超过了6EB字节。2011年全球的数据量达到18Z。体量巨大是大数据的首要特征。

1.2.2 数据生成速度快,并且数据实时变化迅速。在这个信息化的时代,数据时刻在产生,比如银行交易、淘宝购物、购买车票、打电话、检索资料等,这些行为都可以以数据的形式呈现,而且数据呈指数级增长。此外,数据是实时变化的,人们对数据的处理速度也提出了更高的要求。

1.2.3 数据种类的多样性。现在大数据涉及的领域非常广泛,数据的种类也趋于多样化,数据会以数据文本、数据库、图片、动画、音频、视频,甚至是以日志文件、网页、电子邮件等多种形式呈现在人们的面前。随着信息技术的不断发展,新的数据来源和数据形式也在不断地出现。

1.2.4 数据本身的价值密度低。大数据时代,各种数据的生产速度非常快,研究员要在冗余的信息中发现其价值并不容易。

2 大数据时代情报学发展所面临的机遇与挑战

2.1 大数据时代情报学发展所面临的机遇

2.1.1 为情报学研究提供丰富的数据资源支持。情报学中的很多研究方法都是建立在大量数据的基础之上,在这个网络化和信息化的时代,人们时时刻刻都在以各种各样的方式生产着不同类型的数据,如前文提到的图片、动画、音频、视频、日志文件、网页、电子邮件。大数据时代的到来为情报学的研究提供了丰富的数据资源。

2.1.2 完善情报学学科技术。大数据时代将继续催生很多新型的产业,基于大数据的数据信息收集、存储、处理、分析、挖掘技术都是这个时代的产物,例如云计算、移动互联网、物联网、文本挖掘、意见挖掘、中文分词和NLP自然语言处理、神经网络算法、网络分析SNA、数据可视化等。这些技术也为情报学的学科技术研究打下了基础,甚至很多技术都可以直接被用到情报学研究中,如云存储技术、云计算技术等,在大数据时代,这些计算机互联网技术都可以为情报学研究所用,它们很好地完善了情报学学科技术。

2.1.3 大数据将助力情报学新的研究范式和方法论。在大数据时代,人们所面临的数据不仅仅体量巨大、类型多样化,而且它们还在以惊人的速度生长并发生着实时的变化,这些都对情报学的研究方法提出了新的要求,因此对情报学研究方法而言,唯有创新才有出路。以前,人们通过研究获得准确的情报并供人们使用,而在大数据时代,情报学将在研究方法上做出改变:情报学的研究方法可以转向研究数据之间的相关性,并根据数据之间的相关性得出预测性情报,以供人们决策使用。

2.1.4 扩展情报学的学科研究和应用领域。大数据时代,在多种因素的影响下,情报学的研究内容和范围不断扩展。在这个信息化的时代,情报学的发展离不开信息技术和网络技术的支持,情报的获取、存储和处理都会涉及与其他学科的交叉合作。比如,在大数据时代,人们的隐私急需得到保护,因此,信息政策和法律法规必将是社会科学研究的一个重要方向,这也将是情报学与其他学科跨界合作的新领域。

2.2 大数据时代情报学发展所面临的挑战

2.2.1 价值密度低,获取有效信息难度加大。数据信息是情报学研究的重要基础,但在大数据时代,一方面数据的体量巨大,要想从中获取对所研究主题有用的数据信息不是一件易事;另一方面数据的种类多样,不仅包括部分结构化数据,还包括图片、音频、视频等多种形式的非结构化数据。此外,在大数据时代,数据信息是实时变化的,这些都加大了情报工作人员获取有效信息的难度,这是情报学发展中应该重视的一点。

2.2.2 情报学学科研究技术有待进一步开发。在这个信息技术高速发展的时代,情报学技术的发展形势不容乐观。由于情报学知识结构的限制,情报学很难培育自己的情报网络技术,情报学很多技术都是采用拿来主义,把其他领域的技术直接运用到自己的学科研究中,但是在大数据时代,为了保证大数据的价值,必须对数据进行快速有效的处理,而我们现有的情报采集、分析、挖掘、处理等技术已经不再适应现在巨量、多样化、实时变化的大数据环境。

2.2.3 情报学科呈现泛化发展趋势。随着社会的发展,情报学的发展环境也在发生着巨大的变化,情报学是一门综合性的学科,在情报学的发展过程中,会出现其研究内容与其他学科交叉的现象。一方面,这种现象使情报学可以从其他学科获取理论、技术等多方面的支持,在一定程度上促进情报学的学科发展;另一方面,在信息和网络技术高速发展的大数据时代,这种与其他学科的“跨界研究”将会使情报学的学科泛化趋势更加明显,从而会导致“过界研究”,处理好“跨界研究”和“过界研究”的关系,将成为文献信息工作者面临的一个重要任务。

2.2.4 数据信息的管理问题将是一大挑战。大数据时代,传统的数据管理方式不再适用,在数据来源、数据处理方式和数据思维等方面都会带来革命性的变化,如果在情报学研究中对数据信息管理不当,甚至可能带来情报安全危机,因此数据信息的管理问题也将是对情报学的一大挑战,相应的情报道德规范、情报政策、信息法律法规等是必要的。此外,反竞争情报的研究分量也将加重。

3 大数据环境下情报学的发展展望

情报学这一学科的发展离不开情报学的相关理论、应用、技术及情报学管理这几方面的内容,情报学学科体系主要包括理论情报学、应用情报学、技术情报学、管理情报学四个方面,下面笔者将从情报学学科体系角度对大数据环境下情报学的发展进行探讨。

3.1 理论情报学的发展

3.1.1 就情报学内涵而言,在大数据环境下,情报学的内涵将更加丰富。一个学科在发展过程中往往会受到不同的环境、技术等因素的影响,在大数据时代,数据信息类型呈现出多样化的特征,情报学的研究对象也相应地从单一的、结构化的文献信息转向了复杂多样的非结构化的数据,因此,大数据将在一定程度上丰富情报学的内涵。

3.1.2 就情报学方法论而言,情报学的学科方法可以充分发挥大数据的优势,发现和利用数据信息的相关关系。在大数据时代,数据信息体量巨大,并且很多数据都是以碎片化的形式存在,情报学可以通过利用数据之间的相关关系拓展出新的情报学研究方法。以情报学研究方法中的文献计量学方法为例,很多学者利用这个方法对某个数据库中某一学科领域的文章发表情况或者文章内容进行统计分析研究,假设我们把某个数据扩大到某一学科领域相关的所有数据,或许我们会有新的发现。

3.1.3 情报学学科理论研究泛化。情报学是一门综合性的学科,在情报学的发展研究中,很多内容会涉及计算机和网络技术,甚至社会化媒体对情报学的发展都有很大的影响,在这种情况下,企业情报学、经济情报学、军事情报学、情报行为学等这样的情报学分支和交叉学科应运而生,这都是情报学学科泛化的表现,大数据将带来新的研究领域、技术和方法,情报学学科理论研究也将继续呈现泛化趋势。

3.2 应用情报学的发展

3.2.1 情报分析预测与情报甄别的分量加重。预测是大数据的核心,在大数据的环境下,情报学可以充分利用大数据带来的新技术。一方面,大数据时代的数据价值密度低,信息冗余量大,这对情报学的情报甄别是巨大的挑战;另一方面,可以从多角度发现并挖掘数据之间的线性关系和非线性相关关系,并在此基础上进行情报分析预测,为研究和决策服务。

3.2.2 重视情报用户的需求,向咨询业进军。情报是可以直接使用或者直接用于决策的,情报应用中更应该以用户为中心,情报用户的需求不是简单的信息收集汇总或是信息堆砌,而是经过深层次的加工处理,直接为用户提供可供用户做决策使用的成熟的、智能的知识,情报学应该向咨询业进军。

3.3 技术情报学的发展

3.3.1 大数据时代的数据信息数据量大。大数据时代的数据信息数据量巨大、来源广泛、种类繁多、实时变化,并表现出碎片化的特征,这给情报的存储和采集技术提出了要求,情报的存储技术将在容量大的前提下,增加存储数据的类型,开发新型的数据采集技术、数据挖掘技术及多媒体检索技术。

3.3.2 大数据环境下更注重数据之间的相关关系。情报学在这方面的研究技术还相当薄弱,研究大数据之间相关关系的数据模型和情报分析技术有待开发。

3.4 管理情报学的发展

3.4.1 大数据时代个人隐私有被二次利用的危险。在经济利益的诱惑下,情报学研究也会涉及个人隐私,为了规范情报的管理,情报学学科发展中有必要从情报伦理和情报政策与法规两个方面规范情报的管理与研究。情报道德规范、情报职业规范、情报素养以及相关的情报政策、信息法律法规都将得到人们的重视,并相继出台或完善。

3.4.2 情报学的发展离不开人才支持。情报学是一门综合性的学科,从目前形势来看,情报学相对比较缺乏技术上的人才。在大数据环境下,情报学一定要抓住契机,注重人才在学科发展中的作用。

4 结语

大数据将广泛影响到我们的生活,它将重塑我们的生活、工作以及思维方式,目前,大数据分析思想已经推广到了多个学科领域,大数据也为情报学的发展开辟了一条崭新的道路。虽然大数据与其他新技术一样,必然要经历技术成熟度曲线,但是情报学的发展不能过度依赖大数据,成为大数据的奴隶,而是应该让大数据为情报学发展所用。总之,我们应该勇于面对、勇于创新,迎接大数据带来的挑战。

参考文献:

[1] 陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报:增刊,2013:142-146.

[2] 朱东华,张嶷,汪雪锋,等.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013(4):172-180.

[3] 黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(6):9-14.

[4] 宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报:社会科学版,2013(5):38-43.

[5] 彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013(1):6-10.

[6] 何非,何克清.大数据及其科学问题与方法的探讨[J].武汉大学学报:理论版,2014(1):3-12.

[7] 沈浩,黄晓兰.大数据助力社会科学研究:挑战与创新[J].现代传播,2013(8):13-18.

[8] 夏蓓丽.“‘2008’网络环境下的情报学发展研讨会”综述[J].社会科学,2008(12):180-181.

[9] 江俞蓉,张天明.大数据时代情报学面临的挑战和机遇[J].现代情报,2013(8):58-60.

[10] 王知津,李赞梅,周鹏.二十年以来我国情报学学科体系研究进展[J].图书馆,2012(1):50-54.

大数据时代的定义范文6

赖能和是中国石油集团东方地球物理勘探有限责任公司(简称东方地球物理公司)研究院数据处理中心总工程师,他所在的公司主要从事国内外陆地、海上地震勘探及综合物化探采集、处理、解释,以及与地球物理(化学)勘探有关的技术及装备研发、产品研制、技术引进与产品销售等业务。目前,东方地球物理公司在陆上地震勘探市场份额位居全球第一。

东方地球物理公司还拥有亚洲最大的地震资料处理中心。在北京、新疆库尔勒、乌鲁木齐、甘肃敦煌、西安、唐山、任丘、大港设有处理分部,在伊朗、巴基斯坦、尼日利亚、苏丹、休斯顿建有处理分中心。

赖能和介绍说,当前石油勘探已进入高密度采集、大数据的时代,需要大规模的计算机处理海量数据。由于近年业务规模发展迅猛,赖能和每年均需要购置大量的存储空间以存放地震解释处理数据。目前,东方地球物理公司处理中心存量在线数据超过10PB。由于原始数据量大、计算密集,运算过程又产生更多“中间数据”,因此需要高吞吐、高可靠、高扩展能力的海量并行存储系统。

此外,之前东方地球物理公司处理中心部署了高性能计算HPC集群系统。为提高HPC计算集群系统的CPU利用率,应用部门加大了应用作业密度,因此在作业处理高峰时段,出现了数据读写较为缓慢、处理系统效率降低的现象。

赖能和告诉记者,东方地球物理公司采用了IBM软件定义的闪存基础架构解决方案,利用弹性存储,将3.5TB元数据直接存放到高性能的闪存IBM FlashSystem 810上,其余的数据存放到DS3700存储系统中。通过把元数据放到闪存中进行处理,明显提升了系统的交互性能,监测作业进度的应用响应时间甚至缩短了14000倍左右。显著的性能提升,使东方地球物理公司在以更高的吞吐处理海量数据的同时,还明显提高了对作业的查询及监控效率。

闪存技术在大数据时代焕发了新的生命力。闪存技术虽然早已经存在,但由于软件技术及性价比的原因,其应用一直存在争议。近年来,随着闪存价格的下降以及软件定义存储的出现,越来越多的企业开始考虑采用闪存代替磁盘,或部分取代。特别在是大数据处理的情况下,由于大量和频繁的数据调用,闪存比磁盘提供了更快的速度和更高的处理效率,甚至可以做到实时处理。

除了实时海量数据处理外,相对于磁盘存储,闪存还有许多先天的优势。闪存没有机械部件,可以成倍地传送数据。由于节约了机架磁盘,数据中心可心节省更多的空间用于CPU数据处理。由于闪存不像磁盘那样转动,不会产生摩擦,所以产生的热量也少了很多,更为节能。

其实,闪存技术除了在存储领域得到发展外,早已经在数据库领域也取得了广泛的认可。多家厂商推出内存数据库,摒弃硬盘而采用内存,打造实时数据处理平台,成倍提升了海量数据处理的效率。