前言:寻找写作灵感?中文期刊网用心挑选的大数据图书馆管理论文,希望能为您的阅读和创作带来灵感,欢迎大家阅读并分享。
一、大数据的基本特征
(一)类型繁多(Variety)
数据通常被分为结构化数据、半结构化数据和非结构化数据。相对于传统的以文本为主的结构化数据,网络日志、音频、视频、图片、地理位置信息等半结构化、非结构化数据越来越多。同时,近几年出现的微博、微信等可通过移动互联设备使用的电子交往形式使数据量和数据种类更加复杂化。
(二)价值不高(Value)
价值密度的高低与数据总量的大小成反比。以社会中常见的监控录像为例,一天的监控记录,有用数据可能仅有一二秒。如何将已有的结构化数据、半结构化数据及非结构化数据进行整合、分析,挖掘出更多有价值的信息,并通过强大的计算能力迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(三)要求高速处理(Velocity)
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是生命。
二、图书馆大数据的主要来源分析
根据大数据的基本特征,经笔者分析,图书馆知识服务领域的未来大数据的来源主要有RFID射频数据、传感器数据、社交网络和移动互联数据等几个方面。随着图书馆数字技术的不断提高,RFID将不断推广,这将是未来图书馆大数据的主要来源之一;由图书馆中的传感器感知生成的数据,长时间积累后也将产生巨大的数据量;社交网络已广泛应用于社会各个方面,逐步成为人们交往的主要形式,其所产生的数据量远超以往任何一个信息传播媒介,由其生成的数据量是不可估量的;移动互联网及移动互联技术的不断完善,使得图书馆可以灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策。
三、大数据对图书馆管理的影响和挑战
(一)海量数据处理考验图书馆计算能力
大数据时代背景下,各类数据量迅速增长,数据产生的方式、范围发生前所未有的变化,人们在社会中的各类行为都产生了大量的信息数据,信息数据的组成结构、格式类型、存在形态等都更加复杂。图书馆要对上述复杂的数据进行应用、存储,将具有很强的挑战性,不仅仅涉及云计算、大数量级数据存储等技术问题,还可能促发图书馆服务模式、资源建设模式、管理模式与发展模式的转变。
(二)数据分析方式转变带来的挑战
随着图书馆信息化程度的提高,以互联网信息搜索、查询为基础的知识服务逐渐被更多的图书馆所采用。但不管是简单的信息服务,还是结合了信息检索、组织、分析等高级业务服务,都可归纳为就数据而进行的服务。大数据时代背景下要求图书馆不仅需要通过结构化数据了解客户需求,也需要大量的非结构化数据、半结构化数据去挖掘、预测和分析当前和未来的用户需求,社会大众的需求也将随着不断变化的个性化的高满意度服务出现而对图书馆的服务呈现出明确和迫切的需求。满足用户的需求,提供复杂数据的处理也将成为大数据时代图书馆的发展方向,如何处理好数据分析,将直接影响图书馆的生存与发展。
(三)大数据对图书馆基础设施提出更高的要求
半结构化及非结构化数据的迅速增加,导致数据存储、计算规模越来越大,其成本急剧上升。很多知识服务机构出于成本的考虑将应用由高端服务器转向中低端硬件构成的大规模计算机集群,从而对支持非结构化数据存储及分析的基础设施提出了很高的要求。
四、大数据时代图书馆管理发展方向
(一)探索利用数据分析技术与工具
对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务显得必不可少。图书馆开展的大数据分析服务业务,主要可以有以下几种:首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据为对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘;其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键。麦肯锡的《大数据:创新、竞争和生产力的下一个前沿领域》报告中首次提出了“大数据”的概念,对大数据的分析技术与工具进行了列举,如目前已为广大图书情报研究者所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等,特别是聚类分析、可视化分析与数据挖掘技术。但这些现有的研究目前仅仅只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量负责数据的存在与表现形态,更不能通过这些分析去预测未来的可能发展趋势。当然,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息,如苏玉照等人就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。
(二)重视基础设施建设
大数据时代,图书馆的核心竞争力不再仅是文献数据信息的竞争,各类形式的海量数据以及对海量数据的分析、挖掘才是今后图书馆之间竞争的核心因素。因此,要跟上大数据的脚步,必须完善信息收集的基础设施建设,加强各类信息资源的收集将成为图书馆资源建设的大方向。图书馆首先要明白“数据即生命”,解决数据存储问题。大数据时代对于图书馆的数据存储量要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典商业案例。这样的经典案例是通过对海量的多类型数据收集和分析得到的。因此,图书馆要掌握读者用户、馆员乃至社会服务群体等的信息,既要有当前通用的数据记录中的个人身份、借阅记录等结构化数据,还要有存储信息行为、搜索方式、行为痕迹等非传统数据,这些都需要通过基础设施的建设来支持。除此之外,图书馆还必须解决数据计算和数据分析问题。要积极利用“云计算”技术,搭建图书馆的云计算平台,解决图书馆自身海量数据的存储及运算能力与大数据对存储能力的高要求之间的矛盾。
(三)提高图书馆服务的智能化程度
大数据背景下的图书馆服务的智能化程度也将达到一个新的高度。图书馆应用智能化技术进行自动的高级、复杂的数据收集及处理工作,既能在一定程度上节省大量的人力物力,也能解决人工可能无法实现的工作需求,如对海量信息数据的智能抓取、关键词抽取等,使得节省下来的大量人力去研究图书馆建设的策略与更进一步的智能化投入。其次,从读者来看,服务内容、手段的智能化程度提高与智能化技术、工具、平台的服务实践,所需的图片、视频、文本等信息将能轻易获取,个体的信息如社交信息、生活数据等大量的非结构、半结构化数据也都能为图书馆的智能化决策提供分析参考。再次,从智能化服务中的知识流通来看,图书馆服务智能化程度的提高不但有利于知识从单个主体拥有向多个主体拥有的流通与传播,更利于隐性知识向显性知识的转变,也有利于知识的发现、挖掘与组织。
作者:杨春玲 单位:商丘医学高等专科学校