前言:中文期刊网精心挑选了数据理论论文范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据理论论文范文1
通过研究传统的关系数据库得知,以往的数据管理过程存在一定的局限性,往往受制于较弱的扩展性方面。相对而言,云数据管理系统中的技术形态较为高级,因其已经具备了利用云计算平台来处理海量数据以及数据信息检索的能力。从技术应用的角度来看,云数据管理系统的运作模式较以往有了较大的改进,不仅有效降低了维护系统的资金与人力的成本,而且,能够凭借较为先进的技术来增强系统本身的可扩展行以及容错能力,正是由于云数据管理系统的职能作用较为突显,该系统备受大型网站运营管理的青睐,其应用极为广泛[4]。事实上,云计算是一种基于互联网平台的多元化管理模式,为诸多领域提供信息传递、储存等服务。在当今大数据时代背景下,云计算服务项目得到了更为广阔的发展空间,为现代社会生产建设助力,云数据管理系统中的技术形态,云计算服务的实践价值较为突出,在诸多领域都有所涉及。
2阐述有关云数据管理系统中的查询技术研究内容
2.1有关云数据查询处理的目标及其运作特征的研究内容
由于信息时代的到来,大多数人们在生活和工作中都离不开各类电子产品的应用。从现实环境来看,在资源的利用与存储方面,云数据中心及其服务能够满足互联网平台上的用户服务需求。从具体的实践领域来看,现代企业或其它社会组织机构通过各种途径来获取大量的数据信息资源,并利用这些所能查询得到的信息资源来强化系统管理。在信息技术快速发展的当今社会,在很多领域所构建的数据库的规模以及范围都在不断地扩容,但即便是相关技术在不断更新当中,却也无法运用传统技术来满足极快速增长的数据信息量,这便是大型数据集过程的特点所致。从具体来看,云数据查询处理技术具有可扩展行、可用性等目标特点,而且,查询处理技术在异构环境中的运行能力较强,具有较为丰富灵活的用户接口,以便于满足用户的差别化数据查询以及存储的需求。
2.2云数据管理系统中的查询技术的种类及其操作模式
在以往,大多数人会利用移动硬盘、U盘等设备来进行数据存储,将海量数据进行归档处理,但在有了云数据管理系统以后,便可以凭借云计算及其相关技术来实现数据的储存及查询调用等目标。通过研究云数据管理系统中关键技术的特征及系统的基本框架可知,云数据信息在接受到用户指令进行数据查询的过程中,需要通过诸多关键技术的集合作用来解决实际问题,尤其是需要索引管理、查询处理及优化的过程来辅以操作,才能达到精准查询云数据的目标。从总体情况来看,技术的应用不仅要考虑其可行性和有效性,还要考虑技术应用的经济性,如若技术应用的成本过高,则要考虑该方案的优化管理。对于商用海量数据存储要求来讲,信息记录及存储要进行合理的规划,以便于提升调用系统数据的效率。通常情况下,云数据管理系统中的查询技术主要有两种常见的模式,即BigTable技术与Dynamo技术。二者各具优势,前者BigTable技术;后者Dynamo技术采用了DHT(内网用分布式哈希表)作为技术的基本存储架构,其优势在于它的自我管理能力较强,从而避免了很多数据处理过程中可能发生的单点故障[5]。
3结束语
数据理论论文范文2
HLR用户数据查询流程如图1所示。图1HLR用户数据查询流程(1)用户数据管理子系统的DPUPGW(1)用户数据管理子系统的DPUPGW发送查询指令至DSG,DSG(DataServiceGateway)根据DCI(DSCallInterface)消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU(DataRoutingUnit)节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据查询,根据负载均衡算法把消息发送到DSUCluster中的一个节点。(3)DSU(DataServiceUnit)节点查询本节点数据并组装响应消息,发送响应消息给DRU节点。(4)DRU节点返回操作结果给DSG。
2、HLR用户数据修改流程
HLR用户数据修改流程如图2所示。(1)DSG根据DCI消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据修改,把消息发送到DSUCluster中的Master节点。(3)DSUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(4)DSUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(5)DSUMaster节点发送响应消息给DRU节点。(6)DRU返回操作结果给DSG。
3、HLR用户数据开户流程
HLR用户数据开户流程如图3所示。(1)DSG根据DCI消息中的路由键信息选择对应的DRUCluster,再根据负载均衡选择一个DRU节点,然后发送DCI消息给该节点。(2)DRU节点根据DCI消息中的路由键信息查找对应的DSUCluster,分析后得出消息的操作类型为数据开户,把消息发送到DSUCluster中的Master节点。(3)DSUMaster节点发送路由更新消息给DRUMaster节点。(4)DRUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(5)DRUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(6)DRU返回操作结果给DSUMaster节点。(7)DSUMaster节点修改本节点数据成功后,发送复制消息给同一个Cluster中Slave节点,并等待其响应消息。(8)DSUSlave节点收到复制消息,修改本节点数据成功后,发送响应消息给Master节点。(9)DSUMaster节点发送响应消息给DRU节点。(10)DRU返回操作结果给DSG。
4、结束语
数据理论论文范文3
信号调理电路根据功能分为输入保护电路、抗混叠低通滤波电路、衰减电路、增益电路和电压抬升电路。(1)输入电压幅值最高在24V,为防止输入电压超出可测范围,在输入端采用两个24V的稳压管支路进行电压钳位保护,并且分别在两个支路串联不同颜色的发光二极管以显示正反向超压。(2)为了消除高频噪声信号和被测信号中的高频成分对信号采集的混叠效应,设计了二阶低通抗混叠滤波电路。为保证较好的抗混叠效果和测量带宽,设定滤波器的截止频率为300kHz。滤波电路形式固定如图2所示,其频域传递函数为。由式可得滤波器的截止频率fp≈0.64f0,fp=300kHz,得RC=3.4×10-7s。通过multisim仿真比较确定参数值。抗混叠低通滤波电路如图2所示。(3)LM3S9B96的ADC的输入电压范围是0V~3V,要实现采集0V~±24V的输入信号需要对信号进行衰减处理,衰减网络采用兆欧级精密电阻组成,其中固定电阻设定为1MΩ。这里选择8,4,2,1四级衰减,后期处理的数据可以通过移位操作进行数据还原。电路实现选用OMRON公司G5V-1小信号继电器作为开关控制,根据上位机传输的命令来选择合适的电阻支路。具体的数值对应关系如表1所示。(4)为满足采集小信号的需求,采用TI公司的增益可编程仪表放大器PGA205。PGA205具有四级数控增益,数控端直接连接到微控制器的I/O引脚[5]。输入幅值、放大倍数和数控端的对应关系同上述衰减电路类似,这里不列表赘述。增益电路如图3所示,PC4、PC5为数控端。(5)信号经过衰减和放大电路的调理后电压范围为0V~±3V电压信号将信号调理至0V~6V范围,再经过比例运算电路做1/2分压处理。运放选择TL052,是由TI公司生产的低失调加强型的JFET运算放大器,相对于TL07和TL08系列具有更快的转换速度。
2电源供电系统
本文中需要三级电源供电:3.3V,5V,±10V。5V电压通过SPX1117-3.3V稳压芯片转变为3.3V为系统供电,±10V要是给可编程放大器PGA205和运放TL052供电,该电压需要5V电压经过Boost升压电路得到,设计选用TPS61040开关电源芯片,其为低功耗的DC/DCBoost转换芯片,内部集成开关管,开关频率可达1MHz,输出电压纹波低[6]。双电源供电电路如图4所示。
3系统软件设计
本文软件设计任务主要是LM3S9B96芯片的初始化和内部各模块之间的逻辑控制,包括根据上位机的指令来设定调理电路。数据采集系统总的软件任务框图如图5所示。信号调理任务负责根据上位机发出的指令完成调理电路的设定;采样任务实现对模拟信号的采集;数据转移存储任务负责将数据从ADC转移到内存,再转移到USB缓存。数据转移任务利用DMA来实现,DMA的工作模式分为基本模式、乒乓模式和外设散聚模式,为了ADC采集不丢失数据,本文采用了乒乓模式,在程序设计时创建主数据结构体和副数据结构体交替接收数据,高效的完成数据转移任务;数据传输任务负责将数据从微控制器通过USB总线传输到上位机。USB总线标准是在1994年由英特尔、康柏、IBM、Microsoft等多家公司联合提出,包含了四种基本数据传输类型:控制传输、批量传输、中断传输和等时传输,本文需要向上位机传输大量数据,选择批量传输模式(BULK)传输数据[7]。基于LM3S系列芯片,TI公司提供了多层次十分丰富灵活的USB驱动库,简化软件的实现。
4上位机软件设计
NIVISA(VirtualInstrumentSoftwareArchitecture)是NI公司开发的一种用来与各种仪器总线进行通信的高级应用编程接口,VISA总线I/O软件是一个综合软件包,不受平台、总线和环境的限制。VISA是NI公司随LabVIEW配套提供的,从3.0版本开始支持USB通讯,根据是否符合USB测试和测量协议,VISA分为两种VISA类函数,可以控制两类USB设备:USBINSTR设备和USBRAW设备。这里使用USBRAW设备。利用VISA驱动程序开发向导产生INF文件用来通知Window系统将NI-VISA用作USB设备的默认驱动,完成之后才可以正常和下位机通讯。USBRAW类设备的读写时序为(1)ViOpen打开VISA设备;(2)ViProperty设定VISA设备的属性节点参数(指令端点和传输方式);(3)ViRead读写USBRAW(发送命令和设定字数);(4)ViClose关闭VISA(释放VISA设备所占资源)。上位机程序总体分为指令接受程序,数据接受程序、数据处理程序和波形显示程序。数据处理程序框图如图6所示。
5系统测试与结果
为了测试系统的可靠性,本文使用数字合成信号发生器DF1405模拟传感器输出信号作为数据采集系统的测试信号。经测试,设计系统完整实现了设计要求。5V10kHz正弦波测试结果如图7所示,通过点击Save控件可以完成数据的存储。
6结束语
数据理论论文范文4
图1,通道保护器可防止传感电路受瞬态电压冲击。
图2,通道保护器将瞬态过压箝位在安全电平内。
当出现某种故障时,通道保护器输入端电压就会超过一个由电源电压减去MOSFET阈值电压设定的电压。如果发生正过压,则这一电压是VDD-VTN,其中VTN是NMOSFET的阈值电压(典型值为1.5V)。如果发生负过压,则这一电压是VSS-VTP,其中VTP是PMOSFET的阈值电压(典型值为-2V)。当通道保护器的输入超过上述两个设定电压中任何一个时,保护器都能将输出箝位在这两个电压值以内。NMOSFET和PMOSFET都具有双向故障保护和过压保护功能,所以它们的输入和输出端可以交换使用。图3显示出了正过压情况下的设定电压和MOSFET状态。
图3,在出现正过压时,设定电压和MOSFET的状态如图中所示。
图4,在出现故障条件时,输出负载将电流限制在VCLAMP/RL以下。
图5,在本电路中,ADG466通道保护器保护测量仪表放大器的敏感输入端,防止发生传感器故障。
数据理论论文范文5
随着天文数据的日益增加,存储和管理天文数据变得非常重要,尤其在天文数据的归档和管理方面,占有举足轻重的地位。能够很好地管理海量的天文数据就相当于在后续的科学研究中成功了一大半。通过对天文数据管理方面知识的了解,经过一系列的研究与开发,最终开发了一个高效的天文数据自动入库管理工具AutoDB,旨在帮助天文学家提高工作效率,促进天文学研究的进展。
1.1AutoDB的设计思路与方法
在之前的裴彤等人的设计中,已经实现了天文数据的自动入库,该工具采用Python[11]语言编写,并且能够自动地添加pcode字段,建立HTM(HierarchicalTriangularMesh)[11]索引分区,便于以后的交叉认证工作。HTM是一种多层次的、递归的球面分割方法,可将天球分成多级的三角网络,每个网络都有一个pocde,利用HTM可以将一个大星表从逻辑上分割为多个小星表[11],HTM分级算法采用C语言编写,充分地利用了C语言的高性能和Python语言的高开发效率。然而该程序仅支持底层数据库为MySQL,且只支持CSV格式的文件,且文件中的数据不能为空,若为空则会抛出错误,在使用方面具有一定的局限性。其HTM分区是对ra和dec进行计算产生pcode值来实现天空分区,同时使用pcode_htmN数据列来存储这些值,然后对其进行btree索引,方便后续的高效查询。首先,其计算的算法必须跟随着后续数据的复杂性进行优化,其次,先计算在存储势必有I/0性能限制,最后使用btree一维索引间接性的对赤经ra和赤纬dec索引,无法利用天文数据的空间性,且若想实现一定半径内的查询需要非常复杂的SQL语句。为了解决这些问题,我们仔细地阅读了裴彤等人的论文和程序代码[12],在深入分析其原理的基础上,对自动入库管理工具进行了更加全面的完善和改进:(I)底层数据库同时支持MySQL和PostgreSQL;(II)针对PostgreSQL数据库,使用一种新类型Q3C索引,其直接与数据库进行交互,无其他I/0交互,直接对赤经ra和赤纬dec进行空间索引,并且提供简单的SQL语句来实现复杂的查询;(III)数据格式同时支持FITS格式和CSV格式;(IV)数据优化,若其中存在为空的数据项,数据项自动变为’9999’或者’NULL’,则入库时不会抛出错误。下面分别展开阐述。一、底层数据库架构工具的底层数据库是基于MySQL和PostgreSQL两种数据库开发的。这两种都是非常好的开源数据库,对于选择哪种数据库更好取决于哪种数据库更能满足用户的需求。之前采用的是MySQL数据库,然而由于数据量的增加,数据表格越来越庞大,一个表格甚至达到了几十亿行,对于表本身的容量远远地超过了物理内存的大小,甚至出现了连建索引也不能改善性能的情况,这样查询时间会将大大地延长,在此情况下非常有必要对数据进行分表管理,即将表拆分为一系列较小的、与之相关联的表来进行替代,通过对子表的数据查询,就相当于对整个表进行了查询操作。对基于MySQL数据库分表来说,取决于数据引擎(InnoDB),不支持哈希分区表,而PostgreSQL数据库支持临时表、常规表以及范围和列表类型的分区表。而且PostgreSQL的表分区是通过表继承和规则系统完成的,所以可以实现更复杂的分区方式。且在索引方面,PostgreSQL支持B-树、哈希、R-树和Gist索引,MySQL取决于数据引擎,大多数为B-Tree索引。由于天文数据具有空间属性,位置坐标为(赤经ra,赤纬dec),其索引会是一个二维的。建立一个高效的索引非常重要,使用第三方扩展库如Q3C索引即是采用的二维索引,又如使用PGSphere中的GIST索引,会使数据的查询更加高效。所以在当数据量非常大的时候,或者需要使用到第三方库时,对于空间点索引时,采用Postgresql比采用MySQL要方便得多。但若数据量不是很大,对于亿行级以下的数据量,不需要采用第三方库去支持创建索引的数据,则是采用MySQL比较好。同时MySQL的性能方面要比PostgreSQL较为高效。面对种种数据管理的需求,我们增加PostgreSQL作为该入库工具的底层数据库是必要的,天文工作者可以根据自己的需求存储到不同的数据库中。二、Q3C索引庞大的数据储存在数据库中,若想能够准确高效的使用这些数据,必须对其数据创建索引,索引不仅能够加快数据的查询速度,而且会使数据的管理变得简单容易,可以大副提高系统的性能。当然索引的创建也不是越多越好,因为索引过多会随着数据量的增加而加大数据库的负荷,就起不到提高系统的性能的作用,反而会降低性能,所以索引的使用要准确得当。在本系统中,由于我们是对天文数据进行入库管理,天文数据的复杂性、空间性决定了普通的一维索引并不能很好地解决天文数据的查询管理要求,所以我们是用了一个全新Q3C(QuadTreeCube)对天空分区索引,其能够很好地对天文数据进行二维的空间索引,Q3C索引方案为开源项目运用于数据库PostgreSQL中,大家在使用的同时也可以随时进行修改,非常适用于学术研究,由于直接运用于数据库,使用者不需要书写任何算法,相比于HTM,首先需要对天文数据进行分区计算pcode值,然而分区计算算法需要由使用者编写,这样会无形地增加风险,同时也带来了复杂化。Q3C的产生是专门针对天文数据的,其目的性非常明确。虽然普通的索引如btree也能够用于天文数据,但是如果需要进行锥形查询,在不使用Q3C索引的前提下,其查询SQL语句会非常复杂,并且查询速度非常慢,而且也只能运用于数据量较少的情况下,数据过多极有可能导致内存不足而出现程序卡死现象,然而上面的问题对于Q3C索引来说都不存在,所以这种基于四叉树的空间索引Q3C就显得非常实用了。Q3C索引不仅能够提供天文数据特有的查询,而且也提供交叉认证功能,这对以后的数据处理来说,很大程度地简化了工作量,同时又容易使用,而且不论是在查询方面,还是交叉认证方面,Q3C会提供的简单的SQL语句就能够执行处理工作,而HTM方面则需要从数据库中提取数据,然后利用算法进行处理,当数据量非常大的时候,程序的性能就会受到影响。三、支持的数据文件格式入库管理工具同时支持两种类型的数据格式文件:CSV(Comma-SeparatedValues)格式文件和FITS(FlexibleImageTransportSystem)格式文件。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。FITS格式是天文学界常用的数据格式,它专门为在不同平台之间交换数据而设计。1988年的国际天文学联合会IAU(InternationalAstronomicalUnion)大会指定IAU的FITS工作组全权负责此格式的修订。FITS文件由文件头和数据组成。在文件头中存储有对该文件的描述,如观测目标、源的位置、观测时间、曝光时间等信息,同时也可以在文件头中注明观测时的视场、精度等,便于后期的数据管理和分析之用。文件头部分每行占80个字符,并以END结尾。FITS文件的容量大小通常比相同数据量的CSV文件小,在本地存储中占用硬盘容量小,且天文数据文件采用FITS格式存储的文件占大多数。针对FITS格式文件数据,我们开发了一个分析FITS文件头文件的工具,用来得到头文件中表格数据中的列名和每个列对应的数据格式,方便天文学家在使用入库工具时编写readme文件。在输入不同格式文件时,工具会自动地判断文件的格式选择相应的程序实现自动入库。四、存储数据的优化庞大的天文数据中有时难免会存在的超过数据库中最大数据存储大小的数据或者小于数据库中支持的最小数据,不过在数据库中可以自己定义数据类型来支持导入的数据,但这样便失去兼容性了,使得不同数据库之间数据的交换和融合变得很困难,而且在对于文件中的数据项为空的时候,存储到数据库中会产生一些错误,所以在入库之前很有必要先对数据进行优化。因为不符合要求的数据非常少,而且改变其大小不会影响到后续的数据分析环节,故在入库前,在程序中把超出数据库最大支持数据的记录数和小于数据库最小支持数据的记录数更改为数据库所支持最大和最小的数据记录数,同时对于文件中为空的数据项,程序会根据数据类型的不同,自动的填充‘9999’或‘NULL’字样,方便数据的录入和后续的计算分析。
1.2AutoDB流程图
在存储FITS格式文件的数据时,我们还专门开发了一个分析FITS文件头文件的小工具,方便天文学家存储时选择自己想要存储的数据列。在使用过程中,天文学家也不需要编写任何的代码,同时该工具有很好的易用性。根据不同的格式文件,有着不同的入库流程,下面给出了文本CSV文件和FITS文件的入库流程,如图1所示。
1.3AutoDB系统环境支持
AutoDB采用Python语言编写,推荐使用Linux操作系统。由于Python是跨平台型语言,若需要在WINDOWS系统中使用也非难事,需要安装Python,一般的Linux发行版本都会自带Python程序,同时也需要下列数据库系统(异地或本地均可)和第三方库作为支持:1)PostgreSQL(9.0+):支持最新的SQL语法,更高的功能完整性。2)MySQL(5.1+):性能非常的高效。3)Q3C(QuadTreeCube):一种基于PostgreSQL数据库的新的天文数据的索引概念,提供海量天文数据的查询与融合。该工具中同时嵌入了一个很好的虚拟终端,用户可以根据虚拟终端的反馈,了解自己在使用过程中出现了哪些错误,从而纠正错误,使得程序完美地运行。
1.4AutoDB图形用户界面
AutoDB图形入库界面如2所示,用户可以选择入哪种数据库,入库的数据文件及数据的说明文件,创建HTM的级数,每次分次上传的记录数,赤经赤纬列要指出等。在这里,用户可以直接点击程序运行图形界面,也可以手动地在命令行中使用命令来运行图形界面,其图形界面和主程序是分开的,其协助用户按照各个参数,并收集起来,按照一定的规范得到收集的参数,供主程序使用。也就是说主程序不依赖于图形界面,用户也可以手动地编辑被指定的文件来运行主程序。FITS头文件分析工具会把FITS头中的数据输出到文件中,该文件名由用户定义,在FITSSOURCEFILE对应的一行中浏览添加FITS源文件,然后在FITSHEADFILE一行中输入想要创建FITS头文件名,界面如下图3所示。在使用入库工具时,用户需要编写readme文件供程序使用,其格式如下:第一行为各列列名(即数据库表中的列名字段,请参照MySQL/PostgreSQL对字段命名相关文档),以一个或者多个空行分隔;第二行与第一行相对应,为每列的数据类型(如:float、char、varchar、double、int,具体请参照MySQL/PostgreSQL数据类型相关文档[13]),同样是以一个或者多个空行分隔,内容中不能有引号,字段不能为空或NULL。同时在对FITS文件进行入库时,需要参照头分析工具得出的头文件以及格式转换文件编写readme文件。头文分析工具得到的头文件实例如图4所示,格式转换文件如图5所示。编写readme文件完毕后,即可使用自动入库工具进行数据的录入,数据库可以自己选择,数据库服务器可以是本地服务器或远程服务器。使用远程服务器时,应该保证远程服务器支持远程连接,否则将会报错。
2实验结果
2.1Q3C索引与非Q3C索引的查询性能比较
在使用索引的时候,我们最在意的是索引是否能够提高查询效率,对于具体选择哪种索引方式,要看哪种索引提高的性能更高些。为此我们做了如下的实验测试(在数据库命令行的形式下使用SQL语句进行查询的实验)。实验数据为Pan-STARRS数据,总共11,495,847个星表源数据。对比使用Q3C索引情况下和不使用Q3C索引(对ra与dec进行B-tree索引)的情况下,实现以赤经赤纬(5度,50度)为中心,查询半径在0.1度到0.9度变化范围内的锥形查询,比较随着提取结果源数目的增多上述两种方案的查询时间,其结果如图6和图7所示。我们从图7和图8中可以看出,随着查询半径的增大,符合查询条件的源数目也在不断增多,同时查询时间以近乎线性速度增长,说明查询元组数目越多,消耗的时间也就越多。还发现使用非Q3C索引的查询时间是使用Q3C索引时间的至少100多倍以上,可见Q3C索引方式的有效性。Q3C索引具有层次结构、平等区域、异维度分布等特性的天空分区方案,对天文数据的处理具有得天独厚的优势。特别是对于数据量大的情况下,我们非常有必要使用Q3C对数据索引,其表现不仅仅是数据查询速度的提高,对日后的交叉认证起到了打下了很好的基础。这也正是我们选择Q3C索引的原因。
2.2AutoDB工具的应用
AutoDB能够快速地将数据存储到相应的数据库中,上传数据的速度与本地机器硬件性能、数据库的配置以及数据库服务器的位置(本地或异地)、数据量的多少以及索引的复杂程度都有着直接或间接的关系。建议在使用过程中本地机器中不要运行太多的其他程序。我们使用的是SDSS部分数据进行的实验,总共有100,000,000行数据导入数据库中,测试平台使用的是两台计算机平台,一个是本地数据库平台和程序运行平台,另外一个是远程数据库运行平台,通过百兆以太网访问远程数据库平台。具体配置如表1所示。在实验过程中多次分别对本地和远程数据库进行了入库,在入库时将数据分割为100,000,00行,200,000,00行,400,000,00行,600,000,00行,800,000,00行,100,000,000行数据导入数据库中,得出实验结果,如表2所示。单从数据上传的速度来看,MySQL数据库的速度要优于PostgreSQL数据库。
3总结与展望
数据理论论文范文6
1.1监测任务名称的标准化处理
以目前的全国业务化海洋环境监测任务为基础,对上报的监测任务进行标准化命名,如海洋生物多样监测、海洋大气监测,对不同填报的名称进行标准化处理。
1.2组织单位名称的标准化处理
各地上报的组织单位比较混乱,有的上报了监测机构名称,有的上报了其隶属的行政部门名称,不利于监测任务的考核。根据国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案,目前组织单位主要包括国家海洋局局属单位、3个分局、11个沿海省(自治区、直辖市)海洋行政管理部门和5个计划单列市海洋行政管理部门,如国家海洋环境监测中心、国家海洋局北海分局、辽宁省海洋与渔业厅、大连市海洋与渔业局,对不同填报的组织单位进行标准化处理。
1.3监测区域名称的标准化处理
由于各地方上报的监测区域不够规范,且很难表现出更多的区域信息,同时考虑到区域统计分析,因此需对监测区域进行规范化命名。监测区域命名结构为:沿海地区/海区+沿海城市/特定区域+名称,其中沿海地区/自然海区和名称字段不能省略,沿海城市/特定区域字段若无可以省略。如,辽宁葫芦岛赤潮监控区,广东近岸、福建厦门近岸、东海近海及远海,对不同填报的监测区域名称进行标准化处理。
1.4监测要素名称的标准化处理
每个监测任务里包含了不同的监测要素,且不同的任务可能会监测相同的要素,因此需对监测要素进行规范命名,以便对相同的要素进行统一分析、数据量统计等。以目前的业务化海洋环境监测要素为基础,对上报的监测要素进行标准化命名,如水文气象、海水水质、沉积物质量、浮游植物和浮游动物等,对不同填报的监测要素进行标准化处理。
1.5监测参数及单位的标准化处理
由于每个监测要素需要监测不同的监测参数,如海水水质需要监测化学需氧量、氨氮和溶解氧等。而每个监测参数的名称在写法上有不同的形式,如化学需氧量也可写为COD,氨氮也可写为氨-氮或NH4-N等,给数据的统计、评价带来一定的不便,因此有必要规范不同监测参数的名称。另外,每个监测要素的单位也需统一规范。如重金属的锌元素,有的上报其参数单位为mg/L,有的上报为μg/L。在数据统一进入标准数据库时,需将单位统一。参照国际标准、国内海洋环境监测调查规范以及各地监测机构的填报习惯等,针对不同的监测任务和监测要素,对每个监测参数的名称及计量单位进行标准化处理。
1.6站位基础信息的数据类型标准化处理
监测数据的类型包括数值型、字符型、布尔型和百分比等。对站位基础信息如站位编号、经纬度、监测日期、水深和层号等的数据类型进行规范。(1)站位编号。上报的站位编号大部分为字符型,但也有站位编号为1、2、3等,为数据库的统一管理,需统一转换为字符型。站位编号不规范主要有以下几个方面:①站位编号英文大小写不一致;②监测机构各自命名;③在站位编号上加“临”“平行样”和“空白样”等字样。参照目前海洋环境监测站位编号规则,由任务编号、海区编号、类别编号和站位序号顺次排列组成。对站位进行统一编号。对于历史站位编号的确认,可通过核查相关的监测数据、核实年度监测方案、联系地方监测机构等方式,将站位编号统一。(2)站位的经、纬度。上报的经纬度有两种形式:一个是小数形式,另一个是度分秒形式。为便于计算机的计算方便,目前统一为小数形式。由于经纬度的小数位数不一致,会导致部分空间定位有细微的差别。结合监测任务计划和实际监测情况,统一经纬度的有效位数,目前保留到小数点后6位。(3)监测日期。上报的监测日期格式不一致,主要形式为:“2011-08-20”“2011/8/20”、或为时间型等。现统一其形式为“2011-8-20”,年份:填满4位;监测月份:1—12,月信息小于10,前位无需补零。注意检查,监测年份是否为该年度;月份是否大于12;日期是否在该月的自然日以内。(4)采样深度与层号。部分地方监测机构在该填报“层号”的地方填写了采样深度,同时层号不统一,有的为中文———“表层”“中层”“底层”;有的为英文———“S”“M”“B”。《海洋监测规范》中对水深和相应的采样层次进行了规范。对层号,统一用英文表示。其中:表层为S;底层为B;若只有一个中层用M表示,若为多个中层,则分别用M1、M2、M3等顺延表示。另需检查层号与层深的匹配情况,若层号为S(表层),则采样深度应小于或等于2m;层号为B(底层),则采样深度大于3m。部分填报机构填写层号时,出现表层填写“B”和底层填写为“D”的现象,可能是按“表层”和“底层”的首拼音字母填写造成的。
1.7监测参数不规范类型的处理
监测参数的不规范类型问题,主要应注意以下几点。(1)大于号、小于号。某些监测参数如重金属、大肠杆菌数等,其监测参数值上报中含有大于号或小于号。此类数据通常不影响其评价等级的判定,但会影响该类参数最大值、最小值、均值等统计的结果。可研究该参数的理化性质并联系地方监测机构,确认该参数的具体值大小。其缺省解决方法是删除大于号、小于号,以便该参数的统计及评价。(2)未、无、“-”等字样。结合年度监测任务,联系地方监测机构,确认该监测参数是未被监测,还是低于检出限。未监测用空值表示;低于检出限用“未检出”表示。(3)空格及其他无效字符。上报的监测数据中常含有空格及其他无效字符,使得计算机在识别、归类等过程中出现异常。可核查监测数据的内容和性质,确认为无效字符后,对数据值前、后含有的空格或其他无效字符进行删除处理。对经纬度空缺,可核查相关的原始上报数据集和年度监测工作方案,或联系地方监测机构;对层号空缺,可根据水深判断,或联系地方监测机构补缺;对某些监测参数值空缺,可结合年度监测任务,联系地方监测机构,确认该监测参数是未被监测,还是低于检出限,再根据判断结果给出规范填写。
2监测数据的齐全性检验
海洋环境监测数据的齐全性检验,是以海洋环境监测方案为依据,检查监测方案中规定的监测数据是否全部上报完整。首先对国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案进行分析,对监测工作方案进行信息解析,按空间维度、指标维度和时间维度对监测任务进行细化,空间维度包括监测站位、监测区域、管辖区域等,指标维度包括监测参数、监测要素等,时间维度包括监测时间等。其中监测站位、监测参数、监测时间是空间维度、指标维度和时间维度的最小单元,通过对最小单元的数据量统计,可获得其上一统计单元的数据情况。因此对海洋环境监测方案的解析按监测站位、监测参数和监测时间3个方面进行分解。对照监测方案,检查接收的数据是否存在区域、站位或频次等有空缺监测的情况。记录缺失的原因:可能由于某些缘故未能进行监测、地方调整了监测方案或地方漏报。仔细核查年度监测任务计划,联系地方监测机构确认。
3站位基础信息数据质量控制
3.1空间位置检验
空间位置检验主要针对调查单位在站位信息汇总过程中可能出现的录入错误。将调查站位经纬度转换为十进制的单位后,通过利用GIS生成站位图的方式检查站位落点所在位置,看其是否落在规定的监测区域,对于断面上的调查站位,还要检查其是否明显偏离断面沿线。同时还需检查“相同的站位编号,经纬度不同”和“不同的站位编号,经纬度相同”等数据空间位置精度的问题。对于该类问题,可通过核查相关的监测数据、核对年度监测任务、联系监测机构确认等方法,予以更正。
3.2站位基础信息一致性的检测
根据站位基础信息一致性检验方法,即监测区域、站位编号、站位经纬度、监测日期等基础信息决定一条数据记录,根据不同的监测任务和监测要素,分析站位基础信息一致性是否符合。针对站位编号和经纬度不一致的情况,从空间位置检验是否合理,并核实监测方案进行解决。针对监测日期相同且站位编号相同等情况,判断两条记录的监测参数值是否完全一致,若完全一致则认为是重复记录;若不完全一致,可认为是平行样记录,并进一步核实。
3.3数据记录重复的处理
海洋环境监测数据的上报过程中存在很多重复的数据记录,产生这种重复记录的主要有如下原因。(1)地方上报数据时,重复上报了监测数据集,如8月份上报了5月份和8月份两份数据;年底将全年的监测数据再次上报。(2)不同监测机构报送的重复数据,如属于上下两级监测机构(省、计划单列市)重复报送。(3)地方监测机构监测人员填写报表时,将某些记录重复填写。(4)地方监测机构监测人员填写报表时,将平行样的数据填写。(5)数据集合并时,将曾经合并过的数据集再次合并。对于重复的记录数据,在建立环境监测数据库中应做剔除处理。
3.4平行样的处理
平行样数据只作为监测数据质量保证的辅助,在实际统计、评价和监测数据时需区别对待。一般来说,只有少数站位上报的数据是平行样。为了数据量统计、环境质量评价等的需要,对于平行样的记录数据,可将监测参数值进行求平均处理。
4监测参数数据质量控制
4.1值域一致性检验
在海洋环境监测中,每个监测参数有其对应的经验值域范围,通过值域检测规则对填报的监测数据按不同监测要素分别对每个监测参数值进行检验,对于超出值域范围的值,需进一步分析该区域其他站位、其他频次、周边站位的参数值情况,并结合监测任务性质以及超出值域比例,从而判断该参数值的可靠性。
4.2逻辑一致性检验
某些监测参数间存在一定的逻辑关系,即监测参数与监测参数间存在某种相关关系,有些关系具有一定的规律性,根据逻辑一致性检验方法,对于不符合逻辑一致性的监测数据记录,应进一步同监测机构进行核实。
4.3数据输出
对文件进行批量检验处理,对于检验结果,给出合理且足够详细的错误提示,并保存质检日志,使得数据便于修改。为了区别一个数据是否进行了质检、是否通过质检,以及了解质检的情况,需要对质检过后数据增加一个质量控制符号,简称质量符。综合参考“国标GB/T12460-2006海洋数据应用记录格式”以及“908海洋化学标准记录格式”等质量符格式。其中,“908海洋化学标准记录格式”中质量符2表示可疑倾向正确,3表示可疑倾向错误,本研究将这两者综合考虑,记为可疑;另外,“908海洋化学标准记录格式”中质量符8表示痕量,由于与“未检出”有一定的重叠,因此本研究只采用“未检出”。表1给出海洋环境监测数据的质量符及说明。一般来说,数值型的监测参数数据,对其质量检验出有问题的只能作为“可疑”处理,不宜随意修改或删除。除非经过专家经验检验,并经监测单位核实,可明确其为错误的,其质量符方可标注为“4”。对于监测站位基础信息,如监测日期、站位编号、经纬度、层号等,检验出有问题的,可根据检验情况,标注其质量符为“4”或“3”等。按步骤完成监测数据处理流程后,可分年度或季度对处理的文件形成数据处理报告,并制作经标准化处理和质量控制后的标准数据集。
5结束语