数据理论论文范例6篇

前言：中文期刊网精心挑选了数据理论论文范文供你参考和学习，希望我们的参考范文能激发你的文章创作灵感，欢迎阅读。

数据理论论文

数据理论论文范文1

通过研究传统的关系数据库得知，以往的数据管理过程存在一定的局限性，往往受制于较弱的扩展性方面。相对而言，云数据管理系统中的技术形态较为高级，因其已经具备了利用云计算平台来处理海量数据以及数据信息检索的能力。从技术应用的角度来看，云数据管理系统的运作模式较以往有了较大的改进，不仅有效降低了维护系统的资金与人力的成本，而且，能够凭借较为先进的技术来增强系统本身的可扩展行以及容错能力，正是由于云数据管理系统的职能作用较为突显，该系统备受大型网站运营管理的青睐，其应用极为广泛[4]。事实上，云计算是一种基于互联网平台的多元化管理模式，为诸多领域提供信息传递、储存等服务。在当今大数据时代背景下，云计算服务项目得到了更为广阔的发展空间，为现代社会生产建设助力，云数据管理系统中的技术形态，云计算服务的实践价值较为突出，在诸多领域都有所涉及。

2阐述有关云数据管理系统中的查询技术研究内容

2.1有关云数据查询处理的目标及其运作特征的研究内容

由于信息时代的到来，大多数人们在生活和工作中都离不开各类电子产品的应用。从现实环境来看，在资源的利用与存储方面，云数据中心及其服务能够满足互联网平台上的用户服务需求。从具体的实践领域来看，现代企业或其它社会组织机构通过各种途径来获取大量的数据信息资源，并利用这些所能查询得到的信息资源来强化系统管理。在信息技术快速发展的当今社会，在很多领域所构建的数据库的规模以及范围都在不断地扩容，但即便是相关技术在不断更新当中，却也无法运用传统技术来满足极快速增长的数据信息量，这便是大型数据集过程的特点所致。从具体来看，云数据查询处理技术具有可扩展行、可用性等目标特点，而且，查询处理技术在异构环境中的运行能力较强，具有较为丰富灵活的用户接口，以便于满足用户的差别化数据查询以及存储的需求。

2.2云数据管理系统中的查询技术的种类及其操作模式

在以往，大多数人会利用移动硬盘、U盘等设备来进行数据存储，将海量数据进行归档处理，但在有了云数据管理系统以后，便可以凭借云计算及其相关技术来实现数据的储存及查询调用等目标。通过研究云数据管理系统中关键技术的特征及系统的基本框架可知，云数据信息在接受到用户指令进行数据查询的过程中，需要通过诸多关键技术的集合作用来解决实际问题，尤其是需要索引管理、查询处理及优化的过程来辅以操作，才能达到精准查询云数据的目标。从总体情况来看，技术的应用不仅要考虑其可行性和有效性，还要考虑技术应用的经济性，如若技术应用的成本过高，则要考虑该方案的优化管理。对于商用海量数据存储要求来讲，信息记录及存储要进行合理的规划，以便于提升调用系统数据的效率。通常情况下，云数据管理系统中的查询技术主要有两种常见的模式，即BigTable技术与Dynamo技术。二者各具优势，前者BigTable技术；后者Dynamo技术采用了DHT（内网用分布式哈希表）作为技术的基本存储架构，其优势在于它的自我管理能力较强，从而避免了很多数据处理过程中可能发生的单点故障[5]。

3结束语

数据理论论文范文2

大数据管理与大数据应用都离不开大数据技术，但更离不开大数据人才。没有人才，再先进的设备只能是“豪华摆设”;没有人才，再先进的技术也只能是“纸上谈兵”。因此，推进大数据管理，除了需要培养一大批优秀的IT人才外，还迫切需要培养一大批大数据人才———数据管理师、数据分析师，造就一批数据科学家等高端人才。因为只有他们才能驾轻就熟处理海量的信息，并从中挖掘出“数据财富”。此外，面对全体员工传播大数据知识，普及大数据技术，培训大数据技能，奠定推进大数据管理的群众基础和技术基础，同样也是一项长期而艰巨的任务。

二、构筑大数据管理“一站式”工程，建设“大数据管理智库”新平台

1．加强内、外部数据的“一站式”管理。对企业来说，数据无处不在，无时不有，究其来源，无非企业内部和外部两个渠道。内部数据的活水源头是各单位、各部门、各专业的统计报表提供的数据;外部数据一方面是国家管理部门、行业管理部门、权威机构等的统计数据，另一方面是来自互联网、移动互联网、各种传感器等信息感知和采集终端采集的数据。这些数据，日积月累，最终“百川归海”，汇成大数据的海洋。大数据时代，企业通过建立“大数据管理智库”，打破渠道的边界，把不同来源的数据整合在一起，实施一站式管理，让数据时时刻刻为企业提供服务。2．注重数据挖掘环节的“一站式”管理。企业数据挖掘过程也是数据发现和梳理的过程，其有4个重要环节:采集、存储、分析、预测。企业建立了“大数据管理智库”，对这4个环节实施一站式管理，可以大大“提纯”数据价值。首先是尽可能采集异源甚至是异构的数据，去伪存真，多角度验证数据的全面性和可信性。其次是要用到冗余配置、分布化和云计算技术，分类、过滤和去重，减少存储量，同时加入便于检索的标签。第三是将高维数据降维后度量与处理，利用上下文关联进行语义分析，从大量动态而且可能是模棱两可的数据中综合信息，导出可理解的内容。第四是将数据分析后预测出的结论应用到企业中去。3．突出价值链上数据的“一站式”管理。企业价值链可以分为基本增值活动和辅增值活动两大部分。基本增值活动，即一般意义上的“生产经营环节”，如材料供应、成品开发、生产运行、成品储运、市场营销和售后服务。这些活动都与商品实体的加工流转直接相关;辅增值活动，包括组织建设、人事管理、技术开发和采购管理。价值链的每一个环节都有相伴而生的数据。过去这些数据处在分散状态。大数据时代，企业通过“大数据管理智库”平台，对这些数据实施一站式管理，有利于每一个环节的价值再创造和价值链的增值。

三、构筑大数据管理“一体化”工程，打造“大数据管理融合”新生态

数据理论论文范文3

（1）部门管理：按行政线展示，通过行政管理关系管理部门；按业务线展示，通过业务上级部门关系管理部门。系统缺省提供已有涉及渠道管理部门信息，数据来源M域系统、B-SDM系统、集中渠道系统。部门修改功能。支持按部门名称或部门编码模糊查询。（2）部门行政关系查询：系统缺省提供已有涉及渠道管理部门信息，数据来源总部管理数据库。部门关系树按行政管理部门建立，即可进行行政管理部门查询功能。（3）业务部门管理：系统缺省提供已有涉及渠道管理部门信息，数据来源总部管理数据库。部门新增、修改、删除和查询功能。（4）部门补充信息：将新增的部门添加行政管理部门。（5）部门补充业务线：将新增的部门补充业务线。（6）部门导出：对部门查询出的内容进行导出。

2人员信息维护

（1）自有人员信息管理：支持对部门的人员信息的选择添加、修改和查询功能。支持人员修改时对渠道名称的修改。支持人员添加与管理渠道之间的维护。（2）自有人员导出：查询出符合条件的联通自有人员信息，并且将这些信息导出为EXCLE格式。（3）社会人员导出：查询出符合条件的归属渠道社会人员信息，并且将这些信息导出为EXCLE格式。（4）社会人员帐号管理：支持对社会渠道中的人员信息、帐号信息的新增、修改、删除（注销）功能。支持批量导入注册功能。支持区分人员是实体人员还是虚拟人员，对于标记虚拟人员的员工禁止登入使用系统。支持对是否客户经理以及客户经理类型的区分。支持新增人员与管理渠道之间的维护。（5）虚拟人员维护：查询出归属地域以下的所有存在人员账号信息的自有人员信息。提供虚拟人员新增功能，虚拟人员新增必需要挂靠已有的自有人员帐号下。提供虚拟人员修改功能。提供虚拟人员注销功能。提供虚拟人员详细信息查看功能。

3数据变更提醒

变更提醒：在我的工作台中人工处理M域发起的部门新增、修改、注销操作。提供在我的工作台中人工处理渠道发起的部门维护操作。提供在我的工作台中人工处理B-SDM发起的部门维护操作。

4接口异常处理

记录管理：查询出操作员所在省份的记录信息。通过【查询明细】按钮，可以查询与记录关联的明细信息。通过【重新发送】按钮，对发送失败的明细信息重新发送。通过【人工处理完成】按钮，将发送失败的明细信息置为人工处理完成状态。

5系统管理

系统管理员可以管理用户分组，维护组的信息，通过增加新组添加一个新的用户分类方式。系统有默认的超级管理员，只能做设置系统管理员的操作。由系统管理员设置部门管理员，部门管理员具有对整个系统的部门、用户管理权。部门管理员能设置辖内下级部门的管理员。（1）权限管理：权限管理是按不同的工作范围和角色管理系统操作者享有的资源及访问的范围，通过对一些要素的灵活控制实现权限管理，分为业务操作权限和数据权限。（2）日志管理：日志是系统运行过程中，在某一时刻对系统某一运行状态的记录。集中渠道管理的任一功能模块，均应将处理状态、处理结果、进程执行情况等信息记录日志，供系统维护人员浏览查询。

6结束语

数据理论论文范文4

图1，通道保护器可防止传感电路受瞬态电压冲击。

图2，通道保护器将瞬态过压箝位在安全电平内。

当出现某种故障时，通道保护器输入端电压就会超过一个由电源电压减去MOSFET阈值电压设定的电压。如果发生正过压，则这一电压是VDD-VTN，其中VTN是NMOSFET的阈值电压（典型值为1.5V）。如果发生负过压，则这一电压是VSS-VTP，其中VTP是PMOSFET的阈值电压（典型值为-2V）。当通道保护器的输入超过上述两个设定电压中任何一个时，保护器都能将输出箝位在这两个电压值以内。NMOSFET和PMOSFET都具有双向故障保护和过压保护功能，所以它们的输入和输出端可以交换使用。图3显示出了正过压情况下的设定电压和MOSFET状态。

图3，在出现正过压时，设定电压和MOSFET的状态如图中所示。

图4，在出现故障条件时，输出负载将电流限制在VCLAMP/RL以下。

图5，在本电路中，ADG466通道保护器保护测量仪表放大器的敏感输入端，防止发生传感器故障。

数据理论论文范文5

随着天文数据的日益增加，存储和管理天文数据变得非常重要，尤其在天文数据的归档和管理方面，占有举足轻重的地位。能够很好地管理海量的天文数据就相当于在后续的科学研究中成功了一大半。通过对天文数据管理方面知识的了解，经过一系列的研究与开发，最终开发了一个高效的天文数据自动入库管理工具AutoDB，旨在帮助天文学家提高工作效率，促进天文学研究的进展。

1.1AutoDB的设计思路与方法

在之前的裴彤等人的设计中，已经实现了天文数据的自动入库，该工具采用Python[11]语言编写，并且能够自动地添加pcode字段，建立HTM（HierarchicalTriangularMesh）[11]索引分区，便于以后的交叉认证工作。HTM是一种多层次的、递归的球面分割方法，可将天球分成多级的三角网络，每个网络都有一个pocde，利用HTM可以将一个大星表从逻辑上分割为多个小星表[11]，HTM分级算法采用C语言编写，充分地利用了C语言的高性能和Python语言的高开发效率。然而该程序仅支持底层数据库为MySQL，且只支持CSV格式的文件，且文件中的数据不能为空，若为空则会抛出错误，在使用方面具有一定的局限性。其HTM分区是对ra和dec进行计算产生pcode值来实现天空分区，同时使用pcode_htmN数据列来存储这些值，然后对其进行btree索引，方便后续的高效查询。首先，其计算的算法必须跟随着后续数据的复杂性进行优化，其次，先计算在存储势必有I/0性能限制，最后使用btree一维索引间接性的对赤经ra和赤纬dec索引，无法利用天文数据的空间性，且若想实现一定半径内的查询需要非常复杂的SQL语句。为了解决这些问题，我们仔细地阅读了裴彤等人的论文和程序代码[12]，在深入分析其原理的基础上，对自动入库管理工具进行了更加全面的完善和改进：（I）底层数据库同时支持MySQL和PostgreSQL；（II）针对PostgreSQL数据库，使用一种新类型Q3C索引，其直接与数据库进行交互，无其他I/0交互，直接对赤经ra和赤纬dec进行空间索引，并且提供简单的SQL语句来实现复杂的查询；（III）数据格式同时支持FITS格式和CSV格式；（IV）数据优化，若其中存在为空的数据项，数据项自动变为’9999’或者’NULL’，则入库时不会抛出错误。下面分别展开阐述。一、底层数据库架构工具的底层数据库是基于MySQL和PostgreSQL两种数据库开发的。这两种都是非常好的开源数据库，对于选择哪种数据库更好取决于哪种数据库更能满足用户的需求。之前采用的是MySQL数据库，然而由于数据量的增加，数据表格越来越庞大，一个表格甚至达到了几十亿行，对于表本身的容量远远地超过了物理内存的大小，甚至出现了连建索引也不能改善性能的情况，这样查询时间会将大大地延长，在此情况下非常有必要对数据进行分表管理，即将表拆分为一系列较小的、与之相关联的表来进行替代，通过对子表的数据查询，就相当于对整个表进行了查询操作。对基于MySQL数据库分表来说，取决于数据引擎(InnoDB)，不支持哈希分区表，而PostgreSQL数据库支持临时表、常规表以及范围和列表类型的分区表。而且PostgreSQL的表分区是通过表继承和规则系统完成的，所以可以实现更复杂的分区方式。且在索引方面，PostgreSQL支持B-树、哈希、R-树和Gist索引，MySQL取决于数据引擎，大多数为B-Tree索引。由于天文数据具有空间属性，位置坐标为（赤经ra，赤纬dec），其索引会是一个二维的。建立一个高效的索引非常重要，使用第三方扩展库如Q3C索引即是采用的二维索引，又如使用PGSphere中的GIST索引，会使数据的查询更加高效。所以在当数据量非常大的时候，或者需要使用到第三方库时，对于空间点索引时，采用Postgresql比采用MySQL要方便得多。但若数据量不是很大，对于亿行级以下的数据量，不需要采用第三方库去支持创建索引的数据，则是采用MySQL比较好。同时MySQL的性能方面要比PostgreSQL较为高效。面对种种数据管理的需求，我们增加PostgreSQL作为该入库工具的底层数据库是必要的，天文工作者可以根据自己的需求存储到不同的数据库中。二、Q3C索引庞大的数据储存在数据库中，若想能够准确高效的使用这些数据，必须对其数据创建索引，索引不仅能够加快数据的查询速度，而且会使数据的管理变得简单容易，可以大副提高系统的性能。当然索引的创建也不是越多越好，因为索引过多会随着数据量的增加而加大数据库的负荷，就起不到提高系统的性能的作用，反而会降低性能，所以索引的使用要准确得当。在本系统中，由于我们是对天文数据进行入库管理，天文数据的复杂性、空间性决定了普通的一维索引并不能很好地解决天文数据的查询管理要求，所以我们是用了一个全新Q3C(QuadTreeCube)对天空分区索引，其能够很好地对天文数据进行二维的空间索引，Q3C索引方案为开源项目运用于数据库PostgreSQL中，大家在使用的同时也可以随时进行修改，非常适用于学术研究，由于直接运用于数据库，使用者不需要书写任何算法，相比于HTM，首先需要对天文数据进行分区计算pcode值，然而分区计算算法需要由使用者编写，这样会无形地增加风险，同时也带来了复杂化。Q3C的产生是专门针对天文数据的，其目的性非常明确。虽然普通的索引如btree也能够用于天文数据，但是如果需要进行锥形查询，在不使用Q3C索引的前提下，其查询SQL语句会非常复杂，并且查询速度非常慢，而且也只能运用于数据量较少的情况下，数据过多极有可能导致内存不足而出现程序卡死现象，然而上面的问题对于Q3C索引来说都不存在，所以这种基于四叉树的空间索引Q3C就显得非常实用了。Q3C索引不仅能够提供天文数据特有的查询，而且也提供交叉认证功能，这对以后的数据处理来说，很大程度地简化了工作量，同时又容易使用，而且不论是在查询方面，还是交叉认证方面，Q3C会提供的简单的SQL语句就能够执行处理工作，而HTM方面则需要从数据库中提取数据，然后利用算法进行处理，当数据量非常大的时候，程序的性能就会受到影响。三、支持的数据文件格式入库管理工具同时支持两种类型的数据格式文件：CSV(Comma-SeparatedValues)格式文件和FITS(FlexibleImageTransportSystem)格式文件。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。FITS格式是天文学界常用的数据格式，它专门为在不同平台之间交换数据而设计。1988年的国际天文学联合会IAU（InternationalAstronomicalUnion）大会指定IAU的FITS工作组全权负责此格式的修订。FITS文件由文件头和数据组成。在文件头中存储有对该文件的描述，如观测目标、源的位置、观测时间、曝光时间等信息，同时也可以在文件头中注明观测时的视场、精度等，便于后期的数据管理和分析之用。文件头部分每行占80个字符，并以END结尾。FITS文件的容量大小通常比相同数据量的CSV文件小，在本地存储中占用硬盘容量小，且天文数据文件采用FITS格式存储的文件占大多数。针对FITS格式文件数据，我们开发了一个分析FITS文件头文件的工具，用来得到头文件中表格数据中的列名和每个列对应的数据格式，方便天文学家在使用入库工具时编写readme文件。在输入不同格式文件时，工具会自动地判断文件的格式选择相应的程序实现自动入库。四、存储数据的优化庞大的天文数据中有时难免会存在的超过数据库中最大数据存储大小的数据或者小于数据库中支持的最小数据，不过在数据库中可以自己定义数据类型来支持导入的数据，但这样便失去兼容性了，使得不同数据库之间数据的交换和融合变得很困难，而且在对于文件中的数据项为空的时候，存储到数据库中会产生一些错误，所以在入库之前很有必要先对数据进行优化。因为不符合要求的数据非常少，而且改变其大小不会影响到后续的数据分析环节，故在入库前，在程序中把超出数据库最大支持数据的记录数和小于数据库最小支持数据的记录数更改为数据库所支持最大和最小的数据记录数，同时对于文件中为空的数据项，程序会根据数据类型的不同，自动的填充‘9999’或‘NULL’字样，方便数据的录入和后续的计算分析。

1.2AutoDB流程图

在存储FITS格式文件的数据时，我们还专门开发了一个分析FITS文件头文件的小工具，方便天文学家存储时选择自己想要存储的数据列。在使用过程中，天文学家也不需要编写任何的代码，同时该工具有很好的易用性。根据不同的格式文件，有着不同的入库流程，下面给出了文本CSV文件和FITS文件的入库流程，如图1所示。

1.3AutoDB系统环境支持

AutoDB采用Python语言编写，推荐使用Linux操作系统。由于Python是跨平台型语言，若需要在WINDOWS系统中使用也非难事，需要安装Python，一般的Linux发行版本都会自带Python程序，同时也需要下列数据库系统（异地或本地均可）和第三方库作为支持：1)PostgreSQL(9.0+)：支持最新的SQL语法，更高的功能完整性。2)MySQL（5.1+）：性能非常的高效。3)Q3C（QuadTreeCube）：一种基于PostgreSQL数据库的新的天文数据的索引概念，提供海量天文数据的查询与融合。该工具中同时嵌入了一个很好的虚拟终端，用户可以根据虚拟终端的反馈，了解自己在使用过程中出现了哪些错误，从而纠正错误，使得程序完美地运行。

1.4AutoDB图形用户界面

AutoDB图形入库界面如2所示，用户可以选择入哪种数据库，入库的数据文件及数据的说明文件，创建HTM的级数，每次分次上传的记录数，赤经赤纬列要指出等。在这里，用户可以直接点击程序运行图形界面，也可以手动地在命令行中使用命令来运行图形界面，其图形界面和主程序是分开的，其协助用户按照各个参数，并收集起来，按照一定的规范得到收集的参数，供主程序使用。也就是说主程序不依赖于图形界面，用户也可以手动地编辑被指定的文件来运行主程序。FITS头文件分析工具会把FITS头中的数据输出到文件中，该文件名由用户定义，在FITSSOURCEFILE对应的一行中浏览添加FITS源文件，然后在FITSHEADFILE一行中输入想要创建FITS头文件名，界面如下图3所示。在使用入库工具时，用户需要编写readme文件供程序使用，其格式如下：第一行为各列列名（即数据库表中的列名字段，请参照MySQL/PostgreSQL对字段命名相关文档），以一个或者多个空行分隔；第二行与第一行相对应，为每列的数据类型（如：float、char、varchar、double、int，具体请参照MySQL/PostgreSQL数据类型相关文档[13]），同样是以一个或者多个空行分隔，内容中不能有引号，字段不能为空或NULL。同时在对FITS文件进行入库时，需要参照头分析工具得出的头文件以及格式转换文件编写readme文件。头文分析工具得到的头文件实例如图4所示，格式转换文件如图5所示。编写readme文件完毕后，即可使用自动入库工具进行数据的录入，数据库可以自己选择，数据库服务器可以是本地服务器或远程服务器。使用远程服务器时，应该保证远程服务器支持远程连接，否则将会报错。

2实验结果

2.1Q3C索引与非Q3C索引的查询性能比较

在使用索引的时候，我们最在意的是索引是否能够提高查询效率，对于具体选择哪种索引方式，要看哪种索引提高的性能更高些。为此我们做了如下的实验测试（在数据库命令行的形式下使用SQL语句进行查询的实验）。实验数据为Pan-STARRS数据，总共11,495,847个星表源数据。对比使用Q3C索引情况下和不使用Q3C索引（对ra与dec进行B-tree索引）的情况下，实现以赤经赤纬（5度,50度）为中心，查询半径在0.1度到0.9度变化范围内的锥形查询，比较随着提取结果源数目的增多上述两种方案的查询时间，其结果如图6和图7所示。我们从图7和图8中可以看出，随着查询半径的增大，符合查询条件的源数目也在不断增多，同时查询时间以近乎线性速度增长，说明查询元组数目越多，消耗的时间也就越多。还发现使用非Q3C索引的查询时间是使用Q3C索引时间的至少100多倍以上，可见Q3C索引方式的有效性。Q3C索引具有层次结构、平等区域、异维度分布等特性的天空分区方案，对天文数据的处理具有得天独厚的优势。特别是对于数据量大的情况下，我们非常有必要使用Q3C对数据索引，其表现不仅仅是数据查询速度的提高，对日后的交叉认证起到了打下了很好的基础。这也正是我们选择Q3C索引的原因。

2.2AutoDB工具的应用

AutoDB能够快速地将数据存储到相应的数据库中，上传数据的速度与本地机器硬件性能、数据库的配置以及数据库服务器的位置（本地或异地）、数据量的多少以及索引的复杂程度都有着直接或间接的关系。建议在使用过程中本地机器中不要运行太多的其他程序。我们使用的是SDSS部分数据进行的实验，总共有100,000,000行数据导入数据库中，测试平台使用的是两台计算机平台，一个是本地数据库平台和程序运行平台，另外一个是远程数据库运行平台，通过百兆以太网访问远程数据库平台。具体配置如表1所示。在实验过程中多次分别对本地和远程数据库进行了入库，在入库时将数据分割为100,000,00行，200,000,00行，400,000,00行，600,000,00行，800,000,00行，100,000,000行数据导入数据库中，得出实验结果，如表2所示。单从数据上传的速度来看，MySQL数据库的速度要优于PostgreSQL数据库。

3总结与展望

数据理论论文范文6

1．1监测任务名称的标准化处理

以目前的全国业务化海洋环境监测任务为基础，对上报的监测任务进行标准化命名，如海洋生物多样监测、海洋大气监测，对不同填报的名称进行标准化处理。

1．2组织单位名称的标准化处理

各地上报的组织单位比较混乱，有的上报了监测机构名称，有的上报了其隶属的行政部门名称，不利于监测任务的考核。根据国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案，目前组织单位主要包括国家海洋局局属单位、3个分局、11个沿海省（自治区、直辖市）海洋行政管理部门和5个计划单列市海洋行政管理部门，如国家海洋环境监测中心、国家海洋局北海分局、辽宁省海洋与渔业厅、大连市海洋与渔业局，对不同填报的组织单位进行标准化处理。

1．3监测区域名称的标准化处理

由于各地方上报的监测区域不够规范，且很难表现出更多的区域信息，同时考虑到区域统计分析，因此需对监测区域进行规范化命名。监测区域命名结构为：沿海地区／海区＋沿海城市／特定区域＋名称，其中沿海地区／自然海区和名称字段不能省略，沿海城市／特定区域字段若无可以省略。如，辽宁葫芦岛赤潮监控区，广东近岸、福建厦门近岸、东海近海及远海，对不同填报的监测区域名称进行标准化处理。

1．4监测要素名称的标准化处理

每个监测任务里包含了不同的监测要素，且不同的任务可能会监测相同的要素，因此需对监测要素进行规范命名，以便对相同的要素进行统一分析、数据量统计等。以目前的业务化海洋环境监测要素为基础，对上报的监测要素进行标准化命名，如水文气象、海水水质、沉积物质量、浮游植物和浮游动物等，对不同填报的监测要素进行标准化处理。

1．5监测参数及单位的标准化处理

由于每个监测要素需要监测不同的监测参数，如海水水质需要监测化学需氧量、氨氮和溶解氧等。而每个监测参数的名称在写法上有不同的形式，如化学需氧量也可写为COD，氨氮也可写为氨－氮或NH4－N等，给数据的统计、评价带来一定的不便，因此有必要规范不同监测参数的名称。另外，每个监测要素的单位也需统一规范。如重金属的锌元素，有的上报其参数单位为mg／L，有的上报为μg／L。在数据统一进入标准数据库时，需将单位统一。参照国际标准、国内海洋环境监测调查规范以及各地监测机构的填报习惯等，针对不同的监测任务和监测要素，对每个监测参数的名称及计量单位进行标准化处理。

1．6站位基础信息的数据类型标准化处理

监测数据的类型包括数值型、字符型、布尔型和百分比等。对站位基础信息如站位编号、经纬度、监测日期、水深和层号等的数据类型进行规范。（1）站位编号。上报的站位编号大部分为字符型，但也有站位编号为1、2、3等，为数据库的统一管理，需统一转换为字符型。站位编号不规范主要有以下几个方面：①站位编号英文大小写不一致；②监测机构各自命名；③在站位编号上加“临”“平行样”和“空白样”等字样。参照目前海洋环境监测站位编号规则，由任务编号、海区编号、类别编号和站位序号顺次排列组成。对站位进行统一编号。对于历史站位编号的确认，可通过核查相关的监测数据、核实年度监测方案、联系地方监测机构等方式，将站位编号统一。（2）站位的经、纬度。上报的经纬度有两种形式：一个是小数形式，另一个是度分秒形式。为便于计算机的计算方便，目前统一为小数形式。由于经纬度的小数位数不一致，会导致部分空间定位有细微的差别。结合监测任务计划和实际监测情况，统一经纬度的有效位数，目前保留到小数点后6位。（3）监测日期。上报的监测日期格式不一致，主要形式为：“2011－08－20”“2011／8／20”、或为时间型等。现统一其形式为“2011－8－20”，年份：填满4位；监测月份：1—12，月信息小于10，前位无需补零。注意检查，监测年份是否为该年度；月份是否大于12；日期是否在该月的自然日以内。（4）采样深度与层号。部分地方监测机构在该填报“层号”的地方填写了采样深度，同时层号不统一，有的为中文———“表层”“中层”“底层”；有的为英文———“S”“M”“B”。《海洋监测规范》中对水深和相应的采样层次进行了规范。对层号，统一用英文表示。其中：表层为S；底层为B；若只有一个中层用M表示，若为多个中层，则分别用M1、M2、M3等顺延表示。另需检查层号与层深的匹配情况，若层号为S（表层），则采样深度应小于或等于2m；层号为B（底层），则采样深度大于3m。部分填报机构填写层号时，出现表层填写“B”和底层填写为“D”的现象，可能是按“表层”和“底层”的首拼音字母填写造成的。

1．7监测参数不规范类型的处理

监测参数的不规范类型问题，主要应注意以下几点。（1）大于号、小于号。某些监测参数如重金属、大肠杆菌数等，其监测参数值上报中含有大于号或小于号。此类数据通常不影响其评价等级的判定，但会影响该类参数最大值、最小值、均值等统计的结果。可研究该参数的理化性质并联系地方监测机构，确认该参数的具体值大小。其缺省解决方法是删除大于号、小于号，以便该参数的统计及评价。（2）未、无、“－”等字样。结合年度监测任务，联系地方监测机构，确认该监测参数是未被监测，还是低于检出限。未监测用空值表示；低于检出限用“未检出”表示。（3）空格及其他无效字符。上报的监测数据中常含有空格及其他无效字符，使得计算机在识别、归类等过程中出现异常。可核查监测数据的内容和性质，确认为无效字符后，对数据值前、后含有的空格或其他无效字符进行删除处理。对经纬度空缺，可核查相关的原始上报数据集和年度监测工作方案，或联系地方监测机构；对层号空缺，可根据水深判断，或联系地方监测机构补缺；对某些监测参数值空缺，可结合年度监测任务，联系地方监测机构，确认该监测参数是未被监测，还是低于检出限，再根据判断结果给出规范填写。

2监测数据的齐全性检验

海洋环境监测数据的齐全性检验，是以海洋环境监测方案为依据，检查监测方案中规定的监测数据是否全部上报完整。首先对国家海洋环境监测工作任务以及各海区年度海洋环境监测工作方案进行分析，对监测工作方案进行信息解析，按空间维度、指标维度和时间维度对监测任务进行细化，空间维度包括监测站位、监测区域、管辖区域等，指标维度包括监测参数、监测要素等，时间维度包括监测时间等。其中监测站位、监测参数、监测时间是空间维度、指标维度和时间维度的最小单元，通过对最小单元的数据量统计，可获得其上一统计单元的数据情况。因此对海洋环境监测方案的解析按监测站位、监测参数和监测时间3个方面进行分解。对照监测方案，检查接收的数据是否存在区域、站位或频次等有空缺监测的情况。记录缺失的原因：可能由于某些缘故未能进行监测、地方调整了监测方案或地方漏报。仔细核查年度监测任务计划，联系地方监测机构确认。

3站位基础信息数据质量控制

3．1空间位置检验

空间位置检验主要针对调查单位在站位信息汇总过程中可能出现的录入错误。将调查站位经纬度转换为十进制的单位后，通过利用GIS生成站位图的方式检查站位落点所在位置，看其是否落在规定的监测区域，对于断面上的调查站位，还要检查其是否明显偏离断面沿线。同时还需检查“相同的站位编号，经纬度不同”和“不同的站位编号，经纬度相同”等数据空间位置精度的问题。对于该类问题，可通过核查相关的监测数据、核对年度监测任务、联系监测机构确认等方法，予以更正。

3．2站位基础信息一致性的检测

根据站位基础信息一致性检验方法，即监测区域、站位编号、站位经纬度、监测日期等基础信息决定一条数据记录，根据不同的监测任务和监测要素，分析站位基础信息一致性是否符合。针对站位编号和经纬度不一致的情况，从空间位置检验是否合理，并核实监测方案进行解决。针对监测日期相同且站位编号相同等情况，判断两条记录的监测参数值是否完全一致，若完全一致则认为是重复记录；若不完全一致，可认为是平行样记录，并进一步核实。

3．3数据记录重复的处理

海洋环境监测数据的上报过程中存在很多重复的数据记录，产生这种重复记录的主要有如下原因。（1）地方上报数据时，重复上报了监测数据集，如8月份上报了5月份和8月份两份数据；年底将全年的监测数据再次上报。（2）不同监测机构报送的重复数据，如属于上下两级监测机构（省、计划单列市）重复报送。（3）地方监测机构监测人员填写报表时，将某些记录重复填写。（4）地方监测机构监测人员填写报表时，将平行样的数据填写。（5）数据集合并时，将曾经合并过的数据集再次合并。对于重复的记录数据，在建立环境监测数据库中应做剔除处理。

3．4平行样的处理

平行样数据只作为监测数据质量保证的辅助，在实际统计、评价和监测数据时需区别对待。一般来说，只有少数站位上报的数据是平行样。为了数据量统计、环境质量评价等的需要，对于平行样的记录数据，可将监测参数值进行求平均处理。

4监测参数数据质量控制

4．1值域一致性检验

在海洋环境监测中，每个监测参数有其对应的经验值域范围，通过值域检测规则对填报的监测数据按不同监测要素分别对每个监测参数值进行检验，对于超出值域范围的值，需进一步分析该区域其他站位、其他频次、周边站位的参数值情况，并结合监测任务性质以及超出值域比例，从而判断该参数值的可靠性。

4．2逻辑一致性检验

某些监测参数间存在一定的逻辑关系，即监测参数与监测参数间存在某种相关关系，有些关系具有一定的规律性，根据逻辑一致性检验方法，对于不符合逻辑一致性的监测数据记录，应进一步同监测机构进行核实。

4．3数据输出

对文件进行批量检验处理，对于检验结果，给出合理且足够详细的错误提示，并保存质检日志，使得数据便于修改。为了区别一个数据是否进行了质检、是否通过质检，以及了解质检的情况，需要对质检过后数据增加一个质量控制符号，简称质量符。综合参考“国标GB／T12460－2006海洋数据应用记录格式”以及“908海洋化学标准记录格式”等质量符格式。其中，“908海洋化学标准记录格式”中质量符2表示可疑倾向正确，3表示可疑倾向错误，本研究将这两者综合考虑，记为可疑；另外，“908海洋化学标准记录格式”中质量符8表示痕量，由于与“未检出”有一定的重叠，因此本研究只采用“未检出”。表1给出海洋环境监测数据的质量符及说明。一般来说，数值型的监测参数数据，对其质量检验出有问题的只能作为“可疑”处理，不宜随意修改或删除。除非经过专家经验检验，并经监测单位核实，可明确其为错误的，其质量符方可标注为“4”。对于监测站位基础信息，如监测日期、站位编号、经纬度、层号等，检验出有问题的，可根据检验情况，标注其质量符为“4”或“3”等。按步骤完成监测数据处理流程后，可分年度或季度对处理的文件形成数据处理报告，并制作经标准化处理和质量控制后的标准数据集。

5结束语

数据理论论文范例6篇

数据理论论文范文1

数据理论论文范文2

数据理论论文范文3

数据理论论文范文4

数据理论论文范文5

数据理论论文范文6

免责声明

AI高效写作

相关文章

相关期刊

大数据

数据

中国科学数据

大数据时代

相关精选

在线服务