前言:中文期刊网精心挑选了数据类型范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据类型范文1
1、赞成中立反对属称名数据类型。
2、只说明某一事物与其他事物在属性上的不同或类型上的差异,它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小
3、只说明某一事物与其他事物在属性上的不同或类型上的差异,它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小,比如性别、颜色类别、人口数、学校数、被试对某一书屋的态度(赞成、反对、没有意见)等等,它们只能用具有相同属性的个体数目来统计。这是根据数据反映的测量水平而分的四种类型中的一种。
(来源:文章屋网 )
数据类型范文2
【关键词】数据库管理系统 数据类型 存取机构
【中图分类号】P208 【文献标识码】A 【文章编号】1674-4810(2014)03-0043-01
一 引言
传统的数据库系统只适用于管理二维数据(如表格、正文、字符串等)。随着数据库应用领域的不断扩展,涌现出声、图、动画等新的数据类型。这些类型的共同之处是要处理基于空间概念上的数据。近年来,美国、德国等科技先进国家正在开发对空间数据库系统的研究,试图在大部分传统的数据库管理系统(DBMS)的基础上捆绑一些处理空间信息的功能模块。
二 空间数据库管理机制的特点
空间数据库管理系统是空间数据库的核心软件,将对空间数据和属性数据进行统一管理,为GIS应用开发提供空间数据库的管理系统除了必须具备普通数据库管理系统的功能外,还具有以下两方面的研究内容:(1)空间数据存储管理,实现空间数据强大的基础平台。和属性数据的统一存储和管理,提高数据的存储性能和共享程度,设计实现空间数据的索引机制,为查询处理提供快速可靠的支撑环境。(2)支持空间查询的SQL语言,参照SQL-92和OpenGIS标准,对核心SQL进行扩充,使之支持标准的空间运算,具有最短路径、连通性等空间查询功能。
三 空间数据类型
传统的DBMS只能处理一些基本数据类型、时态数据类型、货币数据类型以及结构数据类型等。然而空间数据库可以应用到许多不同的领域,如扩充传统数据类型、编制转换函数或编程模拟新类型,但这种方法的效率不是非常理想。当我们运用数据库引擎时,我们必须要增加空间数据类型处理的功能。由于篇幅有限,在此我们就暂时给出几个面向空间实体的数据类型。
1.如果一个对象针对某个参照系,它的尺寸大小无关紧要,可抽象成为一个点模型
如一所学校或一家医院所占空间在小比例尺地形图上无法表示大小时,通常我们用一个点来表示。数字线划数据是将空间的物直接抽象为点、线、面的实体,用坐标描述它的位置和形状。这种抽象的概念直接来源于地形测图的思想。当要绘制地图时,根据道路等级给它配赋一定宽度、线型和颜色。这种描述非常适用于计算机表达,用抽象图形表达地理空间实体。
2.影像数据包括遥感影像和航空影像,它可以是彩色影像,也可以是灰度影像
影像数据在现代GIS中起到越来越重要的作用。其主要原因:一是数据源丰富,二是生产效率高,三是它直观而又详细地记录了地表的自然现象,人们使用它可以加工出各种信息,如进一步采集数字线划数据。在GIS中影像数据一般经过几何和灰度加工处理,使它变成具有定位信息的数字正射影像。
四 关系—对象型存取结构
关系—对象型存取结构相对传统的结构化数据模型,用更丰富的数据语义区别了对象类属性和关系类型属性两个概念,使其适用于半结构化数据的存储与管理。从分析空间数据的半结构化特征入手,以空间数据的嵌套关系为管理对象,实现了在关系型数据库中对空间半结构化数据的存储与管理。如适用于二值图像存储的四叉树;有利于表示空间规则物件的八叉树;GIS领域里常用的栅格数据结构和拓扑型数据结构“点—线—面”结构;此外还有R树、R+树等。这些结构在不同领域得到广泛的应用,但是无论哪种结构,都有局限性,只能适用于某一领域或几种应用领域。很难找到一种通用的空间数据结构来有效管理不同类型的数据。
五 结论
数据库因不同的应用要求会有各种各样的组织形式。数据库的设计是根据不同的应用目的和用户要求,在一个给定的应用环境中,确定最优的数据模型、处理模式、存贮结构、存取方法,建立能反映现实世界的地理实体间信息之间的联系,满足用户要求,又能被一定的DBMS接受,同时能实现系统目标并有效地存取、管理数据的数据库。简言之,数据库设计就是把现实世界中一定范围内存在的应用数据抽象成一个数据库具体结构的过程。
参考文献
[1]郭力平等编著.数据库技术与应用——Visual FoxPro[M].北京:人民邮电出版社,2008
[2]萨师煊、王珊编著.数据库系统概论[M].北京:高等教育出版社,2000
数据类型范文3
关键词:聚类分析;初始中心点;K-原型算法;聚类算法;混合属性数据
中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)11-2713-04
A K-prototypes Algorithm Based on Improved Initial Center Points
CHEN Dan, WANG Zhen-hua
(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithm's procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes.
Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data
聚类是数据挖掘中的一种数据分析技术,具有重要意义和很强的挑战性。其基本原理是将数据划分成有意义的簇,相同簇的对象之间具有较高的相似性,而不同簇的对象之间则相似程度较低。这种数据分析技术广泛应用于模式识别、数据分析、图像处理和商业研究等方面。目前已划分出多种聚类算法,常见的聚类算法有基于划分的K-均值,基于密度的DBSCAN算法,基于层次的BRICH算法等。基于划分的聚类算法K-means简单快速,对处理大数据集,但它是基于欧氏距离的划分,难以满足混合属性集聚类的要求。文献[1-2]对K-means算法进行扩展,先后出现了K-modes算法和K-prototypes算法。K-prototypes算法能够有效地处理混合属性数据集聚类的问题,但它的缺点也很明显:1) 对于不同的初始值,可能会导致不同的聚类结果;2) 需要用户给定初始参数,这些参数的选择需要用户具备大量的先验知识才能确定,而用户通常对数据集缺乏先验知识导致所选参数对聚类结果产生很大的影响;3) 算法非常容易受“噪声”干扰,导致聚类精度下降。
近邻法是由Cover和Hart于1968年提出的,是非参数法中最重要的方法之一。它的原理是以全部训练样本作为代表点,计算测试样本与所有样本的距离,并以最近邻样本的类别作为决策,具有原理直观,方法简单等优点。因此,本文提出了一种基于近邻法的初始中心点选择策略对算法进行改进,利用近邻法,启发式地获得初始中心点和k值。最后用一个基于最小距离的规则来识别异常数据点,防止“噪声”的干扰。
改进后的算法能有效地解决传统K-prototypes算法的缺点,基本特征有三点:1) 在选择初始中心点的时候,采用近邻法,有依据的选择初始中心,避免了传统K-prototypes算法对初值选择的盲目性;2)它可以自动的获取k个聚类,解决了K-prototypes算法k值必须预先给定的问题;3)为了避免算法中的“噪声”干扰,采用了一个基于最大距离的启发式规则,将离聚类中心最远的数据点识别为“异常数据点”;经过实验证明,其聚类后的精度和稳定性要优于原算法。
1 K-prototypes算法
K-prototypes算法是由Huang提出的可以对分类属性和数值属性相混合的数据进行聚类的一种有效算法[2]。其基本思想和K-均值算法类似,只是在K-prototypes算法中定义了一个对数值与分类两种属性都计算的相似性度量,以此作为聚类的目标函数,通过不断更新聚类原型来达到优化目标函数,获得最优聚类效果的目的。
算法描述如下:假定待聚类对象集合为X={X1,X2, …,Xn},由n个观测对象组成,属于混合型数据集,且每个观测对象Xi={Xi1,Xi2, …,Xin}有 个属性,由A1A2, …Am来表示,其中A1A2, …Ap为数字属性,Ap+1A p+2,…Am为可分类属性,属性Aj取值域用Dom(Aj)表示,且xij∈Dom(Aj)。对于可分类属性有Dom(Aj)={aj(1),aj(2), …,aj(nj)},其中nj指属性Aj取值的数目。聚类中心用Z表示,相应的,简单记作Za=(za1,za2, …,zam)。
K-prototypes算法的距离函数d由数值型和可分类型两部分组成[3-4]:
d(Xi,Za)=dr(Xi,Za)+rdc(Xi,Za)(1)
其中:γ∈[0,1],为分类属性的权重参数;
dr(Xi,Za)=(xij-zaj)2,由欧式距离度量;
rdc(Xi,Za)= γδ(xij,zaj),
当xij≠zaj时,δ(xij,zaj)=1;
当xij=zaj时,δ(xij,zaj)=0.
K-prototypes算法最小化目标函数[4]:
F(W,Z)=wiad(Xi,Za)(2)
满足:
wia∈[0,1];1≤i≤n;1≤a≤k
wia=1;1≤i≤n
0≤waai≤n;1≤a≤k
综上所述,K-prototypes聚类算法具体步骤如下:
1) 初始化初始聚类数k和聚类中心Z,即从数据集中随机选取k个初始聚类原型;
2) 按照2)式定义的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;
3) 对于每个聚类, 重新计算新的聚类原型;
4) 计算每个数据对象对于新的数据原型的差异度,如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;
5) 重复Step 3和Step 4,直到各个聚类中不再有数据对象发生变化。
2对K-prototypes算法的改进
针对上面列出的K-prototypes的不足,该文提出一种基于近邻的初始点选择算法,该算法思想来源于近邻方法[6],可确定初始的中心点集和 值。并在原型算法中加入适当的启发式规则,使算法能够有效地辨识异常数据点,综合这三点改进,算法获得更好的稳定和聚类结果。算法流程图如图1。
2.1 基于近邻方法的初始中心点选择策略
基于近邻方法的初始聚类中心选择策略基本思想为:以全部样本数据作为代表点,计算测试数据点与所有样本之间的距离,如果小于初始阈值,就把该点划分为与测试数据点相同的类,记数变量增1,同时更新最短距离。最后选择邻居数目最多的数据对象作为初始中心点。
样本点 的邻居定义为P=Neigbour(x, θ):
{
判断P是否为x的邻居;
IfDist(P,x)≤θ返回1;
Else 返回0;
}
其中 为两个数据对象的相似度量函数。
算法描述如下:
1) 定义一个初始阀值θ和中心点集Z,Z初始值为空;
2) 从数据集中随机选一个点Q作为起始点;从Q开始递归地按照深度优先方式遍历各点,P=Neigbour(Q, θ) ;如果返回值为1,则判断P属于以Q为中心的聚类,更新阀值θ,并使初始值为0的局部变量m=m+1(用于记录Q的邻居数目);否则退回到前一点继续搜索。遍历数据集中的每一个数据点;
3) 选择邻居数目最多的数据对象作为第一个初始中心点,加入到Z中,初始值为0的全局变量k=k+1;
4) 将原数据集删除中心点及其邻居,如果还有未被聚簇的点,即在这些数据点集中重复执行(2)-(4);
5) 输出初始聚类中心Z和k。
2.2 对异常数据点的识别
聚类算法是将数据集中相似的数据归为一类,因此理论上,一个簇中的所有数据点都应该离簇中心点比较近。然而可能存在一些异常点,它们不属于任何聚簇。为了有效识别这些异常点,在K-prototypes中加入以下启发式规则,在算法进行全局搜索的时候,引导算法避免异常数据点的干扰。
加入的算法启发式规则描述如下:
Min{d(Xi,Za)} ≤ε; 1≤i≤n; 1≤a≤k(3)
其中ε为距离阀值。
算法在最后利用这个启发式规则来检验聚类结果是否满足这个条件,不满足则标记为异常点;如果所有的异常点数目小于阀值ψ,则算法结束;否则,则将所有的异常点归为一类,令k=k+1; 重新迭代,直到所有的异常点数目小于ψ。
2.3 改进后K-prototypes算法步骤
综上所述,改进后的算法描述如下:
输入:待处理数据集S,参数 θ,ε,ψ,γ
输出:k个聚簇
步骤:
Step 1:使用数据预处理技术处理不完整、有噪声的数据集,为后续聚类做准备。
Step 2:使用基于近邻的初始中心点选择方法获得初始中心点集Za=(za1,za2,…,zam)和聚类数k;
Step 3: 按照(2)式的目标函数最小化原则,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;
Step 4:对于每个聚类,重新计算新的聚类原型Za’;计算每个数据对象 对于新的数据原型Za’的差异度d(x,Za’),如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;
Step 5:重复Step 3和step 4,如果各个聚类无数据对象发生变化,转至Step6;
Step 6:利用启发式规则(3)来检验聚类结果,标记异常数据点,如果异常数据点数小于ψ,算法结束;否则将这些异常数据点归为一类,并使k=k+1,转至Step3,反复迭代,直至使异常数据点控制在较小范围内,算法结束。
3 实验结果与分析
为了验证所改进后的K-prototypes算法的有效性和可行性, 实验过程分别采用随机选择初始点的K-prototypes算法和改进后的K-prototypes算法对给定数据集进行测试,并比较分析聚类结果。
系统配置为:Intel 酷睿2 双核 CPU,1G内存,Windows XP,应用Matlab6.5平台进行实验仿真。
3.1 实验1:人造数据实验
为了显示的直观性,我们构造的数据样本共有300个样本,可以划分为3类,分别为A类、B类和C类。每个样本具有2个特征:一个数值型和一个分类型。使用随机选取十组初始聚类中心所得到的最坏与最好结果与优化选取初始聚类中心的算法所得到的结果进行比较。如图2所示。
实验1参数设置:θ=0.20,ε=4.5,ψ=50;γ取0.5。
从图4可以直观地看出,传统K-prototypes算法对于不同的初始聚类中心会得到差别很大的聚类结果;这说明初始聚类中心的选择对算法的分类性能有很大的影响;图5是采用改进后的K-prototypes算法,相比之下,改进后的K-prototypes算法具有更好的分类效果。
3.2 实验2:标准数据库数据实验
实验2采用UCI机器学习库[7]中的真实数据集Voting和Cleve作为聚类对象,其中Voting为分类型数据集,而Cleve为混合类型的数据集,分别用原始K-prototypes算法和改进后的K-prototypes算法对其进行聚类分析,数据集描述如表1所示。
上述数据集Voting、Cleve都包含多个属性,不能直观地显示其聚类结果,故从正确识别率和稳定性两个方面进行分析。
3.2.1 评价标准
为了将原始数据的分类特征与算法得到的聚类结果作比较,本文采用聚类结果正确率作为聚类实验结果的评价标准。
评价聚类效果的指标如下:
E=(n/N) ×100%
其中:n为正确分类的对象数,N为总对象数。E∈[0,1],为正确识别率,其值越大,表明聚类结果越精确;反之,聚类结果误差越大。
4.2.2 聚类性能分析
实验过程中,两个算法的参数设置分别如下:在改进后的K-prototypes算法中,对于Voting,Cleve两个数据集,分别设置阈值θ=0.15,ε=4.5,ψ=70;θ=0.20,ε=4.8,ψ=50,…,每组阈值分别运行5次;γ分别取1,0.7。
将传统算法运行10次,通过打乱数据集的各个数据位置,反复仿真得出以下聚类结果。
表2是对两组实验数据的聚类精度值的对表,从表2可以直观地看出:采用改进后K-prototypes算法进行聚类,得到的聚类精度都在90%以上,比原始K-prototypes算法聚类精度高很多。而采用原始K-prototypes算法聚类得到的结果有时高,有时低,波动比较大,说明原始K-prototypes算法对初始值很敏感,对于不同输入顺序的初始值而得到不同的聚类精度;相比,采用改进后的K-prototypes算法,每组实验的聚类结果波动很小,聚类精度高。由此可证明,改进后的K-prototypes算法成功地解决了原始算法对初始值非常敏感,参数必须预先设定和对易受“噪声” 影响等缺点。因此,实验结果表明:本文提出的基于近邻法的K-prototypes算法在分类精度和稳定性两个方面都是十分有效的。
4 结论
该文提出了一种改进的K-prototypes混合属性数据聚类算法,通过近邻法获取初始中心点集和初始聚类数目,避免了初始中心点选择的盲目性和对聚类数目k值的依赖性;同时加入启发式规则,防止了“噪声点”的干扰。通过实验可以看出该算法成功解决了原K-prototypes算法对初始敏感的缺点,并且自动获取初始中心点集和初始聚类。通过对聚类结果的精度分析和稳定性分析,可看出改进后的算法优于传统的K-prototypes聚类算法。
参考文献:
[1] Ralambondrainy H. A Conceptual Version of the k-means Algorithm[J].Pattern recognition Letters,1995(16):1147-1157.
[2] Huang Zhexue. Extension to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998(2):283-304.
[3] 陈宁, 陈安等. 数值型和分类型混合数据的模糊K-prototypes聚类算法[J].软件学报,2001,12(8):1107-1119.
[4] 尹波,何松华.基于PSO的模糊K-prototypes聚类[J].计算机工程与设计,2008(11):2283-2285.
[5] 吴孟书,吴喜之.一种改进的K-prototypes聚类算法[J].统计与决策,2008(5).
数据类型范文4
关键词 网页布局;表格;框架;div+css
中图分类号 TP393 文献标识码 A 文章编号 1673-9671-(2012)051-0178-02
网页是网站构成的基本要素,而网页元素在网页中的组合决定了整个网站的最终效果,因此选择合适的网页布局类型及技术是关键。本文围绕网页布局的类型及布局技术进行了分析,并结合《三农服务网》实例进行了简单的说明。
1 网页布局类型分析
1.1 网页布局的类型
大致分为标题正文型、T字型、国字型、框架型、封面型、Flash型6大类。
1.2 布局类型的分析
1)标题正文型:页面分为上下结构,上面部分是标题、广告、导航等,下面部分是正文。
优点:结构清晰、简单,一目了然。
缺点:页面显得比较单调、枯燥。
2)T字型:页面顶部为网站标志、广告,下面部分的左列为主菜单,右列为主要内容。
优点:结构清晰,主次分明,容易上手。
缺点:页面显得呆板,变化较少,在页面停留时间久会感觉看之无味。
3)国字型:也可以称为“口”、“回”或“同”字型,页面分为上中下三部分,顶部是标题、广告,底部是网站的链接区、联系方式、版权声明等,中间部分分为左中右三列,左右分别列出一些小条,中间部分是主要内容。
优点:充分利用页面空间、增大信息量。
缺点:内容过多,显得页面拥挤。
4)框架型:一般分为左右框架型、上下框架型、综合框架型。左右框架型是一种左右分为两页的框架结构,一般左面是导航链接,右面是正文。上下框架型:与左右框架类似,区别仅仅在于它是把页面分为上下两页的框架。综合框架型:上面两种结构的组合,相对复杂的一种框架结构。框架型适合于聊天室、论坛、软件下载等网站的版面布局,
优点:框架型页面分割合理、布局结构清晰。
缺点:兼容性差、页面加载速度慢。
5)封面型:页面布局是一张精美的平面设计宣传海报,常用于网站首页。
优点:页面显得美观、大方、轻松,给人时尚优雅、自由的感觉。
缺点:文字信息量少,页面打开速度缓慢,浏览者不能直奔主题浏览信息。
6)Flash型:与封面型类似,只是其添加了动画效果与音频效果,表达的信息更丰富。
优点:灵活、表现力强,很直观的展现了网站的理念等,适用于网站的首页。
缺点:速度慢,浏览者需要漫长的过程才能浏览到所需的
信息。
2 网页布局技术分析
2.1 表格技术
表格用于在网页上显示表格式数据以及对文本和图形进行布局的强有力的工具。表格由一行或多行组成,每行又由一个或多个单元格组成。表格、行、单元格的标签分别为、< tr>、,添加表格、行、单元格时,就增加相对应的标签。
页面一般由嵌套表格的技术实现。嵌套表格是在一个表格的单元格中的另一个表格。可以像其他任何表格一样对嵌套表格进行格式设置。但是其宽度受它所在单元格的宽度的限制。引入嵌套表格,由总表格负责整体的排版,由嵌套的表格负责各个子栏目的排版,并插入到总表格的相应位置中。
使用表格布局时,浏览器一般是等整个表格的内容都接收到以后才显示表格里的内容,因此尽量把一个表格拆分为若干个表格,加快打开页面的速度,优化页面。
优点:使用表格布局网页,可以精确地控制各网页元素在网页中的位置组织整个网页的外观,通过在表格中放置相应的图片或其他内容,即可有效地组合成符合设计效果的页面。
缺点:使用过多的表格,特别是嵌套表格,会造成页面垃圾代码过多且可读性非常差,影响页面下载速度,不符合W3C网页标准,网站不便于维护。
2.2 框架技术
框架把浏览器窗口划分为若干个区域,每个区域可以显示不同的网页。框架主要包括两个部分,一个是框架集,另一个就是框架。框架集是在一个文档内定义一组框架结构的网页。框架集定义了在一个窗口中显示的框架数、框架的尺寸、载入到框架的网页等。框架集文档本身不在浏览器中显示,它只是向浏览器提供如何显示框架以及在框架中显示哪些文档的信息,是一个用于存储框架的容器。框架则指在网页上定义的一个显示区域,每个框架都有自己独立的滚动条,方便访问者独立浏览这些框架。
优点:使用框架可以非常方便的完成导航工作,各个框架之间不存在干扰。框架还有个很大的优点就是网站的风格能保持统一,它把相同的部分单独制作成一个页面,作为框架结构一个子框架的内容给整个站点公用。
缺点:框架是有边框的,占用空间。采用过多的框架会增加下载网页所需的时间,影响网页的浏览速度,对于内容多、布局复杂的网站不宜采用框架布局,且框架结构的页面兼容性不好。
2.3 div+css
div+css是网站标准中常用的术语,是一种网页的布局方法,有别于传统的html网页设计语言中的表格(table)定位方式,可实现网页页面内容与表现相分离。
xhtml是一种在html基础上优化和改进的新语言,在xhtml网站设计标准中,要求用div+css的方式来实现各对象的定位,即div定义网站结构(即布局网页)、css创建网站表现(即格式化网页元素),从而实现更加丰富的网页效果,提高网页的传输速度和维护更新效率。在xhtml网站设计标准中,不再使用表格定位技术,而是采用div+css的方式实现各种定位。
优点:表现和内容相分离,提高搜索引擎对网页的索引效率。代码简洁,提高页面浏览速度,易于维护和改版,只需简单的修改几个css文件就可以重新设计整个网站的页面。
缺点:虽说div+css解决了大部分浏览器兼容问题,但是也有在部分浏览器中使用出现异常,比如火狐浏览器。而且div+css比表格定位复杂的多,不适合初学者。
2.4 图像处理软件技术
Photoshop等图像处理软件提供了“切片”工具,实现把图形转换为网页布局。首先是在图像处理软件中绘制出页面布局图,然后根据实际切出的需要区域,应用到页面当中。
优点:布局精确,适合比较复杂的页面。
缺点:过程复杂,要求能熟练使用图像处理软件。
3 《三农服务网》的网页布局分析
3.1 使用的布局类型分析
使用者:《三农服务网》是一个农业网站,浏览者多为农民,他们的电脑水平比较相对比较差,太复杂的网页使他们无从下手,因此设计的页面结构尽量简单,并且能一目了然。
网站内容:网站主要以视频教学为主,文字为辅,除首页内容丰富一些,其他子页面的内容稍微单调,因此尽量使得子的页面内容显的饱满,避免出现过多的空白、枯燥区域。
综合以上的两大主要因素,《三农服务网》以简单的国字型网页布局。结构简单、内容清晰,使用方便。页面顶部为标志+主题语+导航栏,底部为版权声明、友情链接,中间部分分为左右两列,考虑到内容稀少,单调,子页面左列也放置了导航栏。《三农服务网》的首页、子页面如图1、图2所示。
3.2 使用布局技术分析
图像处理软件技术:能处理大量的图片,特别是首页的图片,都尽量处理与网站的主体颜色“绿色”协调一致。还可以设计一些特殊字体(如页面顶部的主题字体),美化页面。
表格技术:可以精确地控制由photoshop切片工具切割的图片,组合成符合理想的效果页面。
综合两种技术的优点,《三农服务网》页面布局轻松地实现了预期的效果。使用图像处理软件技术、表格技术的布局效果如图3、图4所示。
4 结束语
网页的布局实际是一个信息合理化整合的一个过程,在实际制作过程当中,依据实际情况,合理的选择网页布局的类型及布局技术,尽可能地做到“兴其利,废其弊”。
参考文献
[1]扬森香,聂志勇.网页设计与制作案例教程[M].北京大学出版社,2009.
[2]杨纪梅,肖志强.网页设计与制作指南[M].北京:清华大学出版社,2010.
[3]章舜钟.网页设计与制作[M].北京:电子工业出版社,2010.
[4]焦坤.如何改善网页布局以提高检索效率[J].现代情报,2008.
[5]梁斌,柯华坤.网页布局技术比较与应用优化[J].中国教育技术装备,2009,11.
数据类型范文5
随着我国信息化建设的不断深入,信息资源在档案的行政事业管理中不断需要加强,以保证档案的管理和利用能够健康快速地发展。由于档案工作牵扯到的社会信息以及业务工作非常多,因此对于档案信息资源的开发和利用已经成为国企档案工作发展的基本目标,是适应国企改革发展需要进行的时代性的创新和变革。新时期档案实业要达到健康持续的发展,需要对各类文件、会议资料、电传等等加以管理,还有与企业发展有关的技术资料、科研报告、论文资料等,以及企业的立式档案,线性文件等都要加强管理。不同的应用领域,其侧重点也不尽相同。档案的管理系统涉及到的内容众多,当前运用计算机辅助管理系统,对档案的信息和实体进行管理,是非常有必要的。
1 数据库类型
数据库的管理平台包含了档案的管理系统的全部内容,从当前档案管理的数据库的发展里程来进行数据库的类型分类,可以看到:
从档案的发展初期,采用手工录入的方式,建立档案目录表,要求档案管理人员参照档案的放归规定,将各类纸质实体档案加以收集、整理、立卷和归档。进入计算机辅助档案目录管理之后,采用独立的计算机管理的方式,将档案的目录加以整理,形成了桌面式的?稻菘獾蛋改柯脊芾砥教ā5搅嘶チ?网时代,依托网络建立大中型关系数据库,将数据平台中的扫描功能加以利用,形成了档案实体的扫描管理体系。
如今,数据库的全文检索功能,能够对档案的目录以及全文等加以扫描和管理,电子文件、多媒体文件等等,都可以进入非结构化数据管理体系中,而且通过管理结构的不断调整和优化,数据库管理已经达到了全文数据管理和数字检索的发展阶段[1]。
当前,国企的档案挂历I软件已经实现了数字化的接收、整理和编目的技术。通过计算机管理将档案的利用和移交全程加以运行,网络的查询以及调档等,通过服务,实现了管理系统的运行,即便是海量的信息,全文数据库技术通过OCR档案管理识别技术、电子文件全文内容索引和存储技术等,都能达到高效快捷的档案的索引和存储,提高了档案的查全率和查准率,能够将全文检索手段予以提高,对于档案的利用水平来说是十分高效和便捷的。但是,由于后台数据平台的数据库的类型的不同,在物理原理上,档案的数据物理储存的功能不尽相同,因此也不能保证数据段的一致性以及完整程度。这两类数据库的开发结构不同,因此在系统开发的难度上有所增加,增加了数据库维护的成本。
两类数据库的类型,分为传统的关系型数据库管理系统以及现代信息检索系统,前者的缺点在于不具备数据处理效率,灵活性一般,后者需要结构化数据以及元数据的支持。因此,在集成传统数据库管理系统的基础上建立新的数据库管理平台,体现数据存储的管理非结构化,将数据的关系特性和全文特性予以表现,构成档案管理的新课题。混合型数据库就应运而生,在当前国企档案管理系统中发挥着重要的作用。
2 数据库应用以及技术特点
1)数据库采用的是拥有自主知识产权的数据管理系统,支持关系数据模型以及强大的多语种核心语法集,能够进行高扩展性和稳定性的多语种检索全文,遵照标准化和开放性的原则,在数据访问中能够做到跨平台和标准化,为企业服务接口服务。
2)该系统的特点首先是能够对数据进行半结构化和非结构化的混合统一管理,对于海量的数据,从检索技术和数据库管理技术的角度出发,保证数据库管理技术中的事务性和完整性,对全文进行检索的数据查询功能利用的是非结构化索引融合,采用的是多种查询方式和相互操作的
实现[2]。
3)OCR识别技术,通过对暗、亮的模式的扫描,采用扫描仪等设备对字符进行识别,然后将形状识别为计算机文字,形成文本资料和图像文件进行分析处理。
4)PDF技术是通过设备的分辨,将文字、字型等封装在一个文件中,设置超文本连接或者动态影像等电子信息,提高集成度和安全可靠性。
5)全文信息自动抽取技术,是将文件的无关信息进行过滤,然后得到全文数据库的索引等的自动加载,将电子文件以附件的形式入库,提供原版的浏览。
3 系统架构
由数字化扫描将档案生成目录数据或者是电子文件,通过OCR识别技术生成档案,加载到档案资源库中,生成数据导入数据表,自动挂接电子文件,通过全文信息技术的抽取,建立全文索引。
用C/S和B/S相结合的模式提供档案信息的管理和利用,其中以C/S方式提供档案信息管理和维护功能,以B/S方式提供档案信息的检索和利用功能。
应用平台调用业务层数据访问接口,在不影响其他功能模块的前提下,构建五大业务功能模块客户端,各业务功能模块再通过数据层数据访问接口,采用混合型数据库管理系统,提供访问接口的服务:档案维护、档案管理、档案利用、系统检索利用和Web管理,只需更各业务功能模块和档案系统利用平台(Browser)相应的模块,就能通过档案系统管理平台(Client)问业务功能模块统一访问和操作数据库。整个系统可存放档案目录,可在支撑平台和安全保障的支持下对用户信息、日志信息、系统设置等系统数据进行维护,确保全文、电子文件等档案信息能够被安全、访问和利用,并在数据库平台中加以封装,并稳定、可靠地运行。
数据类型范文6
关键词:数据分类模型 关联性 贝叶斯
1 引言
随着我国城镇化水平不断提高,燃气管道接入千家万户。随着用户逐步增长,传统的燃气计费及用户管理方式需要消耗大量的人力物力,已经无法满足现有状况的需求。信息技术的发展为燃气计费及用户管理提供了有效的解决方案。通过构建一个基于B/S分布式的燃气计费及用户管理系统能够提高燃气企业业务管理效率[1]。
然而,随着用户数量以几何级数的方式增长,燃气企业所收集到的海量用户信息及业务数据信息离散的分布在系统数据库中。传统的数据查询方法仅利用用户的查询请求从海量数据中提取信息,不仅增加了查询匹配复杂度,而且消耗大量的系统资源[2][3][4]。面对复杂的用户查询请求,系统无法有效地分析用户请求信息,以至于返回的低相关度结果不能满足用户需求[5][6]。此外,企业的发展离不开业务统计信息,数据以静态方式存储,系统忽略了数据之间的关联性,使得海量一维数据无法满足企业需求,进而导致不能为企业决策提供支持。
本文设计了一个基于贝叶斯的多维数据分类模型,利用数据之间的相关度,将数据进行分类,根据不同的数据查询维度,将数据进行多维度组织。经过仿真实验,该模型能够提高数据查询效率。
2多维数据分类模型
在数据库中,用户数据的存储方式依赖于关系数据库的结构化存储模型,即。其中user表示一个用户信息的存储结构;ID为系统为该用户分配的ID号,ID作为主键通常用来唯一标识用户的信息;name作为结构化信息中的一个特征项被用来表示用户的名字;address代表用户的居住地址;cost,表示用户的消费情况。
传统的分类方法通常采用一维的方式对数据进行分类。例如,根据用户所在区域、用户消费状况、用户信誉度或用户入库时间等特征项进行分类。这种简单的分类方法无法满足用户多维的查询及统计需要。在数据分类之前,需要定义一个分类维度库,即D=(d1,d2,...,dn)。通过分层的方法将每个分类维度通过分类维度来表述,也就是说,将现有的分类维度进行抽象,生成顶层分类维度集合,若新生成的分类维度隶属于其中的某个,则将其隶属于该分类维度下,成为其子节点。从以上过程看出,该分类模型是个不断学习变换的模型,可通过树形结构进行表示。子类的创建需要通过评价函数来给出,这里我们选用贝叶斯分类方法,当一个新类别创建后,将其与顶层类别进行匹配,若属于其中某一类的概率较大,则归属于该类别。当某一新类别隶属di或di的子孙后,那么该类别可以被视为di或di子孙的一个特征,即该新类别与其他类别可以表示di或di的子孙。那么一个类别可以表示为di=(unode,dnode,f),其中unode为该di的父类别,dnode为该di的子类别集合,f为di的特征。
贝叶斯分类模型是一个利用先验知识来构建分类树的模型。每个类别均有特征对其进行描述,也就是f在创建该类别时需要进行初始化。本文采用基于训练模型的分类构建算法。首先定义分类特征F=(f1,f2,...,fm),F为当前所有分类D的特征集合,一个分类di可以由一个或几个特征f来表示。设FB=(fb1,fb2,...,fbk)为特征训练库,根据特征fi从文本或其他信息选择具有该特征较为明显的信息进行分解,将含有或表示该特征的分解信息存储至FB中,这些信息即可表示一个fbi,也就是说,fbi中存储着表示该特征的离散的信息,若某一数据需要进行分类识别,那么可从该信息中提取若干特征与特征信息进行匹配,首先获取该数据的特征,再将其特征与fbi进行匹配,以判断其是否属于该fbi,再根据fbi所隶属的fi,从而确定该数据隶属于某一类别di。当判断该数据属于某一顶层类别后,还需进一步进行细化,以判断该数据是否属于其子类,若通过特征匹配后属于某一子类,则循环此过程,直到将该数据判定属于分类树中的叶子节点。反之,若在分类判别过程中出现无法确定该数据分类后,则可进行评估,并判定是否生成一个新的类别。因此,数据的分类判别过程也是分类树的一个不断学习进化的过程。在数据库中的任一数据均可能具有多个类别,通过确定某一分类,即可获得该类别下的数据,分类过程如图2所示。
计算分类隶属度可通过贝叶斯分类模型来计算其隶属度的大小,根据评估结果进行排序,可分别列出所属分类。贝叶斯分类模型还可以被用来计算特征隶属度,根据隶属度大小将特征进行排序。在特征计算过程中,数据包含多个特征,但由于用户分类查询的意图对查询特征具有较大影响,因此,需要在计算隶属度的过程中加入一个判定阈值来消除某些相关度低特征的影响,还需要引入一个特征识别的机制,即一旦认定该信息属于某个特征,且该特征较为重要,则该信息即使可被视为噪声也要作为一个特征信息,也就是说,可根据先验知识将某些重要的特征信息或标志性信息分配较高的权重,在计算特征隶属度或分类隶属度的过程中,将其作为重要信息而保留。
3 实验结果及分析
在仿真实验中,数据库中存储的数据量为5000。通过运行分类算法,数据库中的信息被划分为46个类别。本文与传统未分类查询算法进行比较,并分别进行了1000次查询。图3表示查询时间对比结果,图4表示查询相关度对比结果。
如图3所示,随着请求数量的不断增加,未分类查询算法始终拥有较高的查询响应时间,基于贝叶斯分类的查询算法则保持较低的查询时间。对于两种算法之间存在的性能差异而言,当一个查询进入到系统中,对于未分类查询算法而言,它需要从整个数据库中查询所需的信息,因此,它的查询空间较大。基于贝叶斯分类查询算法能够精确将数据内容分类,通过确定所查询数据的特征,能够将查询请求定位到某一类别,根据查询数据特征不断的缩小分类粒度,则可精确地定位所查询的数据,从而降低了查询空间规模,因此查询响应时间维持在较低的水平。
如图4所示,基于贝叶斯分类的查询算法根据数据之间特征的关联性,将数据进行分类,当用户输入查询信息时,快速精确地定位到分类节点上。因此,本文提出的算法能够获得较高的信息检索结果相关度,即所检索的相似信息集合中的信息被采纳的程度较高。从而验证了本文提出模型的有效性。
5 结语
本文提出了一个基于贝叶斯的多维数据分类模型,利用数据之间的关联性,构建一个自学习自调节的分类树,降低了查询空间规模,能够精确地将查询请求定位到所需的查询数据分类上,使得用户所获得的查询结果与查询请求具有高度的相关性。
参考文献:
[1] 李锴, IC卡燃气表预付费系统的研究[J]. 山西电子技术. 2006,3:86-88.
[2] 闭乐鹏,徐伟,宋瀚涛, 基于一类SVM的贝叶斯分类算法[J]. 北京理工大学学报. 2006,26(2):143-146.
[3] 孙天昊,陈飞,朱庆生,曹峰, 基于贝叶斯分类的增强学习协商策略[J]. 计算机科学. 2011,38(9):227-229.
[4] 彭兴媛,刘琼荪, 不同类变量下属性聚类的朴素贝叶斯分类算法[J]. 计算机应用. 2011,31(11):3072-3074.
[5] 曹玲玲,潘建寿, 基于Fisher判别分析的贝叶斯分类器[J]. 计算机工程. 2011,37(10):162-164.