神经网络文本分类范例6篇

前言:中文期刊网精心挑选了神经网络文本分类范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

神经网络文本分类

神经网络文本分类范文1

关键词:极限学习机;稀疏自动编码器;集成学习;文本分类

1 概述

随着现代社会的发展,互联网成为了人们获取文本信息的重要手段。然而网上的信息杂乱无章,使得人们很难快速而准确的获得所需要的文本信息。因此如何有效的对文本进行分类,帮助用户找到所需的信息成为当代信息技术领域的一个重要课题[1]。

本文提出利用深度学习中的稀疏自动编码器自动选取文本的特征,然后利用极限学习机作为基分类器进行文本的分类,最后结合Adaboost集成学习方法将极限学习机作为基分类器组合成一个效果更好的分类器。实验结果表明,该算法在文本分类方面,可以有效地提高文本分类的准确性。

2 相关理论基础

2.1 稀疏自动编码器

稀疏自动编码器(sparse auto encoder,SAE)是利用人工神经网络的特点构造而成的网络。稀疏自动编码器的训练过程分为两个步:第一步是预训练,即先利用无监督的方法将SAE的输入层和隐含层全部初始化,然后再利用逐层贪心训练算法确定网络的参数。第二步是微调,其思想是整个网络视为一个整体,用有监督学习的方法优化整个网络的参数,由于SAE训练过程的复杂性,具体过程可参考文献[2]。

2.2 极限学习机

针对传统神经网络训练过程时间漫长,优化困难等缺点,新加坡南洋理工大学的黄广斌教授提出了一种全新的单隐层前馈神经网络-极限学习机(Extreme Learning Machine,ELM)[3],该网络能够以极快的学习速度达到较好的泛化性能,从而解决了传统神经网络学习速度缓慢的限制。该网络主要由输入层,隐藏层和输出层组成,其中隐藏层的神经元通过激活函数把输入的数据进行变换,然后把变换后的数据输出到输出层,在网络中输入层和隐藏层的权值是随机设置的,只有隐藏层到输出层的权值需要求解,因此加快了网络的学习速度。

2.3 Adaboost分类器

由于单个分类器通常无法满足分类任务的要求,因此需要通过集成学习来构建并结合多个分类器来完成分类任务,这其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。该算法的核心思想是先从初始训练集训练出一个基学习器,再根据基学习器的变现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直到基学习器数目达到指定的值,最终将这几个基学习器进行加权结合。Adaboost是一种迭代算法,具体训练过程可参考南京大学周志华教授编写的机器学习课本中关于Adaboost算法的章节。

3 SEA文本分类算法

在本文中,结合稀疏编码器,极限学习机与Adaboost这三种机器学习方法提出SEA文本分类算法,该算法的工作流程如图1所示。

该分类算法的第一步为输入,输入的是经过了向量化表示的文本,但没有经过任何的手工特征提取。第二步是利用SAE算法对数据的重建能力自动选择文本的特征,用SAE算法选择的文本特征可以有效地复原原始文本信息。第三步是利用ELM分类器作为该算法的基分类器,ELM作为第四步中的基分类器参与训练,最后一步是输出该文本属于哪一类。

4 实验结果与分析

4.1 实验数据集与评价指标

本文选用的分类文本数据来源于新闻数据集[5],该数据集复旦大学计算机信息与技术系李荣陆提供,数据集标注比较规范,规模适中,适合于进行文本分类的仿真实验。

在文本分类中常用的评价指标有准确率P(Precision)和召回率R(Recall),公式如下:

P=M/(M+N),R=M/(M+T)

其中,M为正确分类到该类的文本数,N为错分到该类中的文本数,T为属于该类确误分为别类的文本数。

4.2 实验结果

为验证本文提出的SEA文本分类模型,需要将文本数据集进行预处理,对于SEA模型来说,就是进行文本分词。本实验文本分词采用的是NLPIR汉语分词系统,其主要功能包括中文分词,词性标注,命名实体识别,用户字典功能等,是国内比较成熟,用户较多的中文文本分词系统。经过文本预处理后,按照本文提出的SEA文本分模型进行实验,并和几种经典的分类算法做对比。在本实验中Adaboost集成学习算法中基分类器的个数设置为10个,基分类器ELM中隐藏层的个数设置为输入层的0.75倍,稀疏自动编码器中隐藏层数设置为4,实验结果如表1和表2所示。

从表1和表2可以看出随着文本数量的增加,SEA模型的分类准确率和召回率逐渐提高,这是由于在训练数据集较小时,稀疏编码器对自动提取的文本特征变现地不是很理想,容易造成SEA分类模型产生过拟合现象,从而影响分类准确率和召回率。SVM算法在训练数据集比较小时,变现良好,这是由于在训练数据较少时,可以较容易地找到分类超平面,在数据量变大时,由于计算量的增大,使得计算量变大,导致计算得到的超平面效果不好,使得分类准确率和召回率不断下降。BP和ELM算法都随着训练数据的增大,其分类准确率和召回率在不断变大,这是由于随着训练数据的增大,BP和ELM可以更有效的提取输入数据的特征,但ELM算法相比BP算法变现得更好,这是由于BP算法可能无法收敛到最优值,导致分类算法的准确率下降。

综上所述,本文提出的SEA文本分类模型可以有效的提高文本分类的准确率和召回率,尤其是随着训练数据集的不断增大。

5 结束语

文本分类在文本处理中占据着重要的地位,其分类的好坏直接影响着后续的文本处理,如何有效地对文本分类是一个重要的研究课题。本文结合稀疏自动编码器,极限学习机与Adaboost集成学习方法提出SEA文本分类方法,实验结果表明该分类方法可以有效将文本分类过程中的特征提取和分类器结合在一起,从而提高了分类结果的准确性。

参考文献

[1]秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,13(31):9422-9426.

[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.

[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.

[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.

神经网络文本分类范文2

自动锻压机封闭高度调整改进设计

基于Matlab的三相电压型PWM整流器的仿真研究

基于多传感器数据融合的火灾报警系统设计

模拟氢冷汽轮机转子节能改进

基于VB的大学物理实验数据处理系统的设计与实现

用激光光源测量凸透镜焦距实验探究

项目反应理论在计算机自适应题库建设中的应用

基于遗传算法的排课设计

AutoCAD的三维造型与工程图转换技术研究

论“云计算辅助教学”CCAI及教学资源组织

基于SOA的数字化校园应用模式的研究

模板法制备纳米复合光催化材料HPA/TiO_2

YK73400L数控成形磨齿机工艺设计

环保透水砖的制备与性能研究

混凝土在双向受压下力学性质的试验研究

自动锻压机凸模推出机构改进设计

树麻雀的体温调节

扎龙湿地面积动态变化趋势数学模型及因素分析

基于ARIMA的居民消费价格指数建模与预测

用矩阵实现模糊本体映射

激光跟踪仪在主轴箱体检测上的应用

一种BP神经网络改进算法的研究

传感式智能家用煤气表的研制

基于对象方向方位的连续方向查询算法

一种有效检索和更新移动对象的混合索引结构

较长销孔加工方案分析

移动对象流量查询方法研究

空间数据库R-tree连接方法研究

关联规则挖掘在临床诊断中的应用研究

基于距离和的数据挖掘技术在中考成绩处理中的应用

燃气炉供热改善大气环境的方法

三层C/S通用试题库系统的需求分析和总体设计

外凸轮轮廓曲线加工误差分析

基于单片机的步进电机控制系统的研制

基于组合核支持向量机的图像边缘检测

衣康酰化降解壳聚糖在亚麻织物无甲醛防皱整理中的应用

二氧化硅-氧化锌溶胶凝胶法制备固相微萃取涂层的研究

燃硫炉出口温度与三氧化硫气体浓度的关系

基于网格和XML的异构数据库集成模型

Excel表格计算工程预算的工程量方法

BP神经网络在蜜网系统中的应用

改进BP神经网络在个人信用评估系统的应用

GIS系统在城市燃气管网中的应用

基于USB接口的便携式温湿度记录仪的设计

基于OracleWebServer的管理信息系统开发

Liu-Liu-Liu-Liu系统的混沌同步

企业实施SPC核心工具——控制图方法研究

PL/SQL在求解最短路径问题中的应用

城市燃气用户软管的安装问题研究

基于广播模式的录井仪实时数据传输系统的设计与实现

垂直井筒两相流温度场的模拟计算

基于固定网络的移动对象轨迹查询

压缩天然气管道输送应用研究

CISC与RISC结构CPU间软件移植技术问题分析

液化石油气管道供气方式的应用研究

神经网络文本分类范文3

狮子关库区植物群落乔木层优势种及群落分类

狮子关库区森林群落演替过程和结构动态

日本落叶松人工林单木模型的研究

论生态林业的理论与实践途径

鄂西南地区松褐天牛生物学特性及发生规律研究

应用M99-1引诱剂监测马尾松病虫害的研究

松材线虫在受害马尾松树体内的分布及取样部位研究

湖北恩施松材线虫病的防治现状及对策

胡萝卜板栗糕的试制

丁草胺对水稻根系活力和C/N的影响

TGF-β_1对不同肺癌细胞生物学行为的影响

动物中天然抗癌产物研究

聚合物固体酸催化合成丙烯酸双酯——固体酸的合成

三溴偶氮氯磷-溴代十六烷基吡啶-钐-乙醇显色体系的分析研究

化学修饰电极及其测定痕量Pb2+、Cd2+、Hg2+的应用

光度法测定鱼腥草中有效成分的质量分数

以β-环糊精衍生物为柱层析固定相拆分氨基酸对映体

化学工业的可持续发展之路——绿色化学

模糊度量空间中的不动点及应用

祝贺生物资源保护与利用湖北省重点实验室顺利通过验收评估以评促建以评促改以评促发展

奇素数方幂中的孤立数

一类具混合功能反应函数的三种群捕食链模型分析

脉冲时滞Cohen-grossberg神经网络的指数稳定性

一类成批服务排队模型的时间依赖解的存在唯一性

基于模糊综合评判的学生综合素质评价体系

内积H-Z-空间及其性质

关于integralfromx=ato+∞(f(x)dx)的收敛性与limfrom(x+∞)(f(x))=0的关系

复平面上多项式的零点问题

平面复合材料热传导问题的一个新的多尺度渐近展开式

对牛顿迭代法条件的一个改进

基于MATLAB的血管三维重建

基于信息熵的TFIDF文本分类特征选择算法研究

一种基于势场的威胁模型及其应用

基于协同模式的一站式服务系统的设计与实现

基于ArcGISServer的企业级WEBGIS的设计与开发

整周模糊度的一种半参数解算方法

GPS高程测量精度分析

优质油菜栽培与养分管理智能决策系统的设计与实现

恩施州烟叶生产区域划分及配套栽培技术措施研究

祝贺生物资源保护与利用湖北省重点实验室顺利通过验收评估以评促建以评促改以评促发展

奇素数方幂中的孤立数

一类具混合功能反应函数的三种群捕食链模型分析

脉冲时滞Cohen-grossberg神经网络的指数稳定性

一类成批服务排队模型的时间依赖解的存在唯一性

基于模糊综合评判的学生综合素质评价体系

内积H-Z-空间及其性质

关于integralfromx=ato+∞(f(x)dx)的收敛性与limfrom(x+∞)(f(x))=0的关系

复平面上多项式的零点问题

平面复合材料热传导问题的一个新的多尺度渐近展开式

对牛顿迭代法条件的一个改进

基于MATLAB的血管三维重建

基于信息熵的TFIDF文本分类特征选择算法研究

一种基于势场的威胁模型及其应用

基于协同模式的一站式服务系统的设计与实现

基于ArcGISServer的企业级WEBGIS的设计与开发

整周模糊度的一种半参数解算方法

GPS高程测量精度分析

神经网络文本分类范文4

关键词:人工免疫网络;免疫记忆;网络文本分类

中图分类号:TP181文章标识码:A文章编号:1009-3044(2011)26-6492-02

Research of Web Text Classification Based on Artificial Immune System

ZHANG Wei-gang, CHEN Jun-zhang

(Information Engineering Department, Xuchang Vocational Teachnical College, Xuchang 461000, China)

Abstract: This paper concisely introduces some important function and character of narure immune stytem first,and then a new web text classification on artificial immunenetwork memory is presented, which is based on the principle of immune memory. The result of test show that the classifier can class web text fastly and accyracy.

Key words: artificial immune system; immune memory; web text classifier

目前使用的文本分类方法主要有支持向量机(SVM)、K近邻法、决策树、线形最小二乘法估计和贝叶斯分类算法。人工免疫网络记忆分类器(AINMC)受到人工免疫系统(AIRS)的启发,借鉴人工免疫网络(aiNet)利用人工免疫产生记忆细胞的思想,将其发展为监督学习系统,并用于数据分类研究。基于人工免疫网络记忆分类器(AINMC)的文本分类系统能够将大量文本自动分类,以更好地帮助人们更快地找到所需的信息。

1 人工免疫系统

人工免疫系统是模仿自然免疫系统功能的一种智能方法,它实现一种受生物免疫系统启发,通过学习外界物质的自然防御机理的学习技术,提供噪声忍耐、无教师学习、自组织记忆等进化学习机理,结合了分类器、神经网络和机器推理等系统的一些优点,因此具有提供新颖的解决问题方法的潜力。

本文受自然免疫系统的免疫记忆特性的启发,提出一种利用人工免疫网络记忆分类器(AINMC)进行网络文本分类的方法。

2 AINMC网络文本自动分类

2.1 特征提取步骤

待分类网络文本以HTML格式存储,在利用AINMC进行分类前要首先对该文本进行特征提取。

1) 预处理过程一是要根据禁用词集去除文档中语义虚泛和频繁出现的词,如地、因此、的、the、a等。二是要对某些表达不同但概念相同的词语映射为同意概念,例如“计算机”和“电脑”,就要影射为“计算机”。

2) 特征提取

在特征提取算法采用完整的页集合D=(d1,d2,d3,…,dN)建立网页中所有词的列表W=(w1,w2,w3,…,wM)。N,M分别为文件总数和列表中词的总数。这样就可以模拟每一个文件di(i=1,2,3,N)为M维空间RM中的一个向量Vi=(vi,1,vi,2,…,vi,M)。vi,j(j=1,2,…,M)表示词wj(j=1,2,…,M)在文件di(i=1,2,…,N)中出现的关系度量。我们已经预处理了常用词等对分类没积极意义的词,所以利用词w∈W出现或不出现的期望信息增益E(w,D)确定D的类别,其中P(w=pres)是一个词在任何页上至少出现一次的概率,Dw=pres是含有词w的网页集合。DC是属于类别C的网页集合,P(DC)是一个网页属于该类的概率。给定一个特别的词在文件中出现或者不出现的概率,需要多少信息的度量。这样,如果一个特别的词确定文件在哪一个类中,则第二项最小化,E∈(w,D)最大化。反之,如果一个词的出现或者不出现不提供关于一个文件在哪一类中的信息,第二项最大化,E∈(w,D)最小化。总之,对一个特殊的词,期望信息增益E∈(w,D)越高,提供越多的决定一个文件属于哪一类的信息,则该词被认为提供越多的信息。用该提取算法提取具有最高E∈(w,D)值的n个词,建立具有n个特征值的特征向量。

2.2 网络文本自动分类算法实现

在该算法中,上述经过特征提取的待分类数据即对应抗原,用AG表示;记忆细胞即对应抗体,用mi表示,i是文本类别数,由其组成的集合用M表示。因为分类是有监督学习,可以通过学习对未知的数据进行预测。为了构造分类器,即记忆细胞,需要有一个训练样本数据集作为输入。在初始化阶段,我们要把全部抗原随机分为两个部分训练抗原AG1与测试抗原AG2,从训练抗原AG1中随机抽取一部分用来构造初始记忆细胞集合mi,余下的用来对我们初始形成的记忆细胞集合进行训练。记忆细胞与训练抗原模拟生物免疫网络抗体抗原之间的相互作用,依照它们之间亲和力的大小,对初始记忆细胞集合进行优化。对能够与抗原相匹配的记忆细胞进行克隆与变异。克隆是对匹配记忆细胞进行复制,变异是优化记忆细胞,对记忆细胞的局部特征进行变异,能更成功的识别抗原。变异是该过程需要不断的重复以更好的优化记忆细胞集合,重复次数可根据实际抗原设定。在重复的过程中,不仅要计算记忆细胞与抗原的亲和力来选择记忆细胞进行克隆与变异,而且还要计算记忆细胞间的亲和力,将亲和力小于设定阈值的记忆细胞清除,以完成克隆选择。经过该重复过程形成最优的记忆细胞集合M,利用该集合对待分类数据进行自动分类。其算法如下所示:

Begin:

将待分类数据进行特征提取;

用全部抗原随机形成训练抗原AG1和记忆细胞集合mi;

While(训练抗原中每个抗原都与记忆细胞相互作用)

{

依据欧几里德距离计算初始记忆细胞与训练抗原亲和力;

选择亲和力最大的n个抗体,对每个选取的抗体依据亲和力的大小克隆NC个,亲和力越大,NC越大;

对克隆的抗体进行变异,以产生具有更高亲和力的抗体;

重新计算各变异后的抗体与抗原的亲和力,选择一定数量具有最高亲和力的抗体作为记忆集合;

去除记忆集合中相似度大于阈值σs的个体,产生新的记忆体集合

}

将每个训练抗原产生的记忆体集合合并为记忆集合M,即分类器;

分类:

利用分类器M对AG2进行自动分类;

End;

3 结论

人工免疫系统在数据挖掘、信息提取、模式识别等领域的应用来源与它自身较强的学习、记忆及自适应调节能力。它通过对网络抗体以记忆数据集迭代克隆变异及抑制操作,从中提取有用特征信息,最终达到识别和分类的要求。对于不同的信息分类要求,在学习,记忆过程中,应合理地调整亲和力阈值σr、σs的大小,从而获得准确的分类效果。

参考文献:

[1] 程传鹏,李钜.中文网页分类征提取的研究[J].中原工学院学报,2005,16(6):261-265.

[2] Jerne N K.Towards a Network Theory of Immune System[J].Annual Immunology,1974,125C:373-389.

神经网络文本分类范文5

s—桥图的色惟一性

对正项级数敛散性判别法的关系的一些探讨

实现任意方向椭圆绘制的简便方法

对极大等重等距码结构的进一步分析

计算变截面梁横向振动时杆端力的调和分析法

心脏标记法有限元解的误差分析

Cs-137γ射线透射法检测输油管道油垢的模拟实验研究

n-Ge样品中的反常伏安特性

超临界CO_2色谱法在分析番茄红素中的应用

薰衣草挥发油化学成分的GC-MS分析

微波溶样-ICP-AES法测定番茄原料及其萃余物中的微量元素

新疆红景天红色素的提取及理化性质的研究

新疆野生黑加仑与马林果实的营养成分分析

芒硝太阳池的研究

维吾尔族长寿老人红细胞ABO血型遗传多态性分析

红花柄锈菌Pucciniacarthami(Hu+z)Cda生活史超微结构研究

新疆农田十字花科主要杂草幼苗分类特征研究

陆地棉体细胞胚胎的发生和遗传转化条件初探

甜菜糖蜜酒精废液生产菌体蛋白饲料初探

一类可靠性模型研究中出现的投影算子的表达式及其应用

东天山成矿背景及规律(英文)

巨大尺寸零件逆向重构技术应用研究

基于数据挖掘的复合聚类法

有向图及乘积图的路由数(英文)

Rb(5P_J)与He的碰撞精细结构混合和猝灭(英文)

遗传算法研究Pd_n(n=2-57)团簇的结构特性

激发态中的重双夸克能谱

碳四烃综合利用研究及评述

固相紫外光接枝对聚丙烯树脂力学性能的影响

MA_m-St型柴油降凝剂的合成及其研究

裂解气相色谱质谱法研究增塑剂邻苯二甲酸二甲酯的热降解机理

重组真核表达载体pEGFP-C1/cecropin-XJ的构建及其在胃癌细胞MGC80-3中的表达

沙拐枣属(CalligonumL.)分类学研究进展

新疆杏核结构物理特性的分析与探讨

国外城市园林景观灌溉系统应用与实践

新疆旅游资源的可持续开发分析

基于数字证书的校园网安全通信模型的实现

电子商务中协商交易的研究及实现

基于粒子群优化的神经网络预测模型

泡型图的条件匹配排除

复拟Banach空间的解析q一致凸性与Hardy鞅的原子分解

Herz型Triebel-Lizorkin空间和Herz型Besov空间上的粗糙核奇异积分(英文)

二阶变系数非齐次微分方程边值问题(英文)

非自治的具有阶段结构的时滞捕食被捕食模型的周期解(英文)

Rh_nCr(n=1~7)团簇结构和电子性质的密度泛函理论研究

溶剂热法合成Fe_3O_4八面体微晶及表征

VO_x/SiO_2催化剂上正丁烷氧化脱氢

氢化物发生-原子荧光光谱法测定环境空气中砷和锑的结果不确定度评定

电子词典软件系统中对维、哈、柯文进行自动判别技术的研究

基于系统效益的循环结构网格工作流调度算法

基于二叉树的多类SVM在Web文本分类中的应用研究

神经网络文本分类范文6

手语是聋哑人使用的语言。它是由手形动作辅之以表情姿势而构成的比较稳定的表达系统,是一种靠动作/视觉进行交际的特殊语言。

人类交互往往声情并茂,除了采用自然语言(口语、书面语言)外,人体语言(表情、体势、手势)也是人类交互的基本方式之一。与人类交互相比,人机交互就呆板得多,因而研究人体语言理解,即人体语言的感知,及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平和加强人机接口的可实用性的极有意义的。手语是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言及书面语等自然语言的表达能力相同,因而人机交互方面,手语完全可以作为一种手段,而且具有很强的视觉效果,它生动、形象、直观。

手语的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语的研究是一个非常有意义的课题。这里将结合国内外手语研究的相关方向,对手语的识别、手语的合成、手语的网络通信、手的运动约束这几方面作一下综述。

1 手语的识别

手语的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:(1)能够使得聋哑人,尤其是使得文件程度比较低的聋哑人,使用手语和正常人交流;(2)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。

从手语输入设备来看,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备,可识别台湾手语课本中的250个基本词条,识别率为90.5%。CMU的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用Power Gloves作为手语输入设备,识别有95个孤立词构成的词汇集,正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息,并进行识别。该方法的优点是输入设备比较便宜,但识别率比较底,实时性较差,特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面,具有代表性的研究成果包括:1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征,采用HMM技术识别262个孤立词,正确率为91.3%。此外,Vogler与Metaxas将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。

从识别技术来看,以往手语识别系统主要采用基于人工神经网络(ANN)及基于隐Markov模型(HMM)等方法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号,通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法,一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外,Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词,正确率为91.3%。然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得HMM训练和识别计算量过大。尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。

在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodel)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中274个词条,识别率为98.2%。与基于HMM的识别系统比较,这种模型的识别精度与HMM模型的识别精度相当,其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。与基于单个DGMM的识别系统比较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外,清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中,他们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割;通过结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后,提出动态时空规整算法用于手势识别。对12种手势,平均识别率高达97%。

尽管已经实现了一些手语识别系统,但中国手语识别仍然面临许多挑占性课题,如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。

2 手语的合成

手语的合成是使聋哑人理解正常语言表达的最有效手段,在手语合成中涉及以下几个方面的问题:本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。

文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词,标点符合单独成词。系统的分词过程首先采用最大匹配发切分,然后利用第一步分词结果通过查找词条的歧义标志位调用词规则,进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的,但是两种语言的差别主要体现在四个方面:语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上:汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上:汉语的词汇大约有近五万多个字组成,总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上:手语句子与汉语句子的词序有所不同,此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语,主要解决的基本词汇上的差别,同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息,是手语合成的重要基础。建立手语词库不仅工作量大,而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种:运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取,肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言,合成的手语只有显示出来,观察者才能“读”取手语的信息与意义。手语的合成与显示的实现的方法是:在VRML中有一部分是专门用于描述三维人体模型H-Anim标准,根据此标准对虚拟人的定义,一个虚人有47关节96个自由度,只要确定这96个自由度的角度值,应用运动学的方法和计算机图形学的方法,就可以计算出虚拟人每个肢体的位置和方向,由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列,按照预定的时间间隔连续显示一个手语运动中的每一个手势,既可以生成对应的手语运动。

3 手语的网络通讯

当今,网络通讯已经成为一种重要的通讯手段。研究哑语通讯,使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言,从广义上讲,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,以及异语种间健常人的交流都可能应用到动作语言。从这个意义上,研究哑语的表达与通讯,具有更加广泛的社会意义和实际应用前景。

更实现手语的网络通讯,必须采用一种恰当的技术,它既能完成手语图像动画表示,它既能完成手语图像的三维动画表示,产生的数据、文件应该尽可能地短小,且便于压缩,以利于网络传输,提高网络传输速度,避免网络拥塞,实现实时反应。可以使用三维动画技术来实现手语动画,但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求,却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的,大小和行为都是固定的,为了得到特体的三维印象,至少需要两幅图解,这使传输量巨大且不能实现交互。同时,基于HTTP、HTML标准的WWW只能表示和传递二维信息,不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求,提出采用VRML技术。VRML(Virtual Reality Modeling Language)是一种可以在WWW上操作的三维图形可视化工具,VRML 2.0于1996年8月,它能够灵活有效的方式,将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起,形成一个综合性的单一媒体,在环球网上创建动态世界。VRML本身不是一种传统的编程语言,它是一种建模语言,有它自己的文件格式,人们可以用它描述三维场景。它不但能满足图像质量的要求,而且存储和传输的只是物理的三维坐标,图像本身是在本地生成的,这就大大减少了网络传输量,也便于进行交互操作。同时,使用VRML技术生成的文件格式是ASCII码,能被有效地压缩,这就进一步减轻了网络压力,提高了传输效率,能够实现手语图像在网络上高速传输。

另外,日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统,进一步又研究了日本与中国的手语变换,手语手成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。

4 手的运动约束

人手的组成是一个非常复杂的结构。手是由骨头,连接骨头的韧带,作为拉力动力服务的肌肉,运动时连接肌肉与骨头的腱,以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小,肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此,手的运动极其复杂的。由于真实手的生理特点,手的运动受到一些限制和约束。分析手的运动约束,就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作,使其更加拟人化。