生物医学多元化命名分辨分析

生物医学多元化命名分辨分析

本文作者:马瑞民 马民艳 单位:东北石油大学数据库理论与技术科研室

生物医学的快速发展,产生了大量的生物医学数据。这些生物医学数据有的是以结构化的形式存在于数据库中,例如基因序列、基因微阵列实验数据和分子三维结构数据等;有的生物医学数据以非结构

化的形式被记载在各种生物医学文献中。从生物医学文献中发掘出隐含的生物医学知识,是生物医学信息抽取的重要意义所在。生物医学命名实体识别是生物医学信息抽取的一项重要基本任务之一,它

主要是从医学文献中发现基因、蛋白质、DNA、RNA等生物实体。生物医学命名实体识别的研究具有一定的艰巨性,主要是因为生物文献中实体命名不规范、相同的词或者短语表示不同类别命名实体等,

给研究带来了一定的困难。

目前,生物医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法。生物医学命名实体识别研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白质序列比较工具

BLAST识别生物医学命名实体。上述方法的优点是简单实用,但由于新的生物医学命名实体不断出现,所以基于字典的方法对于自由文本的生物医学命名实体识别效果不佳。Olsson等[2]提出了基于规则

的方法识别生物医学命名实体,F值达到了67%。与基于词典的方法比较,基于规则方法的识别性能有所增强,但它需花费大量人工劳动、且可移植性差。基于机器学习的方法可以判别生物医学命名实体

数据库中未包含的实体,方法较为灵活。该方法对训练数据规模、质量以及特征选取等方面的因素具有很强依赖性,所以,此方法对于生物医学命名实体识别性能提高的研究具有很强挑战性。本文将采

取有效的机器学习算法,结合多种策略,以期提高生物医学命名实体识别的识别性能。

1算法

目前主要应用在生物医学命名实体的机器学习方法有多种。文献[3~6]中分别提出基于隐马尔可夫模型、决策树、支持向量机、最大熵等方法,这些方法把词性、词形等特征融入到机器学习模型中,利

用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称。虽然取得了一定成果,却也具有一定的不足,如识别性能不高、多种条件约束、识别策略单一化等。条件随机域机器学习算法在自

然语言处理领域中有着非常显著的优势,目前已成功应用到词性标注、语块识别和新闻领域的命名实体识别中,且表现出了非常好的效果。该模型的特性表明它非常适用于生物医学领域的命名实体识别

研究。鉴于此,本文采用条件随机域算法对生物医学命名实体识别进行研究。条件随机域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出来的[7]。它是计算具有无向图G结构的随机变

量集合在给定随机变量集合o下的条件概率P(s|o)。将CRFs应用于生物医学命名实体识别中,则o表示一个句子的单词序列,s表示相应的状态序列,标注的过程就是根据已知的单词序列推断出最有可能

的状态序列,即P(s|o)的最大值。本文实验使用了一阶线性CRF,如下式:(公式略)。条件随机域模型允许在观察序列上的任意依赖关系,并且特征不需要一定是一个完整的状态或观察值,可以用较

少的训练数据训练出模型,所以说,CRFs拥有了一般的最大熵模型的所有优点。

2实验

2.1特征选择

生物医学命名实体识别中常用的特征有以下几种,一是局部特征,包括文本符号本身的特征和文本符号局部的上下文特征及其周围的词或符号的特征;二是全文特征,即文本符号在整个篇章中的上下文

特征;三是外部资源特征,比如说使用一些外部资源词典等。本文研究中,使用了如下特征:(1)单词本身:把单词本身作为一个识别特征。(2)词形特征:由于生物医学命名实体一般含有数字、大

写字母和特殊符号等,将这些简单的表面特征定义为词形特征。本实验将大写字母都用‘A’替换,数字用‘0’替换,非英语字符用‘-’替换,小写字母用‘a’替换。(3)标准化拼写特征:某些同一

类的生物医学命名实体,它们拼写方式很类似,如:IL-2andIL-4。用简单的方法标准化所有类似的词。如Kappa-B规范化为‘Aaaaa_A’,再将连续的相同的字符缩短为一个字符,即为‘Aa_A’。这样做

能够将拼写相似的生物医学命名实体提取的特征保持一致。(4)词性特征:生物医学命名实体的大写字母特征对其识别性能贡献不大,并且生物医学命名实体多是描述性的名称而且名称很长,所以,词

性特征对识别生物医学命名实体边界很有帮助。本系统使用了GENIAtagger2.0.2[8]词性标注器,GENIAtagger使用了WallStreetJournal语料和PennBioIE语料训练,因此GENIAtagger在生物医学领域文本

中词性标注具有较高性能。(5)语块特征:系统使用GENIAtagger2.0.2进行语块标注作为特征。(6)关键词特征:利用统计方法在训练集中统计出高频的生物医学命名实体关键词,将这些词是否出现

作为特征。(7)别名特征:将已识别出的生物医学命名实体存放在一个列表中,当系统遇到一个候选词时,生物医学命名实体识别算法就被激活,动态决定该候选词是否是前面已经识别出来的生物医学

命名实体列表中词的别名。别名特征属于全文特征。(8)特征联合:将相邻位置的特征进行联合,得出新的特征,有助于识别长距离词。本实验选择窗口的大小为(-1,+1)。(9)字典特征:使用了

一些字典资源作为特征加入特征向量空间,有CommonWord词典、Species词典、Tissue词典和EndingsofChemicals词典[9]等。

2.2缩写词识别

现在最常用的生物医学文献库是MEDLINE(MEDLARSONLINE),它是由美国国家医学图书馆于1966年开始建立的,收录的文献总量超过1500万条。据了解,MEDLINE上42.8%以上的摘要有缩写词,平均5~10篇

摘要有一个新出现的缩写词,并且缩写词出现的增长率逐渐升高。很多缩写词具有高度歧义性,它的形成没有任何规律,所以,提高缩写词的识别率对生物医学命名实体的识别研究至关重要。通常,缩

写形式经常和它的扩展形式一起出现,并通过括号连接,通常有两种形式:(1)longform(shortform),(2)shortform(longform)。实际当中大部分是第1种形式,当括号中的词超过两个时,就认#p#分页标题#e#

为是第2种形式。在含有括号的句子中,采用文献[10]中的缩写词识别算法,先识别候选词中的全称词,即上述中的longform,要求全称词必须和缩写词在同一个句子当中。若判断括号中是缩写词,从句

子中去掉括号及里面的缩写词,在分类器识别之后,将在原来的位置恢复括号及里面的缩写词。如果扩展形式识别为生物医学命名实体,则将缩写词和它的扩展形式分为一类。

2.3其它识别策略

为进一步提高系统识别性能,本文在识别阶段还采取如下策略:(1)利用括号对该方法通过检测两个相互匹配的圆括号,方括号和双引号是否被识别为同一个生物医学命名实体来进行处理,如果是将它

们视为同一个实体,如果不是,不做处理。(2)对and/or连接的生物医学命名实体进行处理。如果由and/or连接的两个生物医学命名实体修饰的是同一个名词,则把它们合并成一个实体。(3)利用启

发式语法结构。在生物医学文献中,有些语法结构对生物医学命名实体的存在及其类别具有提示作用,能起到很大的启发作用。如twodiscretecomplexesNFX1.1andNFX1.2,可以推断“NFX1.1”和

“NFX1.2”属于protein类别,因为它们都是“complexes”,而“complexes”是protein类别的高频后缀词。(4)过滤掉一些不相关词。过滤掉一些不相关词,看似物理单位的形式,如:kg、min、ml

等;看似人名的形式,例如:Milleretal.等。

2.4结果及讨论

本文实验使用的语料是JNLPBA2004[11],其中训练语料为2000篇,测试语料为404篇。实验结果由精确率(P)、召回率(R)和F测度(F)评价,且使用全部匹配模式进行评价。JNLPBA测评要求识别出

protein、DNA、RNA、celltype和cellline五类生物医学命名实体。本文设置了这样实验,首先利用选取的特征,训练实验数据得到CRFs模型,得到了66.09%的F测度,加入缩写词处理办法,系统识别性

能有了些提高,F测度达到68.61%,再加入其它识别策略,系统识别性能又有了提高,F测度达到70.52%。如表1所示,第1行baseline是初始的CRFs模型识别性能;第2行是加入缩写词得到的识别性能,F

测度比baseline提高了2%多,第3行进一步利用本文的其他识别策略,F测度提高了近2%。中列出了本文实验系统和JNLPBA专题会议相关系统比较的结果,该方法取得了较好的效果。从实验可以看出,利

用本文选取的特征,达到66.09%的F测度,说明选取的这些特征对生物医学命名实体识别研究是有效的特征。利用缩写词、括号对等识别策略提高了识别性能,主要是因为这些识别策略可以帮助识别CRFs

模型未识别的生物医学命名实体,还可以帮助CRFs模型调整类型标注错误,将错误识别出来的候选词过滤掉,使得本文实验取得了很好的效果。

3结束语

本文采用CRFs算法,选取丰富的特征集,对缩写词进行相关处理,以及采取利用括号对、利用启发式语法结构等策略,与其它相关实验比较,识别性能有了一定提高,证明本文采取的算法和策略是有效

的。