生物信息学产生的背景范例6篇

前言:中文期刊网精心挑选了生物信息学产生的背景范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

生物信息学产生的背景

生物信息学产生的背景范文1

一、前言

生物信息学(Bioinformatics)是随着现代生命科学的发展而兴起的交叉学科,旨在为生物学研究提供信息处理的支撑,从海量数据中挖掘生物信息,实现对生命科学问题的研究。生物信息学包含了对核酸和蛋白质的序列和结构信息的获取、处理、存储、分布、分析和解释等各个方面的分析研究,是通过综合利用生物学、计算机科学和信息技术等手段,来认识生命的起源、进化、遗传和发育的本质,揭示海量数据中蕴含的生命奥秘或生物学内在规律的一门科学[1]。随着测序技术的不断发展,人类与其他物种基因组计划相继实施和完成,产生了海量的数据,尤其是近年来的各种组学数据,如蛋白质组、代谢组、基因组、转录组等生物学数据,生物信息学将在解读基因组序列中的功能信息等方面发挥巨大的作用[2]。

二、生物信息学课程开展的现状

生命科学的迅猛发展、生物技术在社会发展中的应用越来越广泛,例如产前诊断、遗传并筛查、肿瘤靶向治疗等生物信息学相关的医学应用,生物信息学的作用和地位也越来越重要。研究机构和高等院校,特别是息息相关的医学院校,迫切需要通过各种形式的教学,系统地培养新的复合型研究力量的医学工作者。因此,医学院校针对医学相关学生开展与其专业紧密结合的生物信息学课程已经成为必然趋势[3]。目前,国内许多医学院校相继开设了生物信息学课程,将生物信息学作为必修或者选修课程。由于生物信息课程教学尚处于刚刚起步的探索阶段,尚未形成一个完整的课程建设体系,再加上生物信息学研究的范围广、相关数据与分析工具资源繁多、涉及多学科知识尚缺乏系统成熟的理论方法,正处在迅速发展中等一系列特点,如何开展生物信息学教学尚有待探索。因此,生物信息学课程的教育理念、教学内容、方式和方法等迫切需要根据自身专业特点,科学确立教学目标,及时系统地总结规划教学内容,探索和改革教学方法,以适应医学专业背景学生的学习,对于促进医学生自身综合素质的提高有重要意义。本文结合南京医科大学本科学生(主要为医学相关专业学生,非生物信息学专业学生)开展的生物信息学课程进行调研和改进,对该课程的学生的反馈意见及各教研室教师的建议进行了深入分析。本着以学生需要为原则,针对学生的专业背景,适当调整教学内容和方法,理论教学与上机实践有机结合,侧重将生物信息学的思维融入解决生物医学的问题,行成一套完整的、合理可行的医学生物信息学课程理论、实验教学方案。进而达到专业与课程相结合,激发学生的学习兴趣,从而达到较好的教学效果。

三、教学内容及方法的具体实践

(一)针对医学专业学生,优化教学内容

生物信息学作为一门发展迅猛的多学科交叉的前沿学科,理论、研究方法、研究内容尚在不断完善和更新中,其内容繁多复杂,更需要进行精心的选择裁剪和编排组织,才能在有限的时间内实现既定的教学目标,使学生学习到有用的知识。教学中应充分结合当前研究前沿和进展、时刻更新教学内容,更应该根据学生的不同专业背景适当调整教学内容和教学方法。在医学院校中,更要针对不同专业及背景的学生,制订具有专业特色的教学大纲。教学应以学生的需求为前提,结合不同专业背景、就业选择方向,调整培养方案和优化授课内容,以满足他们的需求,使学生能够学有所用。比如,针对临床专业的学生,生物信息学教学应该偏重医学研究中的方法和成果,本科教学注重转化医学、生物技术应用成果的普及,研究生教学注重利用生物信息手段和方法解决科研学习中遇到的实际问题;而针对法医专业的学生,教学应该偏重新一代高通量测序技术的原理、数据分析、结果意义等方面。针对目前医学院校中研究方向多元化的背景,强调教学与科研共促进,通过科研时刻关注、追踪学科前沿,将最新的研究成果和在医学上的应用展示给学生,丰富教育资源,使学生能在其他课程的学习时学以致用,从而高质量的完成教学任务。生物信息学亦是众多科学研究工作中强有力的必不可少的研究手段,教学反过来也可促进科研的进一步开展和深入。因此,教学和科研相结合,可以拓宽知识面,全面了解生物信息学和相关学科最新进展,不断为科研提供新的思路,不断的完善生物信息学教学体系。只有坚持教学与科研同时进行、并紧跟科学前沿,并做到及时纳入最新的研究成果,更新教学内容,才能给予学生高质量的前沿教学[4]。

(二)基于计算机的实验教学,锻炼动手能力

在生物信息学教学中,计算机实践教学是不可缺少的部分,理论和实践的有机结合才能达到更好的教学效果。只有亲自动手进行生物数据的分析,学生才能建立一个感官的、多方面的认识。优化上机内容、改进上机教学方法,使得理论知识在上机教学中可以得到实现,实际操作充分理解理论课内容,由此激发学生动手实践的激情和信心,更好地掌握知识。所以在生物信息的教学中,上机实验课程应该占据较大的比例,并通过生动的课堂练习培养学生的兴趣。实验课内容的设计应该考虑医学相关专业学生的背景,根据医学问题作为出发点,以如何解决这些问题作为主线设计课程。所以,通过了解当前医生常用的科研手段或当前医院正在开展的临床检测项目,设计相关实验课程、增加应用性实践教学,并结合最新研究成果和基础到临床应用的实例、以及项目原理及优缺点,可以调动学生学习的主动性。例如,针对临床专业开展常用的生存分析的原理和分析流程的实践教学;针对法医专业,开展常用的STR(短串联重复序列)作为亲权鉴定标志物的序列特点和可视化的教学等。另外,生物信息学本身是多学科交叉融合,知识面广而杂,其相关数据库资源,以及生物信息学工具、算法和软件等均更新迅速。在理论教学中,授课教师时刻密切关注学科发展前沿、并将最新研究成果及学术发展动态,而在实验课授课中,更应该注重教会学生,充分利用互联网资源,独立开展课题、综合分析、解决问题。例如,?榱耸寡?生了解当前网络数据共享的环境下,如何从网上搜索网络资源、下载数据,我们下载了多种不同类型的数据,包括测序数据、芯片数据、注释数据等,然后再从实际数据出发上机操作,介绍分析的方法和工具。

四、生物信息在医学相关专业的应用

基础科研成果的积累逐渐带来了临床应用的突破,而生物信息学的技术和数据在临床应用的重要性也愈加重要。目前,医疗上的应用主要有生育健康、遗传病检测、传染病药物研发、肿瘤诊断及治疗等几大方面[5]。2014年7月国家卫生计生委承认基因测序技术在产前诊断的应用,批准了基因测序诊断产品的上市,2015年3月27日,国家卫生计生委医政医管局又通过了第一批肿瘤诊断与治疗项目高通量基因测序技?g临床试点单位。一些大型医院已经把基因诊断作为患者必需的诊断项目,特别是产前无创诊断,很多医院也正在筹建基因检测中心。目前国内每年新增癌症患者300万人左右,且发病率呈上涨趋势,肿瘤的基因检测和靶向治疗已经成为提高肿瘤治疗效果的一条重要途径。产前诊断和精准医疗的飞速发展所带来的巨大临床应用,亟需懂临床一线的医生了解前沿科技、懂生物信息、会临床应用。根据市场反馈的情况,未来基因检测在临床上应用所占比例会越来越大,医学工作者对生物信息知识的需求也越来越高。

生物信息学产生的背景范文2

关键词:个性化习题;生物信息学;QQ群

中图分类号:G811.4 文献标志码:A 文章编号:1674-9324(2016)48-0171-02

生物信息学是生物学、计算机科学和信息技术等支持的,包括存储、组织和生物数据检索的一个现代交叉学科。随着分子生物学和信息技术的不断突破,各种生物数据的获得变得非常容易,但是如何对这些数据进行组织、分析和处理,并从中发掘出能用于解决生物科学问题的信息,成为目前生命科学的难点和热点。生物信息学因此应运而生,其本身不仅是研究现代生物学,也是研究其对工业、医疗等重要领域影响的一门实践性学科(Bloom,2001)。

一般认为,生物信息学主要渗透到统计数学、计算机和生命科学,尤其是生命科学的组学领域(郭丽等,2014),因此在教学中,生物信息学的教学内容往往因学生背景不同而会有不同的侧重。这就需要教师根据学生的背景及知识结构的需求来合理安排教学。本文根据近年来对生物信息学教学的经验,从教学方法、个性化练习题对学生上机的促进及QQ群投票功能在教学中的应用等方面进行了总结,对如何能够提高生命科学学院的学生学习此门课程的兴趣进行了探讨。

一、现代教学方法的利与弊

随着计算机科技的不断进步,教学已经从传统的板书模式进入到现代多媒体教学模式中。多媒体技术应用的初衷是提高学生的参与度,满足教学手段更民主、多元化及个性化的教学目标,其优点为表现力丰富,可以通过动画、视频、图像、音频等效果将抽象难懂的问题直观化。其次,节省了大量的板书时间,同时教师可将教学的重点、难点链接,以益于学生直观地了解并进行思维拓展(张林,2011)。多媒体最明显的一个特点就是教学容量加大,但正是这些优势也伴随相应的问题:(1)重形式而忽视教学内容。很多学校在进行教学管理及评价时,过分关注多媒体课件的形式以及学生的感受,导致有些教师过分注重多媒体的表现形式而忽视了教学的主要内容。(2)教学容量和学生的吸收量之间反差较大。由于教学内容和容量的增大,教师并没有根据授课对象的具体情况合理安排和讲授学科内容,而被动的成了多媒体的播放员和解说员。总之,多媒体教学利大于弊,因而成为教学改革和发展的必然产物,虽有缺点,但不能因噎废食,需通过其他方法来克服弊端才能达到完美的教学效果。

二、个性化习题是学生实践提高的强力推动器

生物信息学是一门实践性非常强的学科,为了加强学生的实践能力,教师要综合应用启发式、运用式及讨论式等多种教学方法来激发学生的兴趣。笔者在课堂实践中,充分发挥个性化习题的作用,将教师的科研渗入到课堂,注重理论与实践相结合,努力提高学生解决实际问题的综合能力。比如,在讲授第五章内容电子克隆部分,此章节目的是通过一段表达序列标签(EST),综合应用Blast、序列比对、步查法等方法查找各种数据库,通过软件的应用进行拼接、预测、去除内含子等方法,最终获得可能的全长cDNA序列并加以注释。在以往的教学练习中,全班同学的任务一样,难以知道学生是否真正掌握所教授的内容,为此,笔者将学生分组,每组自行通过阅读文献获得一条其感兴趣的EST序列,或者利用他们的毕业论文中涉及的EST序列去进行电子克隆练习,通过这种个性化习题的随堂练习,能显著强化学生的计算机应用能力和实践能力,同时也能提高学生在教学中的积极性、主动性和创新性。

三、发挥QQ群的投票功能在教学练习中的作用

生物信息学是一门交叉学科,对于非生物信息学专业的生命学院的学生而言,虽然教学大纲只要求学生掌握一些基本软件的原理及数据库的熟练使用。但是,这需要学生具有扎实的生物化学、遗传学、细胞学及分子生物学的基础知识。比如,在讲授第三章“核酸序列的分析”时,会要求学生利用已知的EST序列去Blast查找与之有同源性的基因组序列,进行序列比对,预测并利用Bioedit软件找出此基因的启动子、终止子和剪接点。这首先要求学生必须明确这些分子生物学的概念,否则在有限的生物信息学课堂上,会变成分子生物学或遗传学的复习课。而课外QQ群就起到了非常重要的交流促进作用。笔者在将QQ群的功能应用到课外教学辅助平台的基础上,充分发掘QQ群的投票及评论功能为教学所用,例如教授第三章前,将课件放到QQ群的文件中,让学生去预习。为激发学生预习的主动性,要求学生在评论中列出对本章的主要知识点或难点,并对课件中涉及的名词进行解释。为进一步加强理解,对投票功能进行设置,相应的对投票选项1、2、3、4分别设置成A、B、C、D,这样教师可根据需要将知识点转化成练习题,以加强学生的学习。同时,也可鼓励学生将一些新的感兴趣的话题或问题置于QQ群。总之,QQ群的投票功能可以成为教师与学生课下交流的一扇窗口,成为生物信息学的一种及时且重要的学习工具。

四、建议与展望

生物信息学是一门新兴学科,但我国无论是在对学科的重视还是发展程度上,与国外都存在一定的差距。在美国,计算生物学国际协会教育委员会一直致力于将生物信息学整合到高中生物教材中,学生在高中即接触生物信息学,而且高校对高中生物信息学的教学提供相应的培训课程和网上资源,生物信息学和其他分子生物学、植物学等一样较早的深入到学生的知识体系中。而我国由于该学科产生的历史较短,课程的开设集中在“985”、“211”重点院校的生物信息学专业,尽管近十年来,各大高校也意识到此学科的重要性,且课程也在逐步在开设,但由于学时短,很多教学仅限于学生掌握基本的数据库的查询。为使生物信息学能在普通院校的生命科学学院能很好的开展,各个高校应建立合适的课程教学内容。虽然近年“生物信息学”课程在各高校纷纷开设,但由于生物信息学是一门发展中的学科,它的理论及内容尚在不断完善与更新中(郭丽等,2014)。因此,对于教材的选择,不能只追逐信息量充足、内容新颖、知识选材前瞻性好的教材(杨娥等,2014)。作为普通院校的非生物信息学专业的本科生,想在较短的时间内(36课时)很好掌握如此大信息量的知识较为困难(刘宏生等,2010)。因此,需要依据学生基础及院校的人才培养目标和现今生物信息学发展的现状建立合理的课程内容体系。另外,由于缺乏合适的专业人才,生物专业的生物信息学的师资力量薄弱,无法建成高水平的教学队伍。因此,加大生物信息学教师的培养力度,建成一支专业的、年龄和知识结构合理的师资队伍,是提高本科院校生物信息学教学的关键问题之一。

参考文献:

[1]Bloom,M. Biology in silico:The bioinformatics revolution[J]. The American Biology Teacher,2001,63(6):397-403.

[2]郭丽,赵杨,娄冬华,等.生物信息学实践课教学改革探索[J].南京医科大学学报(社会科学版),2014,(2):165-167.

[3]张林,柴惠.现代教学手段在生物信息学教学中的应用[J].新课程研究,2011,(219):156-157.

生物信息学产生的背景范文3

关键词: 生物信息学;高等数学;教学效果; 教学方法; 多媒体

生物信息学是综合计算机科学、 信息技术和数学的理论和方法来研究生物学信息的交叉学科。数学作为生物信息学研究的基本工具, 已经成为生物信息学专业的必修课程。高等数学是大学数学的基础课程, 通过高等数学的学习, 学生不仅可以掌握基本的数学概念, 公式及方法, 更可以提高自己的逻辑能力以及运用数学解决生物信息学问题的能力。因而高等数学教学效果的好坏, 直接影响到一个学校, 一门学科人才的培养, 进而会影响到我国的科技发展水平与现代化进程。笔者结合此领域教师们多年的教学实践, 结合生物信息学的专业特点从课前、 课上、 课后三个方面阐述提高高等数学教学效果的几点建议。

1做好充分的课前准备,有的放矢。

要想在有限的课堂时间内达到最好的教学效果,教师首先需要在课前认真备课, 尤其要注意重点内容的强调以及知识点的衔接, 使得一次课成为一部完整的电影, 而不是多个场景的组合。同时, 由于生物信息学是一门快速发展的交叉科学, 因此在授课的过程中教师应当将生物信息学的前沿发展动态与课程内容进行合理的融合, 这就需要教师在课前阅读大量的科研文献, 做到教学科研一体化。此外, 还要精心制作课件, 好的课件不仅要字体大小适中, 背景美观而不杂乱, 又要适当的加一些有趣的动画。对于高等数学这样一门相对枯燥的学科, 小小的动画会让学生的精神为之一振, 间接提高教学效果。同时要做到内容简洁明了, 真正起到提纲挈领的作用。对于高等数学下册来说, 课件的制作尤为重要。比如, 第一型曲面积分概念的引入, 不仅需要有准确的三维图像, 而且引入概念的过程也要提纲式地逐条列出, 使学生清晰地了解一个抽象的数学概念是怎样产生的。

2多方位开展课上教学实践。

2.1 多媒体与板书结合

多媒体的出现为高等数学的教学带来了极大方便。比如曲线与曲面积分的章节中, 很多问题都需要结合三维图像来解答, 在黑板上画立体图形既浪费时间, 又很难画得准确, 而利用多媒体则只需在课件中插入相应的三维图像就可以了。还有一些冗长的概念或公式, 用多媒体展示一目了然, 省时省力。多媒体虽然为教学带来了诸多方便, 但它并不能完全代替板书。比如, 具体的解题过程如果只写在课件上, 那么学生就只是观众, 在观看一道题怎么解答。而利用板书引导学生,在书写每一步的时候让学生思考下一步应该怎么做, 那么学生就是参与者了。定理或公式的推导也是同样的道理。所以上课时要做到多媒体与板书的有机结合, 多媒体展示提纲和图像, 板书书写具体的解题和推导过程。

2.2 重视基础知识的教学

要狠抓以基本概念、 基本理论、 基本方法为主的“ 三基” 教学。高等数学虽然看起来很难, 但它实际上是由很多基本概念和理论方法交织而成的。只有牢固地掌握基础知识, 才能理解数学的精髓, 才能熟练的运用这些知识来解决复杂的生物信息学问题。对于基本概念, 要用尽可能通俗的, 形象的语言或直观的图像来解释, 必要的时候也可以用实物演示。比如, 莫比乌斯带的定义是单侧曲面, 这个概念用语言很难形容, 但如果用一张纸条演示一下, 学生就完全理解了。对于基本定理, 一定要在黑板上写下详细的推导过程, 让学生了解怎样从一些已有的知识推导出一个新的结论, 这样学生就不是在死记硬背定理的内容, 而是真的学会了。对于基本方法, 则要让学生反复练习, 熟能生巧, 多做练习还会提高学生的计算能力。

2.3 注重课堂练习

在课堂上要坚持" 教师是主导, 学生是主体" 的教学原则,要做到精讲多练、 勤练。每堂课都可能会讲多个知识点, 多种类型题, 如果一味的填鸭式教学, 学生往往只是“ 懂了” , 而不是“ 会了” 。所以在每一道类型题讲完之后, 要立刻找一道相似的题目, 给学生一定的时间让学生自己练习, 及时消化和掌握所学的知识, 并且要重视理论联系实际, 将数学的知识应用到具体的生物信息学研究中去。比如, 介绍了矩阵的概念之后, 就可以向学生介绍基因芯片的制备、 基因表达谱的数据格式等内容, 将基因芯片检测的全基因组范围的基因表达信息用矩阵表示出来了, 矩阵的每一行代表一个基因在所有芯片实验中的表达水平, 每一列代表在同一张芯片上所有基因的表达值, 这样从一个矩阵就可以观察到不同条件下每一个基因的表达变化了。除了每堂课都要让学生有一定的练习之外, 在每一章或者每一个大问题结束之后还要开设习题课。在习题课上, 教师首先要总结这一部分所学的重要知识点以及它们之间的联系, 使学生在思维中形成一个完整有机的知识体系, 整体的把握知识框架, 这比掌握零散的知识点更有效。其次, 对本部分每一种重点的类型题都找一两道类似的题目讲解, 使学生在记忆开始模糊的时候重新回忆起来, 从而牢固地掌握本部分内容, 为开始新的篇章打好基础。

2.4 建立和谐的师生关系

高等数学是一门相对较难的学科, 学生在学习起来比较吃力, 这样就容易形成逆反心理, 因此建立和谐的师生关系是达到良好教学效果的必要条件。首先, 师生之间是平等的,闻道有先后, 术业有专攻而已。这就要求教师在上课的时候不要高高在上, 要多多与学生交流, 在每一个知识点过后及时询问学生是否理解, 如果没理解就再讲一遍。课下也同样要走入到学生中去, 及时解答他们的问题, 还可以跟学生谈一些与课程无关的东西, 拉近与学生的距离。只有切身体验到他们的感受和需求才能更好的完成教与学的任务。

3 通过课后的练习巩固高等数学课上所学的知识

根据艾宾浩斯遗忘曲线, 如果只是上课记住了, 课下就不再复习,那么所掌握的内容就会迅速遗忘。所以, 适量的课后作业是非常必要的, 几道习题几十分钟就可以起到巩固知识的作用。同时, 教师也可以根据自身的科研方向, 设计一些小的科研课题, 鼓励和引导学生进行思考, 如何利用学到的高等数学知识去解决实际的生物信息学问题。此外, 教师对n后作业的批改同样重要, 通过对每一份作业的仔细批阅, 找出学生犯错的共性和个性问题, 在下堂课着重讲解, 那么学生再遇到类似问题时就不会犯同样的错误了。同时还要对做的好的学生给予表扬和鼓励。

高等数学作为生物信息学专业的必修基础课, 其教学效果的好坏直接影响到生物信息学人才的培养以及学科的建设, 而要提高高等数学的教学效果, 就要做到课前认真备课,课上利用多媒体与板书结合的教学手段, 重视基础内容的教学与练习, 同时活跃课堂气氛, 保持和谐的师生关系, 并在课后布置适量的课后作业。

参考文献:

[1] 张红梅.提高高等数学教学效果的几点见解.赤子,2009,4:45

[2] 孙啸,陆祖宏,谢建明.生物信息学基础.第1版.北京: 清华大学出版社,2005.286-287.

生物信息学产生的背景范文4

1.1事实(Facts)

作为整个信息链的起点,事实就是事物在人类视野(感观/逻辑)中的原始映像[1]。事实是事情的真实情况,包括事物、事件、事态,即客观存在的一切物体与现象、社会上发生的不平常事情和局势及情况的变异态势[2]。事实也是人类知识的起源,人类全部知识的最初信息基础就是事实。

1.2数据(Data)

通常认为,数据是对事物纯粹的、客观的记录,是原始的未经解读的数字、文字、图像、符号、声音、计算机代码等[3]。而数据本身缺乏关联和目的性,但当数据结合一定的背景、规则、意义之后,就会形成信息。

1.3信息(Information)

作为整个信息链中的中心链环的信息,它的下游是面向物理属性的,上游是面向认知属性的。“信息”既有物理属性也有认知属性,因此成为“信息链”的代表称谓。

1.4知识(Knowledge)

知识来自于信息,信息只有同接收者的个人经验、信息与知识准备结合,也就是同接收者的个人背景融合才能转化为知识,它比数据或信息更接近行动。知识必须经过学习或研究以及从信息中经过去粗取精、去伪存真等加工才能够获得[4]。

1.5情报(Intelligence)

情报是为实现主体某种特定目的,有意识地对有关的事实、数据、信息、知识等要素进行加工后得到的产物。情报既包含有信息的成分,也包含有知识的成分。从信息层面看,情报所包含的信息是与人类社会有关的;从知识层面看,情报是与知识的利用价值紧紧联系在一起的。从一定程度上来说,情报是知识的子集。1.6智慧(Wisdom)智慧是能迅速、灵活、正确地理解和解决事物的能力。这种能力来源于人类基于已有的知识,是针对物质世界运动过程中产生的问题,根据获得的信息进行分析、对比、演绎,找出解决方案的能力。从严格意义上来讲,智慧是属于知识层面的,是人类大脑运用知识活动的产物———即运作和应用知识的知识。有知识不一定有智慧,但有智慧一定有知识。知识只有转化为智慧,才能显示出其真正的价值。

1.7事实、数据、信息、知识、情报、智慧之间的关系

数据是客观事实的记录,信息是有意义的事实和数据,知识是系统化的信息,情报是进入人类社会交流系统的运动着的知识,智慧是运用信息和知识解决问题的能力。这样由事实(Facts)数据(Data)信息(In-formation)知识(Knowledge)情报(Intelligence)智慧(Wisdom)层层递进,构成了一条完整的信息链,见图1[5]。

2医学信息学的相关概念

2.1国外医学信息学定义的三种导向

2.1.1以信息技术为导向定义侧重于技术和工具,即通常强调以计算机为基础的技术。“临床计算”、“医学中的计算机”、“医学计算机科学”、“计算机在医学中的应用”等认识比较常见[6]。

2.1.2以角色、任务或面向领域为导向定义侧重于组织内部信息人员的角色。例如,护理信息学、牙医信息学等通过医学信息学分支学科来定义。

2.1.3以概念为导向定义侧重于如数据、信息和知识这些概念在医学领域中的特定内涵。从总体上来看,国外医学信息学的定义是朝着形成基于数据、信息、知识的医学信息学定义方向发展的。

2.2中国医学信息学定义的两种倾向

2.2.1基于字面拆分后的概念解析

第一种拆分是将“医学信息学”拆分为“医学”+“信息学”(medicalinformatics)———偏重于方法论层面。把“医学信息学”定义为信息学在医学领域中的应用,同时确定医学信息学的范围是“医学”和“信息学”之交叉。前者指其应用领域,后者指其方法学。第二种拆分是将“医学信息学”拆分为“医学信息”+“学”(medicalinformationscience)———侧重于学科体系层面(即理论与技术方法统一的学科体系)。把医学信息学定义为研究“医学信息”的一门科学,即研究医学领域中的信息现象和信息规律的一门科学。

2.2.3基于国外医学信息学定义的翻译与重组

此类定义大多为将国外医学信息学的定义翻译成不同形式的汉语语言并且进行重组,与国外对医学信息学的定义无太大区别。

3医学信息学研究中的信息链

3.1“数据信息”链

这一环节的重点在于对医疗大数据的应用。当下全球大量的公共卫生信息、电子病历信息、用药信息、住院信息、图像信息、管理信息、基因信息、医学知识库信息以及实验室数据等构成了医疗卫生大数据[7]。随着信息技术与卫生及生物医学日益紧密的结合,大数据对卫生及生物医学的研究与应用也将产生深刻影响。因此,如何更好地利用大数据便成为信息技术与卫生及生物医学领域共同面对的挑战。大数据在医疗行业可应用于临床、研发、公共卫生和创新商业模式等领域,在健康领域的终极应用是疾病诊断和预测性治疗。虽然医疗大数据的研究和应用如火如荼,但在应用过程中也面临着诸多问题,如数据的存储、数据的整合、数据的挖掘利用和保护等方面都面临着一些问题。这也就需要我们在利用医疗大数据的同时,变革数据管理方式、建立完善的区域卫生信息化标准体系、积极探索利用数据挖掘技术等等各种措施,利用创新的方法和模式,发挥大数据在医院行政管理、健康教育与管理、卫生信息服务和疾病的控制预防中的作用和价值。

3.2“信息知识”链

这一环节主要关注医学知识库的建立。数据库是计算机应用系统中的一种专门管理数据资源的系统,它有文字、符号、图形、图像、数字及声音等多种形式。而知识库是知识工程中结构化、易操作、易利用、有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识集合区别与联系[8]。知识库的概念来自两个不同的领域,一个是人工智能及其分支———知识工程领域,另一个是传统的数据库领域。人工智能和数据库两项计算机技术的有机结合,促成了知识库系统的产生和发展。建立医学知识库,需要一支多学科人才的专业队伍,并且要能够适应数字化医疗向智慧化医疗的转变需要,构建大型的一站式通用智能医学知识库。建立知识库,要以本体为建设思路和方法,不仅要构建西医学科的知识库,更要构建中医学科知识库,且重视与“大数据”医疗的整合,更好地利用临床信息,将有用的信息知识化。

3.3“知识智慧”链

这一环节的着重点在于智慧医疗的实现。2008年,IBM首先提出了“智慧医疗”的概念。早期的智慧医疗强调物联网的作用,设想把物联网技术充分应用到医疗领域中,以实现医疗的信息互联、共享协作、临床创新、科学诊断以及公共卫生预防。而未来的智慧医疗将是以卫生信息化和信息共享为基础,以患者为中心,以个性化、智能化医疗服务为核心的医疗服务体系[9]。智慧医疗包括了智慧医院、区域医疗、家庭自助健康监护等多种服务方式,它将成为未来医疗卫生信息化发展的主要潮流。智慧医疗可以创建一个更加合理的医疗产业链,并且使用户体会到更加智能化和协调化的医疗服务[10]。

4医学信息学的未来发展方向

4.1学科体系的协同融合,加速了生物医学信息学的形成与发展

医学信息学(MedicalInformatics,MI)和生物信息学(Bioinformatics,BI)虽然产生背景不同,但是进入后基因组时代之后,生物信息学和医学信息学的边界趋于模糊,互相渗透和结合的趋势明显。其目的就是要提供新的生物医学知识的开发和共享框架。正是两者的协同融合加速产生了一门新的学科———生物医学信息学(BiomedicalInformatics,BMI)。可以预见的是,基于相同的学科理论基础和彼此交叉融合的研究内容,生物医学信息学一定是医学信息学和生物信息学未来的发展方向。

4.2学科研究向促进“转化研究”的方向发展

首先,在信息链的研究视角下,医学信息学的发展会更加注重信息链中的要素从低层次到高层次的链环转化;其次,在医疗领域,医学信息学面临的最大的挑战是如何将生物医学研究领域的成果快速、可靠地转化为现实可用的临床解决方案。同时,医学信息学出现了新的分支学科,即转化医学信息学。转化医学信息学通常被认为是以转化医学中的相关信息问题为研究对象,结合信息科学、理论基础和应用技术,服务于转化医学的研究,其目的是促进基础医学研究成果顺利向临床应用转化[11]。转化医学信息学的研究内容包括医学信息的标准化和医学数据的组织与存储等。它可以利用信息技术有效地加快基础研究变为临床应用,有力地促进转化医学的发展。

4.3学科的社会服务功能不断提升

4.3.1个性化

个性化意味着卫生信息管理和卫生信息服务以用户为中心,围绕每个用户的状态、需求乃至兴趣爱好来采集信息或提供信息服务。可以设想,在未来每个患者都将拥有自己的个人健康中心。

4.3.2智能化

智能化意味着通过对既有信息的分析,挖掘其中的规律,利用获得的规律来处理新的信息,并给用户提供科学合理的建议。

4.4新技术支撑和引领着医学信息学的未来发展

在未来发展中,许多崭新的技术可以有效地促进医学信息学的研究和应用的发展。远程医疗(Telemedicine):计算机技术、多媒体技术、通信技术与医疗技术结合。移动医疗(MobileHealth):通过移动通信技术来提供医疗服务。健康物联网(TheInternetofthings):利用物联网进行健康和疾病的管理。健康云(Healthcloud):以SaaS的方式向医院和医疗机构提供医院管理和居民健康档案管理方面的服务。医疗大数据(Medicalbigdata):大数据技术与医疗行业结合,充分开发利用医疗数据蕴含的信息与价值。转化医学(TranslationalMedicine):建立基础研究与临床医疗间更为直接便捷的联系。智慧医疗(Wisemedical):使用物联网技术打造健康档案和医疗信息平台,实现患者与医护人员、医疗机构和医疗设备的互动。

4.5我国医学信息学学科发展亟待解决的问题

我国医学信息学最近几年发展很快,但学科研究体系不够完善和成熟、学科建设和理论研究比较薄弱、标准设置滞后、系统规划和人才不足等问题制约了医学信息学的健康发展。

4.5.1亟需解决学科正名和专业名称规范化问题

医学信息学在国内的学科地位的确很尴尬,主要表现在国内的三大学科体系(目录),即“中国图书馆分类法”(简称中图法)、“国家标准的学科分类与代码”(简称国标法)、“教育部颁布的学科专业目录”(简称教育法)中均没有“医学信息学”的类名。因此,当务之急是要尽快确立“医学信息学”的学科名称及其在学科体系中的位置。医学信息教育在国内看似很火爆,其实是乱象丛生。此前教育部只批了中南大学、南通大学、徐州医学院的医学信息学专业,但国内很多学校都在信息管理与信息系统等专业后面加括号注明“医学信息学方向”,然后对外宣称是医学信息学专业。与此类似的还有一种叫“卫生信息管理专业”。显然这都是不负责任的做法。因此,希望教育主管部门加大宏观指导与调控力度,规范医学信息学的学科建设与专业教育。首先,在学科及专业目录上设立独立的“医学信息学”,既不要让“医学信息学”依托(附)于其他学科/专业,也不需要在别的学科/专业后面的括号内出现“医学信息学”。根据教育部2012年9月颁布的《普通高等学校本科专业目录》,建议将“医学信息学”纳入到“特设专业”中的“1010医学技术类”。其次,成立全国医学信息学教学指导委员会(教指委),规范指导医学信息学的专业教育。再次,协调指导“医学信息”类的学术组织,整合医学信息学的学术研究力量和研究队伍,指引医学信息学的健康发展。

4.5.2加强学科课程的设置和培养目标的确立

我国医学信息学专业的本科课程设置比较落后,学科的课程体系不完善且专业教材缺乏,不同学校的教学内容和培养目标差别很大,体现不出学科的重要性和交叉复杂性。故要求科学合理地加强学科的课程设置,正确处理好计算机科学、医学和信息科学之间的关系,参照国外已有的教学方案并联系自己的教学实际情况去充实教学计划,扩宽教学范畴,使整个医学信息学的教育更加合理。4.5.3实现专业教育体系化,加强专业人才的培养由于没有认识到医学信息学教育的重要意义,医学信息学地位不高,所以学科的科研投入、教育投入和人才培养都面临难题,教材和师资的缺乏也导致了专业教育规范化和体系化不足。为此,要深刻认识到医学信息学教育的意义,推动专业教育向规范化和体系化迈进。医学信息学作为一门新兴学科,其发展需要大批的高水平人才。人才的培养需要在专业教育中实现,只有通过规范科学的教育体系培养高素质的医学信息学人才,培养医学信息学研究的复合型人才和对在岗人员进行进修培训,才能适应医学信息学的快速发展。

5结语

生物信息学产生的背景范文5

关键词:计算机应用;中文信息处理;生物信息学;文本挖掘;信息抽取;机器学习

中图分类号:TP391 文献标识码:A

1 引言

当前,生物医学领域的研究正在飞速发展,大量的生物医学知识以非结构化的形式存在于各种形式的文本文件中。国际上生物医学领域的权威数据库MEDLINE(Medical Literature Analysis and Retrieval System Online)的文献总数目前已达到1600万篇,近年来年均发表文献超过60万篇。如何才能有效地利用这些文本中所蕴含的生物医学知识无疑对分析海量的生物医学数据是非常重要的。常用方法是通过关键词在MEDUNE中或者互联网上进行检索,但是这只能从大量文档集合中找到与用户需求相关的文件列表,而不能从文本中直接获取用户感兴趣的事实信息。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项迫在眉睫的任务。

文本挖掘技术在文本知识自动获取中起到了重要作用。文本挖掘通常包括信息检索、信息抽取、数据挖掘三个步骤。其中信息检索(Information Retrieval,IR)用于识别相关文本,信息抽取(Information Extraction,IE)用于识别实体、关系、事件等信息,数据挖掘(Data Mining,DM)则从结构化信息中识别出相互间的关联。生物医学文本挖掘的研究重点主要由信息抽取和数据挖掘两方面的研究组成。具体来说,包括生物医学领域命名实体识别、同义词和缩写词识别、关系抽取、利用推理进行关系抽取的假设生成、文本分类以及上述工作的集成框架等。该领域研究的主要方法是通用的机器学习方法、领域知识、面向任务的前处理和后处理技术的相互结合。

文本挖掘在生物医学领域中的应用,可以提高生物医学信息建设和管理的效率。生物医学数据库的建设是最早推动生物医学文本挖掘的动力。通过信息抽取技术可以建设以疾病诊断、药物设计为目的的专用蛋白质作用关系数据库。例如建设特定疾病如乳腺癌、老年痴呆症的蛋白质作用关系相关数据库。通过数据库描述的蛋白质作用网络,将极大地有利于疾病诊断、药物设计,促进相关生物医学研究的进展。近年来文本挖掘技术在生物医学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白质及其相互作用的关系,进而对大型生物医学数据库进行自动注释。例如:现有研究成果已经可以对蛋白质数据库加注功能关键词,并利用这项功能发现大分子问的相互作用关系。使用标准词汇对实验数据统一标注,架起了生物医学文献与生物医学实验数据的桥梁。借助生物医学文本挖掘技术进行数据标注的方法,广泛应用在功能基因组学数据上。经过人手工核对,正确的标注信息将赋予实验数据,有效的文献信息也将作为标注依据链接到实验数据。

生物医学文本挖掘的更大意义在于可以通过对文本分析研究帮助人们发现在文本中隐含的知识,从文献中挖掘出来实验假设和实验建议,以便生物学家验证得到新的科学发现,从而提高人们对生物医学现象的认识。例如,运用分子生物学文献的信息抽取技术来分析海量的生物医学数据,可以帮助分子生物医学专业人员理解分子生物学实验数据,研究分析实验结果。

生物医学文本挖掘是生物信息学研究的分支之一,是生物学研究中不可缺少的环节,它汇集着具有不同专业背景研究者的共同努力,推动和促进了生物医学的发展,对实现疾病的辅助诊断、预防和治疗,新药的辅助发现等起到了重要的作用,为人类对生命的探索做出了重要贡献。生物医学为文本挖掘技术提供了大量的验证数据,对文本挖掘技术起到了反推动作用。这是一种跨学科性研究,涉及到自然语言处理、机器学习、生物信息学等方面的技术,非常具有挑战性。目前,该研究领域吸引了来自计算语言学、生物信息学、机器学习等方面研究者的广泛关注,本文侧重介绍生物医学命名实体识别、缩写词和同义词识别、生物医学实体关系抽取、建立相关资源以及技术评测等。

2 命名实体识别

生物医学文本挖掘的基本任务之一是生物医学命名实体识别(Biomedical Named:Entity Recognition,Biomedical NER),其目的是从生物医学文本集合中识别出指定类型的名称,如蛋白质、基因、核糖核酸、脱氧核糖核酸等。这是进一步抽取关系和其他潜在信息的关键步骤。

生物医学领域的命名实体具有如下特点:新的命名实体不断出现,目前并不存在一个完整的包含各种类型的生物医学领域命名实体的词典,所以简单的文本匹配算法已经失去了作用;很多生物医学命名实体都是多词短语,有些有前置修饰语,例如:activated B cell lines,有些名称很长,例如:47kDa steroI regulatory element binding factor,这些特点给确定命名实体的边界带来了很大的困难;相同的词或者短语可以表示不同类别的生物医学命名实体,要依据上下文才能推断出来,例如:IL-2既表示蛋白质名称,又表示DNA名称;很多生物医学命名实体拥有多个不同的书写形式,例如:N-acetyl-cysreine,N-acetylcysteine,NAcetylCysteine等表示同一命名实体;很多生物医学命名实体是用“and”或者“or”连接的并列结构,它们共享同一个中心名词,例如:91 and 84 kDa proteins,这样的命名实体也很难正确识别;生物医学命名实体还存在着嵌套现象,例如:<PROTEIN><DNA>kappa 3</DNA>binding factor</PROTEIN>,因此还要解决候选命名实体的重叠问题;缩写词占有较高的比例,例如:IFN,TPA等等。很多缩写词的形成是没有规律可言的,并且缩写词还具有高度的歧义性,一般情况下,扩展形式比缩写词形式有更多的证据确定它的类别,缩写词形式和它的扩展形式相比更难分类。总之缩写词的识别很大程度上依赖于上下文,而不能依赖于现存的生物词典。因此,生物医学命名实体识别是富有挑战性的一项研究。

目前,生物医学命名实体识别的方法分为以下 三类:基于启发式规则的方法,基于字典的方法和基于机器学习的方法。基于规则的方法需要耗费大量人力建立识别规则库,而基于字典的方法存在着名称冲突和覆盖率受限的不足。目前研究的重点主要是基于机器学习的方法。

机器学习方法是从样例数据集合中统计出相关特征和参数,以此建立识别模型。目前已经有很多机器学习方法应用到生物医学命名实体识别当中,如贝叶斯模型、隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机场(CRFs)、最大熵(ME)等。基于机器学习的方法依赖于大量的标注语料,因此所面临的问题是如何获得廉价的大量训练数据。

支持向量机方法是一种比较有效的学习方法,已经成功应用到自然语言处理的多项任务中。Ka-zama等应用支持向量机来识别生物医学命名实体并使用GENIA语料作为训练语料。Lee等提出了一种基于支持向量机和查找字典的两阶段生物医学命名实体识别的方法,在第一阶段,使用SVM分类器识别命名实体并且用简单的字典查找作为后期处理来校正由SVM模型识别带来的错误;在第二阶段,把识别后的命名实体用SVM划分成语义类。该方法把任务划分成以上两个子任务,能够针对每一个任务选择更相关的特征,选择更为合适的分类方法,减轻了不平衡的类分配问题所产生的影响,提高了整体任务识别的精确率。AbGene系统是比较成功的生物医学命名实体识别系统之一,曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。该系统使用7 000个手工标注命名实体类别的句子作为贝叶斯模型的训练语料,并采用手工统计规则作为后处理,同时使用命名实体所在的上下文来帮助校正识别错误。该系统达到了85.7%的精确率和66.7%的召回率。Chang等设计的GAPSCORE系统考虑到单词的出现次数、词形和上下文并以此为句子中每个词分配一个得分,然后使用基于词形和上下文等特征来训练N-gram模型,具有高分的单词更可能是基因和蛋白质名称。Zhou等人使用基于丰富特征集合的方法训练隐马尔可夫模型,他们在GENIA语料上获得了66.5%的精确率和66.6%的召回率。Yi-Feng Lin等使用基于特征的最大熵模型并结合后处理过程,在分类为23个实体类别的genia语料上获得了72.9%的精确率和71.1%的召回率。Tzong-hanTsai等使用条件随机域模型结合丰富的特征集合和后处理过程在BIONLP2004测试语料上获得了69.1%的精确率和71.3%的召回率。

近两年来,生物医学领域命名实体识别的研究不断扩展和深入。一是命名实体识别扩展到新的语义类型,如临床术语、化学名词语义类等。二是各种新方法的应用,如自动构建训练语料的bootstrapping方法,多分类器结果的重新排序(reranking)方法等。此外还有嵌套命名实体识别。

目前性能最好的生物医学领域NER系统的F测度已经达到80%以上,但与通用领域NER结果(90%以上)还存在一定差距,还需要研究人员的进一步努力。

3 缩写词和同义词的识别

很多生物医学命名实体存在多个名称和缩写形式,因此必须有效地识别这些同义词和缩写词,目前大部分研究工作都集中在未登录的基因名同义词和命名实体缩写词的识别上。

抽取生物医学命名实体缩写词及其全称形式,所用方法依赖于全称和缩写词的接近程度。一般而言,全称或者缩写词通常在括号里,因此,识别缩写词被简化为寻找最佳的缩写词和对应全称的对齐过程,这样的对齐过程在很大程度上依赖于上下文。

大部分缩写词的识别方法属于以下三种方法之一:首字母匹配法、首字母和其他字母匹配法、特定模式匹配法。首字母匹配法最简单,即匹配缩写词每一个字母和周围文本中若干词的首字母。第二种方法是放宽条件,即允许匹配首字母之外的其他字母,这种方法一般使用启发式规则进行识别。第三种方法是识别那些后面还添加一定模式的缩写词,这也需要手工建立一些规则。

Liu和Friedman在大量MEDLINE文本中统计缩写词和全称的搭配,以此作为规则来检测缩写词与全称的配对,取得了96.3%的精确率和88.5%的召回率。在应用手工规则识别缩写词和全称的研究中,Yu等获得了95%的精确率和70%的召回率,Schwartz和Hearst在1000篇MEDLINE摘要的集合上识别与酵母有关的缩写词,获得了96%的精确率和82%的召回率。Chang使用缩写词特征训练逻辑回归模型,并且用这些特征评价缩写词的候选全称形式,在Medstract语料上获得了80%的精确率和83%的召回率。就目前识别精度来看,在单篇文章中自动识别生物医学缩写词和相应全称的问题已经基本解决,上述识别系统都取得了较高的精确率和召回率。今后的研究将把缩写词识别与其他文本挖掘任务结合,并应用到实际的生物医学文本挖掘系统当中。

同义词识别是建立一个能自动更新的同义词词表的基础,具有重要的应用价值。虽然从在线数据库中能获得基因名称的同义词列表,但这些数据库中多数为基因的正式名称,因此相对于文献中的实际基因名称,其数据并不完整。为了建立出现在文献中有代表性的基因和蛋白质名称同义词列表,需要从生物医学文本中自动抽取基因和蛋白质名称同义词。

Yu等人结合了AbGene基因命名实体识别系统,采用统计方法、基于支持向量机的分类器、基于自动生成模式和手工生成规则等算法相结合,同义词识别的召回率为80%,精确率为9%。Cohen采用自动模式抽取方法对MEDLINE摘要进行同义词抽取,通过分析同义词共现网络结构选取最佳同义词模式,获得的精确率为23%,召回率为21%,该系统可以根据文本中出现的词间的明确逻辑关系来推断它们是否为同义词,与没有类似推断的系统相比,召回率提高了10%。

基因和蛋白质名称的同义词抽取研究结果的精度普遍还较低,因此更具挑战性。目前,一种新的基因蛋白质名称的标准化工作正在开展,其研究步骤是首先进行基因和蛋白质名称的识别,然后再进行基因名称的规范化(Gene Name Normalization)。此外,使用Ontology方法用于同义词识别也是最新的研究趋势。

4 关系抽取

生物医学文本中关系抽取的目的是从多个给定类型的命名实体如基因、蛋白质和药物名称等当中检测是否存在预先指定类型的关系,如蛋白质之间的抑制关系,实体之间的从属关系等。大多数生物医学命名实体关系抽取系统主要抽取特定命名实体之间的二元关系,即两类命名实体之间的关系。

生物医学文本中的关系抽取还存在相当的困难,主要原因包括:文本中陈述同一事实有多种不同的陈述方式;文本中并不仅仅是简单的语法类型; 文本中包括很多未登录命名实体;关系信息存在于多个句子之中;存在很多不能抽取出任何关系信息的句子。

目前生物医学领域命名实体关系的抽取主要使用了以下方法:共现方法、关键词方法、机器学习方法和自然语言处理方法。

共现方法认为离得越近的命名实体越可能相关,越经常一起出现的命名实体越可能相关。PubGene系统使用共现方法建立了一个包含基因和基因交互关系的数据库,实验结果达到了60%的精确率和51%的召回率。当仅考虑出现在5篇或5篇以上文章中的基因对关系时,精确率上升到72%。还有研究者在同一个短语中或者同一个句子中查找共现的基因对。Ding等做了一项全面的量化研究实验,发现用共现方法识别关系在同一摘要中得到的精确率为57%,召回率为100%;而在同一句子中精确率为64%,召回率为85%;在同一短语中精确率为74%,召回率为62%。

为了识别关系的类型,识别算法必须检验相关的信息。一种简单的推断方法是识别那些可以区分特定类型关系的关键词或者短语,这就是关键词方法,其具体应用是使用词模式。在此方法中,研究者给出了一些生物医学命名实体模式和区分特定类型关系的常用词。这些模式通常比较简单,不需要更多的词性信息或者复杂的语义信息,如<protein A><action><proteinB>,这里的<action>是由14个词及其变体组成的词表;Ono等的方法中则使用了20个模式。

在基于机器学习方法的关系识别中,把句子中的关系共现表示成向量空间模型,然后使用分类器给句子中可能存在的关系打分。Eskin和Agichtein使用SVM算法和基因序列kernel来预测蛋白质在细胞质中的位置,其性能达到87%的精确率和71%的召回率;而预测蛋白质在过氧化物酶体中的位置,其精确率为44%,召回率为21%。JuanXiao等使用基于特征的最大熵模型识别蛋白质的交互作用关系(Protein-Protein Interaction,PPI)获得了88.0%的精确率和93.9%的召回率。Ameet SoniC343使用条件随机域模型识别PPI并和基于规则的系统作了对比,实验证明基于CRFs的系统比基于规则的系统识别性能有很大的提高。

用于关系抽取的自然处理方法一般要使用领域Ontology和句法结构分析。简单的方法可以只考虑词性,如在识别蛋白质和蛋白质的关系中,句子中的蛋白质名称都必须是名词。Thomas等仅使用词性作为是否存在关系的评分标准。句法分析器是生物医学文本中进行关系抽取的有利工具。如使用浅层句法分析器(Shallow Parser)确定已知动词的主语和宾语,使用完全句法分析器(Full Parser)确定句子中所有组成部分的关系。Park等使用句法分析器,使关系抽取结果达到了80%的精确率和48%的召回率。Zhongmin Shi等使用统计句法分析技术同时识别生物医学命名实体及其间的功能关系,通过使用有噪音标注数据的半指导学习方法获得了83.2%的F测度值。

Stephens等提出了使用向量空间模型从文本中识别基因对关系及其共现强度的方法,使用了TF-IDF计算公式和用户定义的阈值来挖掘命名实体之间的关系。文献中提出一种无指导的关系抽取方法,该方法使用了类似于互联网页面重要性评价HITS算法的思想,称为基于图的交互增强方法。

5 语料库建设和领域本体知识库

统计机器学习方法需要大量的已标注文本数据作为学习器的训练语料,所以,生物医学文献语料库的标注成为相关研究的基础。生物医学文本标注的内容主要包括命名实体、命名实体关系。目前国际上可以公开获取的生物医学文本挖掘的标注语料库有:GENIA语料库、GENETAG语料库(也是BioCreAtlve Task 1A的评测语料)、Medstract语料库、Yapex语料库、Protein Design Group(PDG)语料库和University of Wisconsin语料库等。表1中列出了每个语料的发行时间,语料内容的切分单位(以句子或摘要为单位),语料的大小(以词为单位)。表2中列出了各个语料可以应用的文本挖掘任务。

GENIA语料库是标注规模最大、语义分类最多、应用最广泛的标注语料库。该语料库标注包括词切分、句子切分、词性标注。语料中标注了关于人类血细胞转录因子领域的基因和基因产物命名实体,由2000篇MEDLINE摘要组成,共有18545个句子,39373个命名实体,36个语义类。它也是JNLPBA语料库的母语料库。需要指出的是:PDG和Wisconsin语料库中只列出所包含的命名实体,但没有指出所在文本中的位置,无法实现正确的评价,因此较难应用于一般的命名实体识别任务。Medstraet是这些语料中唯一有指代消解标注的,并且给出了缩写词的扩展形式。

上述语料库的原始语料皆出自国际权威的生物医学数据库MEDLINE,信息检索和文本挖掘研究主要集中在该数据库上。MEDLINE中生物医学文献数量目前已超过1 600万篇文献,其中超过300万篇文献是近5年内出版的。美国国立医学图书馆的Entrez-PubMed提供了免费的MEDLINE检索服务,是世界最著名和使用最广泛的MEDLINE网上检索系统,于1995年7月推出,已经成为科研人员获取医学文献信息的首选。PubMed提供了主题词检索和自由词检索。

MeSH(Medical Subject Headings)是美国国家医学图书馆(NLM)用以分析生物医学期刊文献等资源的主题内容的控制语汇表,也是NLM出版的MEDLINE数据库主题检索的索引词典。MeSH由22 995个主标题(Descriptors,main headings)组成,分为15个层次。MeSH主标题层级结构安排的目的是为信息检索提供服务。生物信息学中最具有权威性的本体论是基因本体论(Gene Ontology,GO),由基因本体论协会建立。其目标是建立一套结构化的、精确定义的、通用的控制性词汇,使其在任何生物体内都能描述基因和基因的产物所表现的角色。GO构建了3个相对独立的本体,即生物过程(Biological Process)、分子功能(Molecular Function)和细胞成分(Cell),它们是基因和基因产物的所有属性。

6 评测会议和相关学术会议

文本信息处理技术的评价通常包含两个部分:标准的评测数据集和评价标准。标准评测数据集一般由领域专家通过手工标注相关文本来获得,这样的数据集通常称为金标准(Golden Standard)。其中比较流行的金标准语料库是GENIA语料库。将 自动识别结果与标准数据集相比较,就可以评价某个文本挖掘技术目前所达到的水平。

生物医学文本挖掘评价标准与通常的文本挖掘评价标准类似,也是由精确率(Precision),召回率(Recall)和F测度(F-score)来评价的。

近年来出现了很多公开评测生物医学文本挖掘算法的国际会议,对本领域研究的发展起到了重要推动作用。表3列出了当前国际上主要的评测会议。

在近年来举行的竞赛和评测中,最有影响力的是TREC Genomics Track,该评测由美国国家技术标准局(National Institute of Standards andTechnology)支持。Genomics Track从2003年开始,以后每年一次,评测任务主要为分子生物学领域的文本检索和分类。2004年有29个研究组参加,2005年有41个研究组参加。我国大陆有复旦大学、清华大学、大连大学等几家单位先后参加这两届评测。

JNLPBA/BioNLP 2004(Joint Workshop onNatural Language Processing in Biomedicine andits Applications)评测是与国际计算语言学会议同时召开的研讨会,其主要评测任务是生物医学命名实体识别,共有八个参赛系统参加评测。BioNLP 2007的评测任务是临床医学文本多标记分类,共有50个参赛系统参加评测。BioCreAtlve(Critical AssEssment of Information Extractionsystems in Biology)也是一个重要的生物医学文本挖掘评测会议,由西班牙国家癌症研究中心CNIO、美国MITRE公司、美国生物技术信息中心NCBI等5个机构负责组织。该评测包括两个任务:其一是识别文本中的基因和蛋白质名称,除了识别命名实体外,各参评系统还要识别出这些命名实体的同义词;其二是用GeneOntology codes注释蛋白质,识别出蛋白质的功能。目前该评测已经举行了两届,2004年评测包括多种文本挖掘任务,共有10个国家的27个研究组参加了此次评测。2006年评测的总结会议在ACL2007上进行。

KDD(Knowledge Discovery and Data Mining)挑战杯是一个公开评测数据挖掘算法的竞赛。尽管KDD的传统任务既和文本无关也和生物医学领域应用无关,但是从2002年已经开始了生物医学文本挖掘任务的评测,这也是最早的关于生物医学文本挖掘的评测。KDD竞赛包括两部分:第一部分是识别基因功能;第二部分是预测基因对信号传输路径的影响。第二个任务可以作为一个统计分类问题来处理,其中涉及到基因功能信息、蛋白质定位以及蛋白质交互等。参赛者所建立的系统用来帮助FlyBase数据库管理。

生物医学文本挖掘是一个跨学科的交叉领域,自然语言处理、生物信息学、机器学习领域都召开了关于这个主题的学术研讨会(Workshop),在自然语言处理领域已经发展成为一个相对独立的研究分支。表4给出了各领域中相关学术会议情况。2000年以来,国际计算语言学界的两个主要学术会议ACL(Annual Meeting of the Association for Computational Linguistics)和COLING(InternationalConference on Computational Linguistics)的每届会议都有相关文章发表;从2003年起,每届会议均设有一个相关主题研讨会(Workshop)。生物信息学领域与生物医学文本挖掘相关的学术会议主要有从1996年开始每年一月在夏威夷举行的Pacific Symposium on Biocomputing(PSB)会议和始于1993年Intelligent Systems in MolecularBiology(ISMB)年度会议。从PSB2000开始,该会议几乎每届都把文本挖掘作为会议主题之一;PSB2007则提出了“New Frontiers in BiomedicalText Mining”的主题。和PSB差不多同时,ISMB也在每届会议发表了这方面的文章,并且近几年把文本挖掘和信息抽取列为会议主题之一。国际生物信息学杂志Bioinformatics近年来开辟了数据和文本挖掘专栏,每期均有此类文章发表。

国际机器学习研究领域也对生物医学文本挖掘表现了很大兴趣,2005年国际机器学会ICML(International Conference on Machine Learning)的一个Workshop是LLL05(Learning Language inLogic),其主题为:Challenge task:Extracting Relations from Bio-medieal Texts。会议为关系抽取提供了训练和测试语料、评测程序,有5个国家的6个研究小组参加了评测。

7 国内相关研究

目前国内在生物医学文本挖掘领域的研究相对还比较少,主要有清华大学和哈尔滨工业大学,均取得了一定成果。清华大学研究者在蛋白质关系抽取方面做了深入研究,其主要工作包括:基于动态规划算法的模式匹配方法,用于抽取蛋白质交互作用关系,取得了80%的召回率和精确率;在此基础上采用最小描述长度原理进行模式优化,进一步提高了抽取精度。他们还将模式匹配与浅层句法分析结合起来,通过句法和语义约束,很好地识别了生物医学文本中的同位和并列句,将原模式匹配方法的精确率和F测度提高了7%。哈工大研究人员主要致力于生物医学命名实体识别和关系的识别的研究,先后尝试了多种机器学习方法。先后应用SVM算法、Generalized Winnow、CRF等方法进行命名实体识别,在实现中选择了丰富特征并结合后处理过程,在相同测试集上取得了优于国际同类研究的结果。目前,他们在综合多种统计学习方法进行多分类器融合的研究上取得了一定的成果,进一步提高了生物医学命名实体识别的精确率和召回率。在关系识别的研究上主要应用基于特征的机器学习方法并取得了一定的成果。

8 结论与展望

生物信息学产生的背景范文6

Institute and Department of Human

Biological Chemistry and Genetics,

University of Texas Medical Branch,

Galveston, TX (Ed.)

Neural Stem Cell

Development and Transplantation

2003, 473pp.

Hardcover $ 169.00

ISBN 1-4020-7588-X

Kluwer Academmic Publishers

本书是由14位专家撰写的关于神经干细胞研究进展与移植方面的专著,介绍了发育与疾病中的神经干细胞模型,提供了有关的背景知识,讨论了干细胞谱系及决定其命运方面的内容,包括各个阶段特异性标志物及细胞命运标志物。传统来源及胚胎和神经干细胞特性在本书中也有所涉及。

全书共10章。第1~5章的内容包括从异形组织中纯化神经干细胞及其克隆分析方面,涉及了啮齿动物及人胚胎干细胞及神经干细胞系的产生及特性、以及其在科学研究和修复方面的应用,讨论了神经干细胞的存活、增殖及分化的调节以及培养方法。第6~10章的内容是关于神经干细胞在细胞和基因治疗方面的使用,其中两章的内容对有关动物移植研究进行了综述;另外一章讨论了内源性神经干细胞刺激的令人感兴趣的新热点;接着讨论了针对神经系统损伤及疾病修复的人体细胞治疗方面的内容;最后一章对用于多种目的的内容进行了讨论,包括人体基因治疗的神经干细胞/祖细胞的基因表达的调节和修饰的方法。

目前,对于神经干细胞系、分化以及移植力的认识还处于早期阶段,但是该研究领域的目的非常明确,人们对此的研究也很感兴趣。借助于生物信息学、基因组、蛋白质组等新领域及其与它们相关的新技术,将能使我们获得新的有关早期神经发育以及神经发育在发育、代谢、免疫、退行性、衰老、外伤或遗传性或后天形成的局部缺血性疾病的临床应用方面的新信息。虽然许多难以治疗性疾病驱动着该领域临床的发展,但还必须持谨慎的态度,未来的成功将依赖于基础科学家的发现以及临床医生的应用。

本书内容涉及基础与临床方面,著者都是经过仔细挑选来的并具有各自的专业特长,他们分别从各自独特的角度阐述了干细胞研究当前的局限性和未来的前景,本书可供临床医生和神经科学工作者及其他对神经干细胞感兴趣的读者参考。

左萍萍,教授

(中国医学科学院基础医学研究所)