前言:中文期刊网精心挑选了生物信息学的定义范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
生物信息学的定义范文1
Shortliffe教授指出,医生对于计算机和新技术越来越依赖就是其中一个重要问题。由于患者的个体状况和疾病状况千差万别,医生在诊疗过程中的逻辑推理也各有特色。但是,计算机的应用有可能削弱医生和患者之间的和谐关系,使医患之间的互动和整个诊疗过程变得呆板机械。在某些情况下,医生不是根据自己的知识、经验和逻辑对患者做出诊断,而是依赖于他们使用计算机的方式来做出判断。实际上,计算机永远不可能代替人脑,更不可能超过人脑。只有当计算机和人类的智慧与实践相结合,才能发挥出真正的作用。
生物医学信息学的定义
根据美国医药信息学会(American Medical Informatics Association, AMIA)的定义:Biomedical Informatics (BMI) is the interdisciplinary, scientific field that studies and pursues the effective uses of biomedical data, information, and knowledge for scientific inquiry, problem solving and decision making, motivated by efforts to improve human health.
生物医学信息学(BMI)是一门研究如何有效利用生物医学数据、信息和知识的跨学科科学,以满足科学查询、解决问题和制定决策的需求,并通过不断的努力,推动和提高人们的健康。
生物医学信息学的关键属性
生物医学信息学主要从事生物医学数据、信息、知识的产生、存储、获取、使用及共享的理论、方法和过程的研究、开发和应用。
生物医学信息学建立在计算机技术、通讯技术以及信息科学的基础上,是IT技术在生物医学领域上的应用。
生物医学信息学在方法学上可以支持从分子水平到大众水平的研究、推论、建模、模拟、实验和转化。覆盖从基础医学、临床科研,到临床诊疗、公共卫生等多种生物医学领域的研究和应用。
生物医学信息学认为生物医学信息的最终使用者是人。因此,社会科学和行为科学对于技术性解决方案的设计和评价,以及对于复杂经济、伦理、社会、教育和组织架构的演进,起到了非常重要的影响作用。
BMI各应用领域的相互关系和区别
在生物医学信息学领域有很多看似非常相近的术语和名词,很容易被混淆和乱用,例如:信息学、医学信息学、生物信息学、卫生信息学、生物医学信息学、公共卫生信息学等等。如何理解这些术语?它们之间的区别和联系又是怎样的呢?
Shortliffe教授解释说:生物医学信息学是一门基础性生物医学科学,是一门应用潜力非常广泛的科学。生物医学信息学研究和发展的推动力,是生物学和医学领域的临床、科研和实践中所遇到的各种问题。生物医学信息学将生物医学的理论和方法与计算机、信息和通讯技术相结合,以创新和发展新的方法和理论为目标。这些核心理论和方法包括数学建模、数据库理论、认知科学、统计学、数据挖掘,自然语言处理等等,反过来又促进生物医学科学和健康科学的研究、应用和创新。
生物医学信息学理论、方法和技术首先被应用到临床医疗、诊断和护理等临床医学领域,同时也被应用在牙科和兽医学领域。这些领域关注的是患者个体,是以患者为中心实现临床相关信息的采集、集成、共享和应用,因此被称为临床信息学。
与临床信息学紧密联系在一起的是公共卫生信息学,它的应用不是针对单一的患者个体,而是关注整个人群,以大众健康和管理为目标。临床信息学和公共卫生信息学共享了很多相同的方法和技术,这两个方面结合在一起就是我们通常所说的医学信息学。因此,生物医学信息学不能等同于医学信息学。
生物医学信息学在生物学领域的应用,特别是在细胞生物学和分子生物学上的应用,主要关注的是细胞和分子水平的过程,这部分被称为生物信息学。
生物医学信息学在放射影像、图像成像和分析、以及影像管理方面的应用被称作影像信息学。影像信息学以组织和器官为主要对象,包括:放射影像、病理影像、超声影像、皮肤病学、以及分子可视化等等应用领域。
据Shortliffe教授介绍,其实这些应用领域的边际是非常模糊的,例如生物信息学和影像信息学相结合就产生了分子生物成像学;生物信息学和临床信息学的结合形成了药物基因组学,而临床信息学和公共卫生信息学相结合则形成了大众消费健康学。
BMI和HIT的关系
生物医学信息学与计算机科学(软件和硬件)、临床科学、基础生物医学科学、流行病学、统计学、生物工程学、管理科学及认知科学与决策密切相关。
生物医学信息学(BMI)与医学信息技术(Healthcare Information Technology, HIT)有着密切的关系,但相互各有侧重。BMI更偏重于BMI理论的研究、方法的建立、教学、以及这些理论和方法在生物医学研究领域应用。其主要参与者是学术研究人员、科研机构及相关实验室。而HIT则更偏重于应用,主要是把BMI的方法、理念以及研究成果与医疗临床实践相结合,并通过厂商开发成相应的医疗信息系统产品,供医院和卫生行政机构使用。其主要参与者是医疗IT厂商、医疗临床机构及卫生行政机构等。在美国,生物医学信息学领域的学术组织是美国医药信息学会(AMIA),而医学信息技术领域的学术组织是美国医疗信息管理和系统协会(HIMSS)。
加强生物医学信息学教育和培训
生物医学信息学对于生物医学研究、企业应用系统的研发、图书馆情报学和知识管理、公共卫生统计、生物技术和制药、临床实践和管理、以及政府决策研究,都将发挥重要的作用。
但是,目前要真正把信息技术应用到生物医学领域以及临床诊疗中,还存在一个非常大的障碍,就是缺乏同时具备信息技术知识和生物医学领域知识的复合型人才。因此,作为交叉科学的生物医学信息学,要肩负起自己的使命,要为复合型人才的培养做出贡献。各医学院校和研究机构,在开展常规的生物医学信息学学位教育之外,还应该积极开设信息学相关的培训,为医学生和护理学生提供双学位课程。另外,要加强对医药卫生专业人员的信息学继续教育,并积极为临床医护人员所进行生物信息学研究提供必要的支持和协作。
Shortliffe教授还指出: IT基础架构(IT Infrastructure)一向被公认为是实现安全、有效、以患者为中心、及时、高效率和公平六个医疗目标的基础。但是,临床信息系统设计和实施40年来的经验和教训告诉我们:成功的系统不仅仅取决于技术,而更取决于人、文化和创新性的流程。
生物信息学的定义范文2
【关键词】计算机应用;人工智能;生物信息学;数据挖掘技术
【中图分类号】TP391
【文献标识码】A
【文章编号】1672—5158(2012)10-0078-01
一、生物信息数据库的现状及问题
在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,而且开发了众多检索工具,从而实现了生物信息数据的智能处理和综合分析。生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。
随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。
二、基于生物信息数据仓库的数据挖掘技术
(一) 生物信息数据库中的算法工具
在生物信息学中,基因比对是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。数据挖掘主要存在以下几种经典分析模式:关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。
(二) OLAP和数据挖掘技术
传统的针对数据库的开发工具多为联机事物处理模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心。因此,基于数据仓库的联机分析处理以及数据挖掘引起了日益广泛的关注和应用。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。
(三) 基于生物信息数据仓库的数据挖掘技术
实现数据挖掘的前提条件是必须具有海量数据,而这恰恰是数据仓库的基本特点之一,二者紧密结合可以有效解决大量应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面高效的分析。
基于数据挖掘等技术发展起来的智能决策技术具备了在生物信息学领域中大展身手的天赋,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了较为完善的智能决策系统,成为数据仓库和数据开采较为成功的应用案例。另外,现有各种生物信息应用分析软件从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。
三、实现生物信息异地多源数据库的综合利用
(一) 建立基于Web的生物信息数据仓库
基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。设计一个基于Web的生物信息数据仓库,其主要结构由五部分组成:外部数据源;基于Web的数据调度、传输;数据的变形整合;元数据规则、元数据管理;基于Web的综合管理平台。
DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库,由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体分析过程则由分配服务器交给服务器去完成分析,只是最终将结果返回请求分类服务器,显示给用户。
DWBW将通过统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器及专用分析工具服务器共同完成对问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据分类的结果,与相关分析工具进行匹配,将问题提交到相应的分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。
(二) DWBW的关键技术
生物信息学元数据的抽取。数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。
虚拟生物信息数据仓库的建立。虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。
基于Web面向用户的综合平台的开发设计。此平台主要提供一个用户操作的平台,除了集成基因比对、功能预测、序列分析、基因提交等传统的操作以外,还允许用户对虚拟数据仓库中的数据运用数据挖掘技术,提供更多的分析支持工具。
生物信息学的定义范文3
关键词:信息论;哲学;本体论;自我
信息论的创始人申农为解决通讯技术中的信息编码问题,提出通讯系统的一般模型,发表了《通信的数学理论》《噪声中的通信》两篇论文,从而奠定了信息论的理论基础。他指出“信息论(狭义的)的基本结果,都是针对某些非常特殊的问题的,它们未必切合像心理学、经济学以及其他一些社会科学领域。”[1]因此,信息论分为广义信息论和狭义信息论。狭义信息论即申农早期的研究成果为主,它以编码理论为中心,主要研究信息系统模型、信息的度量、信息容量、编码理论及噪声理论等。广义信息论又称信息科学,主要研究以计算机处理为中心的信息处理的基本理论,包括评议、文字的处理、图像识别、学习理论及其各种应用。维纳认为“信息既不是物质,也不是能量,信息就是信息,不懂得它,就不懂得唯物主义。[2]”虽然维纳并没有给出信息的确切定义,但却第一次将信息科学映射到哲学问题上。
此后,信息科学的发展冲击了20世纪下半叶以来的哲学思想路线,重新开启了对哲学形而上问题的探讨。虽然从物理角度来说,信息是按照一定的方式排列组合起来的信号序列,它借助于某种介质作为通道来传递、加工和贮存。但是随着现代科学技术的发展,信息科学技术建构起了全新的语言环境、精神环境,“把我们从对事物的直接领悟中顺顺当当地推到由逻辑间隔隔开的世界中[3]”,使“知识源保持着一种抽象的控制论意义下的距离[4]”,从而消解了现实中的语言涵义。而现代人类依靠网络空间高速传播的思想,将世界空间缩小,人们凭借大众传播媒介或个人或组织给予的信息来建构起世界的“脑海图景”,并以此来判断世界并给予回应。正如“洞穴”隐喻一般,真实移动的“实体”不再真实,而意识、信息构筑的世界更“实际”,真实的世界成为“符号的宇宙”。哲学家海姆认为虚拟现实表现为七大特征:模拟性、交互作用、人工性、沉浸性、遥在、全身沉浸和网络通信。正统哲学都是基于客观实在现实性范畴框架内的哲学,客体是意识的容器,在主体和客体之间具有明显界限,而信息科学技术的发展,“电子化”的语言方式可快捷地扫描人的思想,意识的力量在某种程度上得以强化。由此,使我们不得不重新思考信息科学是否揭示并决定着我们对世界的认知和发问方式。
哲学本以人本意识为主,是自觉之自我的最高意识成就,它依赖于社会的发展而发展。在康德建立了系统完善的形而上学之后,尼采宣布了“上帝已死”,海德格尔对“自我”“存在”的考证也对人类自身发展做了完备的总结,维特根斯坦认为“哲学仅余下的任务是语言分析!”,似乎哲学没落到只囿于语言这一狭小领域,但信息科学技术的发展为自我、本体等哲学概念提出了重新思考的空间。信息科学在自身运动、发展的进程中,呈现出自身历史的反映、自身性质的规定、自身发展的种种可能性这三种自在、自为、再生的基本形态,这三种关于事物历史、现状、未来的间接存在凝结在一个具有特定结构和状态的直接存在物中,这种直接存在的结构和状态被凝结着它的间接存在所规定。也即是说,自我、本体等概念被信息科学尤指信息技术、互联网这一间接存在所规定。方东美先生认为:“希腊人把时间的体系化成空间的体系,然后再就时间来看,表面上是有过去、现在、未来的实践连续性,而这个过去、现在、未来,都可以化成现在的影像。换句话说,是把真实现在变成空间化的现在,这样就便于把过去的影像纳入了现在,把未来的影像也以前瞻的方式把它收到现实当中,然后以一个空间化的现在笼罩一切过去现在和未来”[5]。这样一种“了解时间的不重要,才是智慧之门[6]”,因此,哲学关于“我”、“本体”、“存在”等概念的思考由时间、空间的三维方向转向一维的趋向。
此外,分析哲学家卡尔纳普对语义信息的关注,将申农的信息论引向人类领域,认为由于人的选择、接受、记忆的选择性存在,信息本身存在着解读的很大不确定性和可能性,因此有主观与客观、低级与高级、自然与社会信息等之分。生物信息学认为生物信息包括遗传信息、神经――激素信息、代谢信息和人脑信息等多方面。物理学家T.Stonier在《信息物理学》提出的“信息子”认为“有组织就必然有结构,有结构就必然有信息”。在信息N论中,信息不是具有“粒子性”的能够构成世界的“本原”,而是具有演绎性的能够生成世界的“生元”,信息的“生成”特性使世界本体成为一种过程本体,也就成了一个信息集合体。这些在信息论基础上发展起来众多交叉学科,如量子信息学、生物信息学、物理信息学等等,他们都试图从信息主义解释万物缘由的本体论论调,暂且不论对错,但其提供的视角也是一种哲学尝试。虽然信息科学技术在某种程度上剥离了对生命的人文关怀,使其变得些许冰冷,但对一些哲学概念的分析给飘散在浩浩荡荡信息长流中的理论派别提供了一种更深层次、更基础的思维范式,从而推及对人类、宇宙的认识。
(作者单位:四川省社会科学院研究生院)
参考文献:
[1]钟义信.信息科学原理[M].福建人民出版社,1988,26.
[2]N.维纳.控制论[M].北京:科学教育出版社,1962,48.
生物信息学的定义范文4
关键词:基因调控网络;熵互信息;布尔网络;反向工程
中图分类号:TP393文献标识码:B
文章编号:1004-373X(2008)07-151-03オ
Reconstructing Genetic Regulatory Boolean Network and Dynamic Analysis
WANG Liqin1,2,ZHANG Ling2,LI Jiangeng1
(1.College of Computer Science and Technology,Beijing University of Technology,Beijing,100022,China;
2.Zhangjiakou Vocational College of Technology,Zhangjiakou,075000,China)オ
Abstract:This article first uses the method to establish the gene regulationnetwork model together by mutually the information theory and the Boolean network,and through explains with examples this method,correspondingly may infer many genes with this method to decide some or many genes expression value logical rule,according to the logicalrule establishment gene electric network which obtains,again to genelogic circuit network basis analysis logic circuit network method establishment gene regulation network dynamic transformation,thus regulative relations between analysis gene.
Keywords:genetic regulatory network;mutual information of entropy;Boolean network;opposite direction engineering
1 引 言
基因网络的研究最初是在20世纪60年代,Rater 描述了控制原核生物的分子基因系统组织的特点。另一项研究是Kauffman通过简单的逻辑规则研究基因网络动力学,提出了简单布尔网络理论[1]。20世纪90年代实验数据的增加,更加加速了基因网络理论的研究。到目前为止已发展了很多研究基因网络的方法,如随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等[2]。全基因组测序后展现在科学家面前的是浩瀚的DNA序列信息,这就要求人们要“读懂”他,也就是要了解基因是如何表达的,以及基因的表达是如何受到调控的,并在全基因组水平上系统阐述这些基因的表达调控规律,进而来揭示生命的奥秘。一个基因的表达受其他基因的影响,而这个基因又影响其他基因的表达,这种相互影响相互制约的关系构成了复杂的基因表达调控网络(gene regulatory networks)。从表达谱数据出发,可以建立基因或蛋白质相互作用的网络模型,这种方法也称反向工程(reverse engineering)[3]。全基因组基因表达调控网络的研究必将促进个性化医疗的发展和重大复杂疾病的预测和治疗,并最终揭示出人类生老病死的奥秘。关于基因表达调控网络目前人们做了很多研究,本文提出用熵互信息的数学理论寻求基因间关系的逻辑函数,有了基因之间的逻辑关系函数,就可以构建基因逻辑电路网络(gene logic circuit networks),再利用基因逻辑电路网络与逻辑函数得到基因在不同时间的基因状态,由得到的基因状态就可以画出基因调控网络的动态转换图,可以从基因调控网络的动态转换图中研究网络的变化,可以把此方法用在生物基因调控网络的分析和研究中,寻找变异基因网络与正常基因网络动态变化的差异,试图找到引起疾病的原因。本文提出一个新观点,基因网络可以分为抑制型和非抑制型两类。提出一个新方法用逻辑电路网络表示基因调控网络,把逻辑电路的分析方法用到基因网络的动态网络分析中。
2 利用熵确定基因调控布尔网络逻辑关系
要想构建基因调控布尔网络,关键是找到基因之间的布尔逻辑关系函数,现在关于确定基因调控关系也是后基因时代的一个研究热点,在这里考虑应用熵的互信息理论去寻找基因之间的逻辑关系函数。首先由基因表达序列(其中基因表达用1表示,基因不表达用0表示)根据下面所定义的公式得到熵与互信息熵,再由得到的熵与互信息熵确定基因之间的逻辑关系。
И
H(X)=-∑PXlog PX,H(Y)=-∑PYlog PY
H(X,Y)=-∑PX,Ylog PX,Y
M(X,Y)=H(X)+H(Y)-H(X,Y)
И
现在考虑三个基因X1,X2,X3У那榭觯利用熵互信息理论找到三个基因的逻辑关系函数,三个基因的基因表达序列(其中基因表达用1表示,基因不表达用0表示)如表1所示。
ケ1 基因表达序列
在表中X1,X2,X3为输入基因表达,X1′, X2′,X3′为输出基因表达,可以利用上面所提到的熵互信息公式得到基因X1,X2,X3,X3′的熵和互信息熵。
オ
H(X1)=1.00,H(X2)=1.00,H(X3)=1.00,H(X1,X2)=2.00,H(X2,X3)=2.00,H(X1,X3)=2.00,H(X1,X2,X3)=3.00,H(X3′)=1.00
И
有了基因X1,X2,X3的熵和互信息熵,下面详细介绍寻找输入基因X1,X2,X3与输出基因X3′的逻辑关系过程:
H(X3′,X1)=1.81, M(X3′,X1)=0.19
M(X3′,X1)/H(X3′)=0.19
H(X3′,X2)=1.81, M(X3′,X2)=0.19
M(X3′,X2)/H(X3′)=0.19
H(X3′,X3)=1.81, M(X3′,X3)=0.19
M(X3′,X3)/H(X3′)=0.19
H(X3′,[X1,X2])=2.50, M(X3′,[X1,X2])=0.50
M(X3′,[X1,X2])/H(X3′)=0.50
H(X3′,[X2,X3])=2.50, M(X3′,[X2,X3])=0.50
M(X3′,[X2,X3])/H(X3′)=0.50
H(X3′,[X1,X3])=2.50, M(X3′,[X1,X3])=0.50
M(X3′,[X1,X3])/H(X3′)=0.50
H(X3′,[X1,X2,X3])=3.00
M(X3′,[X1,X2,X3])=1.00
M(X3′,[X1,X2,X3])/H(X3′)=1.00
И
由以上分析可以得到其逻辑关系为:
オ
X3′=(X1 and X2)or(X2 and X3)or(X1 and X3)
И
由同样的方法可以得到:
И
X1′=X2
X2′=X1 or X3
И
其中:or为或逻辑,and为与逻辑。
上述介绍了用熵互信息理论找到基因之间逻辑关系的方法,通过用此方法编辑软件可以对多个基因进行处理,找到基因之间的逻辑关系函数。有了基因之间的逻辑关系函数就可以构建基因布尔网络,从而了解基因之间的关系。
3 基因布尔网络的分析
基因布尔网络[4,5]是一个有N个节点(基因),并且对每个节点如果给予i个输入(用二进制0或1表示)在任意时间t被定义为xi(t),当xi(t)=0时基因没有表达,xi(t)=1时基因被表达,全部输入在时间t的表达水平可以用行向量表示x(t)=[x1(t),x2(t),…xn(t)]В任一节点的输出依赖于所给定的布尔函数及其输入节点的布尔值。该网络类似一个被控制的布尔电路网络所有的节点。同时受输入和布尔函数决定,然后产生下一个状态。
对于基因调控的布尔网络从结构上应该认为可以有两种:基因网络分为抑制型和非抑制型两类。
抑制型 [HTSS]该基因网络表示为抑制型的(见图1)。这是一种特殊的基因布尔网络,每个基因只是单向传输的。对于这样的基因调控网络,可以用一个简单的逻辑电路网络来表示(见图2),从逻辑电路网络可以看到该网络有4个输入,1个输出。其中cdk7与cyclinlt是逻辑与,P21/WAF1是一个逻辑非,到最后Rb输出的是一个逻辑与非,到Rb输出时网络被抑制(2000年被Rzhetsky等提出)[6-8]。
图1 基因调控
非抑制型 [HTSS]该基因网络是未被抑制的,该基因网络在时间t+1的状态是由时间t提供的。假设一个三个基因的未被抑制型的布尔网络用逻辑电路网络来表示(见图3)。其中三个基因满足的逻辑关系可以用以下的逻辑关系函数式表示:
オ
x1(t+1)=x2(t)
x2(t+1)=x1(t) or x3(t)
x3(t+1)[WB]=(x1(t) and x2(t)) or (x2(t) and x3(t)) or
图2 逻辑电路网络
图3 基因逻辑电路网络
表2 逻辑真值表
依据真值表里的状态可以绘制出逻辑状态转换图(见图4),进而就得到了基因调控网络的动态转换的过程。从得到的基因调控网络的动态转换的过程可以了解以下知识:
(1) 把系统经历部分状态,最后围绕一个反复出现的状态周而复始地进行的行为称为状态循环,在图4中010,100就是一个状态循环。
图4 基因调控网络动态转换
(2)倾向于状态循环,但又没有处于循环之中的状态称为暂态,如图4中001,101,011,110都属于暂态。
(3) 吸引子是系统被吸引并最终固定于某一状态的性态,在图4中111就是一个吸引子。
(4) 流向状态循环吸引子的状态加上状态循环合起来称之为吸引子的吸引盆,在图4中101到011到吸引子111,110到吸引子111就是一个吸引盆。如果吸引子的吸引盆区域越大,则说明吸引子有足够的影响力,该吸引盆网络的稳定性越强。
4 布尔基因调控网络的进一步研究
根据给出的方法得到布尔基因调控网络的逻辑关系函数,然后用得到的逻辑关系函数找到基因调控网络的动态变化过程,根据动态变化找到基因的变化。可以看到任何一个基因发生变化或任何一个状态发生变化,都会引起整个动态网络变化。可以把此方法用于生物基因网络的分析,可以利用通过比较正常基因网络动态变化与变异基因网络动态变化,在基因调控网络中找到引起疾病的原因。布尔基因调控网络在确定过程中有时受基因表达的不准确性,导致得到的逻辑关系有问题。逻辑关系出现问题,后边的逻辑状态转换过程有误,不容易得到准确的结论,对于疾病的研究会带来不准确性,再者基因调控网络是一个动态网络,本来就具有不确定性,所以为了更好地研究基因调控网络,进一步的研究工作是用概率布尔网络来解决基因调控网络的不确定性。
参 考 文 献
[1]Kauffman S A.The Large-seale Structure and Dynamics of Gene Control Circuits[J].Anensemble Approach.Theor.,44:167-190.
[2]雷耀山,史定华,王翼飞.基因调控网络的生物信息学研究[J].自然杂志,2004,26(1):7-12.
[3]王正华,王勇献.后基因组时代生物信息学的新进展[J].国防科技大学学报,2003,25(1):1-6.
[4]张国伟,邵世煌,张颖.布尔基因网络及其研究[J].东华大学学报:自然科学版,2006,32(2):127-130.
[5]Davidson E.A Genomic Regulation Network for Development[J].Science,2002,295:1 669-1 678.
[6]Shmulevich I,Dougherty E R,Kim S.Probabilistic Boolean Networks:A Rule-based Uncertainty Model for Gene Regulatory Networks[J].Bioinformatics,2002,18:261-274.
[7]Pal R.Generating Boolean Networks with a Pprescribed Attractor Structure[J].Bioinformatics,2005,21:4 021-4 025.
[8]Rzhetsky A,Koike T,Kalachikov S.A Knowledge Model for Analysis and Simulation of Regulatory Networks[J].Bioinformatics,2000,16:1 120-1 128.
作者简介
生物信息学的定义范文5
在北大校园里的英语角、同乡会、文学社里,要是有人问起你是哪个系的,“生物系”,一声嘎巴脆的回答,多半能激起一簇艳羡的眼光和啧啧的响声。多半是因为老师和报纸都这么告诉我们:21世纪是什么的世纪?是生物学的世纪。直到在暑假回家的火车上,听毕业班的生物师兄大声调侃自身的命运:“只有两个选择:如不出国,那就只能去酱油厂”,满车厢哗然,才知道所谓“生物学的那个世纪”离我们远着呢。
日后目睹在出国的队伍中,生物系人流又分成最明显的两股:去IT,或去商学院。一位生物系同学,显然更愿意活在19世纪,干脆在美国用英文专心写起了小说,声名斐然。
不过,“生物学”的21世纪,才来了8年,多一些耐心吧,在这第九个年头的1月份大冷天,一位住在瑞士的富翁,准备花35万美元,向美国的一家叫KNOME的公司购买自己的全基因序列。他成了KNOME的第一个客户,据说也是全世界第二个花钱买自己基因序列的人。公司承诺他等开春了,就可以捧给他整个的基因序列。
花35万美元,是买一件看得见、摸得着、可享受的奢侈品,还是买件“生物学”的奢侈品?这位年轻时的专业是医学化学的瑞士富翁说,他“宁愿把钱花在我的基因组止,而不是宾利汽车或者私人飞机。”他曾从罗马尼亚移民美国,成立了一家抗肿瘤药物的公司。两年前,他退休,说自己会每天“关注自己基因组中的那些有着高患病风险的遗传疾病,就像每天关注股票投资的组合一样”。如果能有一份自己的完整基因组序列,那再好不过。
眼前,这个生物学的世纪似乎已经拉开帷幕,它顺带着也开始颠覆了奢侈品的定义。开始有更多的公司,向达官显贵们出售这件“生物学”的奢侈品――基因组测序。就像有人愿意花2000万美元去趟太空旅行一样,在先进技术到达芸芸众生之前,总有一些人愿意提前向先进技术敬礼。Churclch博士曾在哈佛主持一间实验室,在合伙加入KNOME公司之前,就常有一些人,恳求他能不能给自己测一测基因组。这促使了这位曾经正统的生物科学工作者,驶出学术,转向商业。
但因为“宾利”的价位,正统的生物学界,还是出现了不少的担忧之音。当基因组测序成了富贵者的特权时,是不是一种新的“基因组精英主义”诞生了?曾经公众对遗传学研究的支持和期待是不是变质了?那时,它曾许诺可以让世上每个人变得更健康,不论贫富。Iames Watson曾因发现DNA双螺旋结构而获诺贝尔医学奖,他也在一家公司的赞助下花150万美元进行了自己的基因组测序。他也爱宾利车,但在宾利和自己的基因组之间,他也说会选择后者,因为那些具有较高发病风险的遗传基因,很可能会传给下一代。不过,他更期待着:有一天,人人都能买得起“雪佛兰”价位的基因组,而不是“宾利”价位的基因组。
总有人在“雪佛兰”价位的基因组到来之前,急切地想认识自己。合伙加入KNOME公司的church博士,这样读他们公司名字的:“know-me”。而大多数人读成了“mome”。有一刹那,那位瑞士富翁也担心自己会成为负面形象,比如“以自我为中心”、“挥霍钱财”、“愚蠢到家了”,“我到底在干些什么?……在非洲有多少饥饿的儿童需要援助?”不过他还是伸出了自己的胳膊,让KNOM-E公司抽取自己的血液样本。
这项35万美元的服务,内容包括了全基因组测序,之后,由资深遗传学专象、临床医生和生物信息学家组成的队伍,会提供给他一份全面的分析报告。但是。这报告只能限于目前知识的初步解读。
生物信息学的定义范文6
关键词 蛋白质组学;双向电泳技术;植物
中图分类号 Q75;Q945.7 文献标识码 A 文章编号 1007-5739(2012)20-0013-02
研究表明遗传信息通过基因携带,但基因结构的相对稳定性、数量的有限性,与生命现象的多变性、复杂性存在明显的差异[1]。为此,研究认为在所有生物体的细胞、组织、细胞器中,各种代谢反应、生理功能的维持均由各组成部分的表面、内部的蛋白质来完成。蛋白质组是Wilkin S等在1994年第1次提出的。1997年蛋白质组的定义被其创造者重申为:“蛋白质组指的是一个基因组所表达的蛋白质。”2000年人类基因组序列草图的完成标志着“后基因组时代”的到来。蛋白质组学(proteomics)的概念最终被定义为“一个基因组、或一个细胞、组织在特定的生理和病理条件下表达的所有蛋白质”。蛋白质组具有特殊性和多样性,其研究的三大核心技术分别是双向电泳技术(two-dimensional gel electrophoresis,2-DE)、生物质谱技术和生物信息学[2-3]。其中,2-DE作为蛋白质分离的重要手段,是目前唯一可以在一块凝胶上同时分离上万个蛋白质的方法,且分离纯度可达90%以上。
1 双向电泳技术的历史
双向电泳技术自诞生以来,一直在不断的发展、改进。1975年O`Farrell对大肠杆菌、老鼠及几尼猪蛋白质的研究中首次采用了双向电泳技术,称为ISO-DALT(等电点-道尔顿)。其第一向是将载体两性电解质(CA)添加到丙烯酰胺凝胶中,凝胶聚合后在电场作用下形成连续的pH梯度进行等电聚焦;第二向是聚焦后的凝胶在含有SDS的缓冲液中平衡后,用琼脂糖包埋到垂直板SDS凝胶的浓缩胶上,形成不连续的SDS梯度凝胶电泳[4]。这种双向电泳蛋白质由于上样量低,溶解性较差,可能会造成负性部分碱性蛋白丢失。另外,两性电解质在凝胶中扩散相对较容易,形成不够稳定的pH梯度,造成分辨率低,重复性差,此为经典双向电泳技术。
为克服经典双向电泳技术中出现的问题,Gorg A 等于1985年研究出固相IPG-DALT(pH梯度-道尔顿)系统双向电泳技术,该技术以固相pH梯度为基础,使双向电泳技术有了质的飞跃。固相pH介质是一类丙烯酰胺化合物,与聚丙烯酰胺共价结合后可形成一定范围的pH梯度。与传统的双向电泳相比,IPG-DALT系统双向电泳技术具有上样量大、不产生阴极漂移、重复性较好、pH梯度稳定、分辨率高等优点。目前,IPG-DALT系统双向电泳技术在各国应用广泛。
荧光双向电泳技术(fluorescent two dimensional differ-ential gel electrophoresis,DIGE)在近年出现,是双向电泳技术的又一次飞跃,是一种对不同样品间蛋白质差异表达进行系统分析的技术。主要用于大样品蛋白质的差异鉴定。
2 双向电泳技术的原理及步骤
2.1 双向电泳技术的主要原理
双向电泳技术是目前蛋白质组研究中最常用的蛋白分离平台,是最高效、最直观的复杂蛋白质组分离技术。它利用各种蛋白质具有不同的分子量、等电点(pI)分离复杂蛋白质组,分辨率、灵敏度较高。其原理为:首先通过电荷分离蛋白质,利用一向等电聚焦将蛋白质沿pH梯度分离至各自等电点;然后沿垂直的方向通过非连续十二烷基磺酸钠-聚丙烯酰胺凝胶电泳,根据蛋白质分子量大小差别来达到分离的目的。所得的蛋白双点是基于电荷分离和分子质量大小分离的正交组合,从而分布于整个二维凝胶图谱上,每个点代表其中一个或数个蛋白质,而蛋白质的分子量、等电点在样品中的含量也可显现出来 。
DIGE的原理是将需要比较的样品在电泳前用不同的荧光染料进行标记,被差异标记蛋白的等电点和相对分子质量基本不受影响,然后将其混合到一块胶内进行分离,并用相应波长来检测不同的荧光标记蛋白,最后用全自动蛋白质表达分析软件进行分析。它的出现有效地提高了双向电泳技术的重复性和定量的准确性。
2.2 双向电泳技术的主要操作步骤
双向电泳技术的体系较为复杂,通过多次摸索才能找到适合体系。IPG-DALT双向电泳技术的主要操作步骤如下。
2.2.1 蛋白质的提取。蛋白质提取的质量直接影响双向电泳试验最终结果,不同植物、不同组织蛋白应采取不同的提取方法。
2.2.2 蛋白浓度的测定。采用Bradford法测定蛋白质浓度。
2.2.3 第一向IEF电泳。在进行一向等电聚焦前应将相应的蛋白质与水化液加入样品槽,IPG胶条覆盖在样品上,最后覆上甘油。胶条水化时间应不少于12 h。
2.2.4 第二向SDS-PAGE。配制相应的凝胶电泳进行二向SDS-聚丙烯酰胺凝胶电泳。注意:等电聚焦电泳结束后应将其放入平衡液Ⅰ中,缓慢震荡15 min。第1次平衡结束后,取出胶条,擦干净背面的液体,然后放入平衡液Ⅱ,缓慢震荡15 min。凝胶应在前一天晚上配,使其充分凝固;压胶条时应避免胶条与凝胶之间产生气泡。
2.2.5 显色。SDS-PAGE电泳跑完后可用考马斯法或银染法染色。银染法虽然分辨率高,但由于操作方法比较复杂,掌握较困难,且对后续质谱分析等产生影响。考马斯亮蓝法分辨率较低,但操作简单,应用者比较容易掌握,是一种传统的蛋白质染色法。综合考虑,考马斯亮蓝法比较常用。
3 双向电泳技术在植物蛋白质组学研究中的应用
3.1 双向电泳技术在玉米蛋白质组学研究中的应用
Von Wiren等通过比较铁摄取缺陷型、野生型突变体玉米的蛋白质双向电泳图谱,从中发现4个与铁离子跨膜运输有关的多肽。李冠军等对干旱胁迫下玉米叶片蛋白质经行了双向电泳分析,选出在3个时段下的干旱处理中均有诱导表达的3个差异蛋白点,经过对比分析,3个点的数据库对比结果均达到显著,最后得出结论,玉米可能通过叶组织的木质化,降低水分的散失量,使细胞膨压得到维持,从而提高玉米的耐旱性。王彦玲等[4]利用双向电泳技术对郑单958及其亲本在缺磷条件下进行蛋白质组学分析,得出郑单958可能在磷胁迫的环境适应方面有杂种优势。付忠军等利用双向电泳技术对亲和性转换前后花丝与花粉差异表达蛋白质经行分析,首先摸索到了适合自己的双向电泳体系。最后得到了9个在不同亲和阶段表达差异的蛋白质点。朱畇昊[5]以玉米花粉为材料,建立了相应的玉米花粉双向电泳体系,然后选择成熟的花粉和离体萌发1小时花粉经行双向电泳,得到28个差异显著的蛋白点。
3.2 双向电泳技术在水稻、小麦蛋白质组学研究中的应用
王经源[6]对汕优63及其双亲苗期第3叶蛋白质组进行定量比较,得到1 667个以上的蛋白质点。发现有23个蛋白质点在3个品系间存在显著差异。丁 伟等用双向电泳对水稻叶片全蛋白经行鉴定,发现与干旱等胁迫相关蛋白,且有4个是首次发现。陈卫卫等对耐高温性差异明显的3个品种作为研究材料,经双向电泳分析及质谱鉴定,得出可能为水稻苗期耐高温相关的鉴定蛋白。
朱 宏等以普通小麦叶片为试验材料,通过优化双向电泳的关键步骤,在小麦叶片可溶性蛋白的分析中获得满意的双向电泳图谱。刘 丽等利用SDS-PAGE、2-DE和MALDI-TOF-MS分析LMW-GS组成,建立了LMW-GS亚基的标准命名系统。孙正娟等以太谷核不育小麦不同时期的幼穗为材料进行双向电泳,得出的结果表明不同时期表达的与育性相关的蛋白不同。
3.3 其他作物蛋白质组学中双向电泳技术的应用
Kubis等基于DIGE蛋白质组学,阐明了前蛋白质输入叶绿体的机制。Sybille在分离制备拟南芥叶绿体时,运用荧光差异凝胶电泳分析突变型、野生型植物叶绿体中蛋白的差异性。通过比对多种TOC易位子亚基的野生型和突变性拟南芥的叶绿体蛋白,探究各种易位子复合物对输送蛋白类型的特异性。林金科等研究了茶树芽叶蛋白质提取纯化及双向电泳技术的改进,探索出一种重复性好,清晰度高的蛋白双向电泳技术体系,并发现一种辨别茶树蛋白质样品质量好坏的简便方法。郭春芳等应用差异蛋白质组学方法分析了铁观音茶树幼苗在聚乙二醇(polyethylene glycol,PEG)胁迫下叶片蛋白质组的变化。
黄华宏等应用双向电泳蛋白质组学对矮化杉木的突变机理进行研究,得到29个差异蛋白质可能与杉木矮化的突变有关。张小静等在深入研究块茎蛋白质发育过程中的差异表达中,建立了马铃薯块茎蛋白质的双向电泳技术体系,并对与其发育相关蛋白质的进行了分析。
综上所述,双向电泳技术在植物发育过程中蛋白质的数量、组成的检测上应用广泛,可为研究者提供不同发育阶段基因表达和调控的特点。
4 面临的问题及展望
双向电泳技术通过研究生物与非生物、植物器官、组织的胁迫蛋白质变化,探讨其病理或生理变化,从而对蛋白质组学的发展研究产生了明显的推动作用。另外,通过与其他蛋白质组技术进行互补、整合,从而进一步拓宽了生命科学研究的途径[7-8]。目前,关于不同条件下植物蛋白表达谱的研究逐渐增加,使大量与逆境、基因发育、突变、植物与微生物互作的新蛋白被发现,但关于这些蛋白质的功能研究目前比较少。因此,在今后一段时间内,植物蛋白质组学的主要研究方向之一为运用生物化学、功能基因组学、生物信息学等方法证实新蛋白质的功能。
近年来,许多新型技术方法被应用到植物差异蛋白质组学研究中,比如荧光差异双向电泳、同位素亲和标记等。荧光双向电泳技术现已得到应用,并且已经成为商品化,但其价格仍然很高,还不能成为一种普及性的技术。综上所述,通过分析双向电泳技术在植物蛋白质组学研究中的应用现状,发现植物蛋白质学研究中的主要发展趋势是技术手段的多样化、分析层次的多元化,并与其他学科的紧密融合。
5 参考文献
[1] 兰彦,钱小红,王阁,等.蛋白质组分析中蛋白质分步提取方法的建立[J].生物化学与生物物理进展,2001(3):415-418.
[2] 贾宇峰,林秋霞,郭尧君,等.蛋白质双向电泳图像分析[J].生物化学与生物物理进展,2001(2):246-250.
[3] 张国庆,廖杰,于力方.双向电泳技术在蛋白质组研究中的应用[J].标记免疫分析与临床,2003(3):171-173.
[4] 王彦玲.我国玉米核心种质磷胁迫蛋白质表达差异和基因组SSR分析[D].郑州:郑州大学,2010.
[5] 朱畇昊.玉米花粉萌发的比较蛋白质组学研究[D].郑州:河南农业大学,2010.
[6] 王经源.杂交稻苗期杂种优势的比较蛋白质组学研究[D].福州:福建农林大学,2008.