生物信息学范例6篇

前言:中文期刊网精心挑选了生物信息学范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

生物信息学

生物信息学范文1

一、正在出现的技术

klingler(lncyte pharmaceuticals,paloalto,ca,usa)强调基因组学正推动制药业进入信息时代。随着不断增加的序列、表达和作图数据的产生,描述和开发这些数据的信息工具变得对实现基因组研究的任务至关重要。他谈到了incyte pharmaceuticals对大规模基因组数据和生物信息学的贡献。

lipshutz(affymetrix,santa clara,ca,usa)描述了一种利用dna探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行dna杂交分析,以获得序列、表达和基因分型信息。milosavljevic(curagen, branford, ct, usa)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统,以及一种发现基因的系统genescape。为了有效地抽样表达,特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证,并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。

二、基因的功能分析

overton(university of pennsylvania school of medicine,philadelphia,pa,usa)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统e-podb,它包括了用于集成数据资源的kleisli系统和建立internet或intranet上视觉化工具的biowidget图形用户界面。epodb有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶,制药业所感兴趣的是全新的药物靶,epodb提供了这样一个机会,这可能是它最令人激动的地方。

sali(rockefeller university,new york,ny,usa)讨论了同源蛋白质结构模建。比较蛋白质模建(comparative protein modeling)也称为同源模建(homology modeling),即利用实验确定的蛋白质结构为模式(模型)来预测另一种具有相似氨基酸序列的蛋白质(靶)的构象。此方法现在已经具有了足够的精确性,并且被认为效果良好,因为蛋白质序列的一个微小变化通常仅仅导致其三维结构的细微改变。

babbitt(university of california,san francisco,ca,usa)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列 是重要的。babbit证明了通过使用blast检索,可以在数据库搜索所得的低得分区识别远缘关系(distant relationship)。levitt(stanford univeersity,palo alto,ca,usa)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构,但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能,结构必须确定。同源模建和从头折叠(ab initio folding)方法是两种现有的互为补充的蛋白质结构预测方法;同源模建是通过片段匹配(segment matching)来完成的,计算机程弃segmod就是基于同源模建方法的。

三、新的数据工具

letovsky(johns hopkins university,baltimore,md,usa)介绍了gdb数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(sts)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

markowitz(lawrence berkeley laboratory,berkeley,ca,usa)讨论了分布式数据库与局部管理的关系,以及用基于工具的方法开发分子生物学数据库(mdbs)的问题。许多方案当前正在促进搜索多种不同来源mdbs的数据,包括建立数据仓库;这要求对各种mdbs的组合有一种全局观,并从成员mdbs中装填数据入中心数据库。这些方案的主要问题是开发整体视图(global views),构建巨大的数据仓库并使集成的数据库与不断发展中的成员mdbs同步化的复杂性。markowitz还讨论了对象协议模型(object protocol model,opm),并介绍了支持以下用途的工具:建立用于文本文件或者关系mdbs的opm视图;将mdbs作成一个数据库目录,提供mdb名称、定位、主题、获取信息和mdb间链接等信息;说明、处理和解释多数据库查询。karp(sri international,menlo park,ca,usa)解释了ocelot,一种能满足管理生物学信息需求的面向对象知识陈述系统(一种面向对象系统的人工智能版)。ocelot支持略图展开(schema evolution)并采用一种新的最优化并行控制机制(同时进行多项访问数据的过程),其略图驱动图形编辑器提供了交互式浏览和编辑功能,其注释系统支持数据库开发者之间的结构通讯。

riley(marine biological laboratory,woods hole,ma,usa)在讨论大肠杆菌蛋白质的功能同时,特别提到了gpec数据库,它包括了由实验确定的所有e.coli基因的功能的信息。该数据库中最大比例的蛋白质是酶,其次则为转运和调控蛋白。

candlin(pe applied biosystems,foster city,ca,usa)介绍了一种新的存储直接来自abⅰprism dna测序仪的数据的关系数据库系统biolims。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

glynais(netgenics,cleveland,oh,usa)认为生物信息学中最关键的问题之一是软件工具和数据库缺乏灵活性。但是,软件技术的发展已得到了其它领域如金融业和制造业的发展经验的借鉴,可以使来自不同软件商的运行于各种硬件系统的软件共同工作。这种系统的国际标准是corba,一种由250多个主要软件和硬件公司共同合作开发的软件体系。联合使 用corba和java可以开发各种通过一个公用用户界面访问任何种类的数据或软件工具的网络应用软件,也包括生物信息学应用软件。overton不同意glynias的这种想法,他强调说corba仅对软件集成有用,不兼容的数据库软件可能是计算生物学所面临的最困难问题,一些制药公司和数据库仓库最近资助了一项用ocrba链接不同的数据库的计划[2,3]。

四、制药先导的发现

burgess(sturctural bioinformatics,san diego,ca,usa)讨论了填补基因组学和药物设计之间鸿沟的蛋白质结构中的计算问题。在缺乏主要疾病基因或药物靶的精确描述数据的情况下,药物设计者们不得不采用大规模表达蛋白质筛选方法;而结构生物信息学则采用一种更为实用有效的计算方法直接从序列数据中确定靶蛋白质的活性位点的精细结构特征,它利用一种集成专家系统从现实的或虚拟的化学文库中进行迅速的计算筛选,可以达到一个很大的规模。

elliston(gene logic,columbia,md,usa)讨论了治疗药物开发中发现新的分子靶的过程,着重讨论了基因发现方法。他认为,随着日益临近的人类基因组测序的完成,几乎全部基因的特征将在序列水平得到揭示。但是,对基因的认识将有赖于更多的信息而不仅仅是序列,需要考虑的第一类信息是转录表达水平信息,而gene logic 公司的geneexpress就是一个由mrna表达谱、转录因子位点、新基因和表达序列标签组成的数据库。

liebman(vysis,downess grove,il,usa)介绍了vysis公司开发的计算和实验方法,这些主法不仅用于管理序列数据,而且被用于以下用途:分析临床数据库和自然—突变数据库;开发新的算法以建立功能同源性(区别于序列同源性)模拟生物学通路以进行风险评估;药物设计的靶评估;联系复杂的通路特性以便识别副作用;开发疾病发展的定性模型并解释临床后果。

随着发现的新基因的日益增多,这个问题显得格外重要:基因的功能是什么?escobedo(chiron technologies,emeryville,ca,usa)提出了这个问题的一种方法:将分泌蛋白质的基因的功能克隆与筛选这些克隆(可能的药物靶)结合起来。在这种方法中,在微粒体cdna文库池中进行体外翻译避免了劳动密集的克隆、表达和纯化步聚,对文库池中的翻译产物在细胞水平进行筛选,测试其在细胞增殖和分化中的作用。例如,在用这种方法识别的111个克隆中,56个属于已知的分泌蛋白质,25个为膜相关蛋白,另外30个功能未知,可能是新的蛋白质。一种相似的方法在转移到小鼠模型系统中的基因传导载体中构建分泌蛋白质的cdna文库来克隆特定的功能基因。

ffuchs(glaxo wellcome ,research triangle park,nc,usa)讨论了生物信息学更为广义的影响:它不仅影响到新药物靶基的发现,还对改善药物开发的临床前期和临床期的现状极具重要性。众所周知,涉汲数以千计病人的临床试验(可能是药物开发最为花钱的部分)的设计不论多么仔细,也不能为正确的药物选择正确的病人。而在基因组水平划分病人群体的方法可以大大改善发现新药的效率。fuchs介绍了一种将病人的基因型和表型标志结合起来以改善临床前期和临床期药物开发过程的系统genetic information system.他强调将遗传学和生物信息学数据同化学、生物化学、药理学和医学数据连接起来的集成信息管理和分析方法是极其重要的。

green (human genome sciences,rockville,md,usa)介绍了他的测序工作中采用的数据管理工具。基于est的测序方法所面临的挑战是,在对几百个cdna克复测序之后,产生的数据堆积如山。由于大多数人类基因都是用这种方法发现并在么有数据库中分类编排的,面临的识别开放读框、重叠序列的重叠图谱、组织特异表达和低丰度mrna基因的任务是令人生畏的。human genome sciences公司开发了一些可用户化数据库工具,在同一个数据库中可包括以下功能:/kaoshiruanjian/" target="_blank" title="">软件工具,极其可望从一种基于基因组知识的药物发现方法中得到新的药物靶。

summer-smith(base4 bioinformatics,mississauga,ontario,canada)描述了一种相关的策略。药物发现阶段中所要求的软件工具的任务是多样化的,要能注释基因,并阐明它的生理和病理功能及其商业潜质。对这样多种来源的信息的集成与分析,在派生的、项目取向的数据库(project-specific database,psd)中可以很好完成。由于项目贯穿于发现到开发全过程,其间又不断加入背景的成员,psd在项目的管理与发展中成为一种关键性的资源。

按照smith(boston university,boston,ma,usa)的观点[2],我们并不需要更快捷的计算机或更多的计算机科学家,而是需要更的生物学家和生物化学家来解释序列的功能。这对有些软件或硬件专家来说是个打击,但生物学系统的复杂性是令人生畏的,并且对基因功能的认识可能需要生物学方法和计算方法的结合。探索基因的功能很可能要花费生物学家们数十年的时间,本次会议表明没有任何单一的方法可以得出一个答案;但是,将计算生物学同大规模筛先结合起来识别一种化学靶物(hit)是一种产生化学工具来探索基因功能的方法,这些化学工具接下来就可以用作理解基因功能的“探针”。这种方法在butt(gene transcription technologies, philadelphia, pa, usa)的描述中,既是一种检查基因功能的简单方法,也是为潜在的药物靶发现化学先导物的简单方法,他描述了一种可以在酵母中重建人类基因功能的酵母大规模筛选系统。在此系统中,可以迅捷地在一个化学文库中发现配基。这种技术的重要特征是它不仅仅是发现一种药物靶的配基的筛板(screen),相反,由于该系统的高速度,它也是发现先导靶基因的一种筛板。过去,世界上的制药公司通常在某一时间内仅能对有限数目(约20多个)的药物靶基因进行工作,鉴于此,我们需要根本不同的方法如基因组学来打开通向“新”生物学的通路。由于机器人和合成化学的进步,药物发现中最关键的问题不再是得到一种先导化合物(lead compound),而是得到导向靶基因。此次会议为从计算和实验方法中发展出的新生物学迈出很好的一步。

参考文献

1 lim ha,batt tr.tibtech,1998;16(3)):104

生物信息学范文2

关键词: 生物信息学, 信息处理,模式识别

Information Processing in the Bioinformatics

Abstract: Bioinformatics, the anagram which incorporates information science into the biology and with its concept takes shape, is a newly developed multi-disciplinary field which has sprung up vigorously since the late 80’s. In this paper, the main research topics of bioinformatics were reviewed, including the coding of genetic information, gene recognition, complexity of nucleotide sequence, correlation structure and fractal characteristic of nucleotide sequence, and the simulation and analysis of genomic regulation model. The information analysis and processing scenarios involved are also included, together with their many successful applications and open problems appearing in the literature. It is believed that the combination of information science and life science will greatly accelerate the progress of study for life science per se.

Keywords: Bioinformatics, Information processing, Pattern recognition

:10000多字

有参考文献

200元

备注:此文版权归本站所有;。

生物信息学范文3

关键词:生物信息学;教学模式;探索

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)20-0214-02

生物信息学是一门由生命科学、数学和计算机科学相互渗透形成的新型交叉学科,它利用各种计算机软件、生物学工具及互联网技术对生命科学研究中产生的各种生物数据进行存储、加工及分析,从而达到理解数据中的生物学含义的目标[1-3]。当前,生物信息学已经成为生物、医学、农学、遗传学、细胞学等生命领域各学科发展的强大推动力量,已成为生命科学研究者强有力的辅助工具。近年来,随着分子生物学在动物植物育种、遗传资源创新、品种改良、病虫害防治等农业方面的应用,生物信息学作为一种实用、高效的手段被充分利用。《生物信息学》课程也相应地被列入各农业院校大学生教学计划。新疆农业大学根据学校专业发展现状及学生培养需求于2010年将《生物信息学》课程作为生物技术专业的必修专业课,通过三年来的教学实践,针对课程教学中存在的无合适教材、网络资料繁杂、教学内容陈旧、教学手段单一、考核模式简单等问题[4-5],笔者在课程的教学内容、教学方法、考核办法等方面进行了初步探索,本文现就该课程教学模式作一论述。

一、教学目标及内容

由于生物信息学是一门新兴学科,其理论及相关分析工具发展迅速、不断更新,在课程教学目标和教学内容上也在不断变化。我认为对于当前农业院校生物技术专业的培养目标和要求是让学生理解掌握生物信息学相关的一些基本理论、实验技术及实践操作,以核酸序列及蛋白质序列的实际分析为主要侧重点,着重培养学生的实践能力,使他们能适应今后工作学习的需要。据此,确定了以下的教学内容:教学内容共36学时,分为理论基础和上机实践两部分,理论课中穿插实例示范,共24学时。理论教学内容包括:生物信息学绪论、生物信息学的生物学基础、生物信息数据库及其检索、序列的基本信息分析及比对、分子系统发育分析、蛋白质结构预测及分析、组学技术及信息学分析;上机实践共12学时,内容包括:常用生物数据库的查询与搜索、核酸序列的分析方法实践、多序列比对和系统发育分析、蛋白质序列分析及空间结构预测、DNA序列中基因结构预测分析。在理论授课中介绍与农业相关生物信息数据库及应用,在实例分析中选用本校教师相关研究结果作为数据来源,拉近学生与知识点的距离,提高学习兴趣,使学生认识到学习本课程的意义,通过讲练结合使学生掌握相关实践分析能力。

二、教学材料

1.教材的选择。生物信息学目前仍处速发展时期,尤其是随着各种新技术、新理论及组学的发展,涉及到的学科越来越多。当前生物信息学专著及教材层出不穷,但中文版书籍中影印国外原版教科书和翻译书籍仍占很大比例,这类书籍中,专著专业性过强,而教材又多是针对生物信息学专业的学生或“一本”的学生编写的,难度较大,并且各自侧重点不同,并不适合作为一般的农业院校的生物信息学教材。笔者在教学过程中先后使用了由钟扬等编写、高等教育出版社出版的《简明生物信息学》及由肖浪涛主编、中国农业出版社出版的全国高等农林院校“十一五”规划教材《生物信息学》作为主要的参考教材。但是,在教学实践中笔者感到《简明生物信息学》由于出版时间较早(2001年)已不能满足实际教学工作的需要,书中的很多内容都已更新,很多网站页面也已重组或失效,而近年被广泛使用的一些著名生物信息学软件亦未涉及。而《生物信息学》一书偏重理论知识介绍,实例分析及操作应用偏少。因此,笔者根据本校专业建设需要及学生水平编写了适用于本校学生使用的简明教材。教材中理论部分主要参考上述两本教材,并进行了简化,降低难度,舍去算法、模型等专业性较强的章节;实践部分参考薛庆中等主编、科学出版社出版的DNA和蛋白质序列数据分析工具(第2版,2010年)一书,并附具体实例,最终形成理论部分简明易懂,实践部分易学易用的实用型教材。

2.生物信息学相关数据库及软件的选择。生物信息学发展迅速,相关生物信息数据库及生物信息软件数量不断增加,版本不断更新,这为生命科学相关研究提供了极大便利,但同时也为《生物信息学》课程实践部分的教学带来了挑战与压力。例如要分析一条蛋白质序列的分子量、等电点、氨基酸组成等信息,我们可以使用DNAMAN、Bioedit、DNAStar、Vector NTI等本地软件分析,也可以使用ProtParam、SAPS等网络在线程序分析。在有限的教学时间内,如何选择数据库及高效易用的生物信息学分析软件也是教学中一个重要的问题。通过参考相关生物信息学分析的书籍及近年文献,综合考虑数据库及软件的通用型、易用性及本校学生的英语水平、计算机操作水平,结合教学目标及内容,我们选择常用的核酸序列数据库GenBank、蛋白质数据库PDB等,软件方面选择DNAMAN、Bioedit、Clustal W、MEGA、Primer Premier、RasMol等常见的生物信息学离线分析软件及整合于NCBI、EXPASY、PDB等网站上的在线分析软件开展实践教学,而其他软件在课堂上只做简单介绍,具体操作方法作为辅助资料供学生自学。这样学生在有限的学时内可掌握更多的分析内容,达到“高效”的教学目的。

三、教学方法

1.及时更新完善多媒体教学资料。生物信息学课程理论知识较抽象,实践操作多,与计算机、互联网联系紧密,内容更新快,当代大学生已习惯并乐于使用各种多媒体途径获取信息,这些特点决定了其非常适于进行多媒体教学。为此,我们根据教学内容开发制作了一套多媒体教学资料并及时更新完善。教学多媒体资料包括Power Point课件和Flas,课件注重知识的层次性、联系性,将理论基础、实验技术操作流程等较抽象的生物信息学知识通过大量图片形象地展示给学生,从而提高学生的学习兴趣并加快学生对抽象知识的理解;动画的内容是利用屏幕录像软件将实例分析过程录像并配音,最后转为Flash格式,穿插在理论教学及实践教学过程中使用,从而使学生在自己实践操作前先有一个形象的认识,将理论知识与实践操作有机联系在一起。

2.充分利用网络教学平台辅助教学。生物信息学是一门以互联网为媒介、计算机为工具的学科。在教学中,网络教学平台的使用在提高学生学习兴趣、增强师生互动、强化教学效果等方面起到了很好的辅助作用。利用网络教学平台,教师可将课程课件、动画、分析工具、实践教学内容等共享给学生并及时了解学生学习动态,学生可将实验报告、作业、学习问题及意见反馈给教师,师生可以通过网络教学平台的论坛版块在课余就学习或实践中的问题进行讨论,达到“教学相长”的教学目的。此外,利用网络教学平台还可将课堂中未详细讲述的大量数据库、软件的使用过程及相关电子参考书、文献共享给学生,有利于提高学生学习自主性并拓宽课程外延。

3.边讲边练,理论知识密切联系实践操作。德国心理学家艾宾浩斯研究发现,在学习和记忆过程中,最初阶段遗忘速度最快,随着时间推延,遗忘越来越慢。因此,为了让学生能牢固掌握所学知识及实践技能,我们在教学中采取边讲边练的形式。对于理论知识,我们采取课前提问、课中提问、小测验及实践操作过程中知识点重现等方式,使重要理论知识在整个教学过程中多次出现,增强学生对课程知识体系的系统认知并强化其对理论知识的记忆。对于实践操作,我们采取案例式教学,直接将实例分析穿插在理论授课过程中,并在理论课后及时安排学生在计算机房上机联网操作,如在讲授序列比对理论课时,实例演示使用DNAMAN、Blast等软件进行序列比对的过程,并在理论课后紧跟DNAMAN软件使用、数据库搜索的实践操作,这样既加深学生对理论知识的理解,还有利于学生掌握实践操作能力。

4.布置实践任务,加强综合能力培养。生物信息学教学强调学生的实践能力培养。因此,在教学设计上,我们将学生按4~5人分成小组,通过学生自选或制定的方式布置特定实践任务,要求学生以小组为单位,利用本课程所学知识及技能完成任务并提交任务报告。例如,在课程一开始讲授数据库时,要求学生通过查文献、了解本校相关分子生物学研究内容并结合自己的兴趣选择特定基因,围绕该基因,在后续整个课程的学习过程中利用掌握的各种生物信息学分析方法对其进行序列查询、引物设计、序列比对、编码区分析、蛋白理化性质预测、保守结构域预测、结构预测、分子系统发育分析等操作,过程中学生互相讨论、取长补短,最终协作完成实践任务。这样既使学生较全面地掌握了课程内容,同时又加强了学生分析问题、解决问题的综合能力。

四、考核办法

在课程考核方面,本着生物信息学课程培养实践应用能力的教学原则,为使学生真正掌握生物信息学的基本理论及实践操作,我们改变了过去闭卷考试占主体或写课程论文的简单考核方式,采取了过程考核、实践考核并结合考试考核的方式对学生的学习效果进行综合评价。考勤及口头提问占考核成绩的10%,4次随堂测验占考核成绩的20%,上机操作占考核成绩的20%,实践任务作业占考核成绩的20%,期末闭卷考试占考核成绩的30%。这样考核虽然过程复杂,对学生及教师都带来更大压力,但杜绝了学生平时不学,期末突击,忽视实践的现象,学生必须注重平时的学习及实践操作才能顺利通过课程考核。这样的考核办法能够更客观准确地评价一个学生对课程的实际掌握情况。

随着生物信息学在农业各研究领域的广泛应用,掌握生物信息学知识及分析能力已成为农业院校相关专业毕业生的必备要求,生物信息学课程也必将在农业院校各相关专业建设中占据越来越重要的地位。通过本课程的教学实践探索,学生学习主动性、实践操作能力、最终学习效果均得到提高,笔者也积累了一定经验,取得了一定的教学成效,找到了一些适合农业院校的切入点,但是课程教学中还有很多需要进一步完善改进的地方。生物信息学学科的快速发展,也决定了本课程的教学模式必将是一个动态发展的过程,相信随着对生物信息学学科的深入认识,生物信息学课程教学模式也将不断完善,形成自己的独特体系。

参考文献:

[1]钟扬,张亮,赵琼.简明生物信息学[M].北京:高等教育出版社,2001.

[2]肖浪涛.生物信息学[M].北京:中国农业出版社,2006.

[3]王禄山,高培基.生物信息学应用技术[M].北京:化学工业出版社,2008.

[4]胡娜,常军,徐玲.生物信息学教学改革与探索[J].安徽农业科学,2010,38(3):1588-1589.

[5]梁琛,张建海.农科类生物信息学课程教学中存在的问题及对策[J].农业与技术,2010,30(5):136-137.

生物信息学范文4

关键词: 生物信息学 农业研究领域 应用

“生物信息学”是英文单词“bioinformatics”的中文译名,其概念是1956年在美国田纳西州gatlinburg召开的“生物学中的信息理论”讨论会上首次被提出的[1],由美国学者lim在1991年发表的文章中首次使用。生物信息学自产生以来,大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段[2]。2003年4月14日,美国人类基因组研究项目首席科学家collins f博士在华盛顿隆重宣布人类基因组计划(human genome project,hgp)的所有目标全部实现[3]。这标志着后基因组时代(post genome era,pge)的来临,是生命科学史中又一个里程碑。生物信息学作为21世纪生物技术的核心,已经成为现代生命科学研究中重要的组成部分。研究基因、蛋白质和生命,其研究成果必将深刻地影响农业。本文重点阐述生物信息学在农业模式植物、种质资源优化、农药的设计开发、作物遗传育种、生态环境改善等方面的最新研究进展。

1.生物信息学在农业模式植物研究领域中的应用

1997年5月美国启动国家植物基因组计划(npgi),旨在绘出包括玉米、大豆、小麦、大麦、高粱、水稻、棉花、西红柿和松树等十多种具有经济价值的关键植物的基因图谱。国家植物基因组计划是与人类基因组工程(hgp)并行的庞大工程[4]。近年来,通过各国科学家的通力合作,植物基因组研究取得了重大进展,拟南芥、水稻等模式植物已完成了全基因组测序。人们可以使用生物信息学的方法系统地研究这些重要农作物的基因表达、蛋白质互作、蛋白质和核酸的定位、代谢物及其调节网络等,从而从分子水平上了解细胞的结构和功能[5]。目前已经建立的农作物生物信息学数据库研究平台有植物转录本(ta)集合数据库tigr、植物核酸序列数据库plantgdb、研究玉米遗传学和基因组学的mazegdb数据库、研究草类和水稻的gramene数据库、研究马铃薯的pomamo数据库,等等。

2.生物信息学在种质资源保存研究领域中的应用

种质资源是农业生产的重要资源,它包括许多农艺性状(如抗病、产量、品质、环境适应性基因等)的等位基因。植物种质资源库是指以植物种质资源为保护对象的保存设施。至1996年,全世界已建成了1300余座植物种质资源库,在我国也已建成30多座作物种质资源库。种质入库保存类型也从单一的种子形式,发展到营养器官、细胞和组织,甚至dna片段等多种形式。保护的物种也从有性繁殖植物扩展到无性繁殖植物及顽拗型种子植物等[6]。近年来,人们越来越多地应用各种分子标记来鉴定种质资源。例如微卫星、aflp、ssap、rbip和snp等。由于对种质资源进行分子标记产生了大量的数据,因此需要建立生物信息学数据库和采用分析工具来实现对这些数据的查询、统计和计算机分析等[7]。

3.生物信息学在农药设计开发研究领域中的应用

传统的药物研制主要是从大量的天然产物、合成化合物,以及矿物中进行筛选,得到一个可供临床使用的药物要耗费大量的时间与金钱。生物信息学在药物研发中的意义在于找到病理过程中关键性的分子靶标、阐明其结构和功能关系,从而指导设计能激活或阻断生物大分子发挥其生物功能的治疗性药物,使药物研发之路从过去的偶然和盲目中找到正确的研发方向。生物信息学为药物研发提供了新的手段[8,9],导致了药物研发模式的改变[10]。目前,生物信息学促进农药研制已有许多成功的例子。itzstein等设计出两种具有与唾液酸酶结合化合物:4-氨基-neu5ac2en和4-胍基-neu5ac2en。其中,后者是前者与唾液酸酶的结合活性的250倍[11]。目前,这两种新药已经进入临床试验阶段。tang sy等学者研制出新一代抗aids药物saquinavir[12]。pungpo等已经设计出几种新型高效的抗hiv-1型药物[13]。杨华铮等人设计合成了十多类数百个除草化合物,经生物活性测定,部分化合物的活性已超过商品化光合作用抑制剂的水平[14]。

现代农药的研发已离不开生物信息技术的参与,随着生物信息学技术的进一步完善和发展,将会大大降低药物研发的成本,提高研发的质量和效率。

4.生物学信息学在作物遗传育种研究领域中的应用

随着主要农作物遗传图谱精确度的提高,以及特定性状相关分子基础的进一步阐明,人们可以利用生物信息学的方法,先从模式生物

中寻找可能的相关基因,然后在作物中找到相应的基因及其位点。农作物的遗传学和分子生物学的研究积累了大量的基因序列、分子标记、图谱和功能方面的数据,可通过建立生物信息学数据库来整合这些数据,从而比较和分析来自不同基因组的基因序列、功能和遗传图谱位置[15]。在此基础上,育种学家就可以应用计算机模型来提出预测假设,从多种复杂的等位基因组合中建立自己所需要的表型,然后从大量遗传标记中筛选到理想的组合,从而培育出新的优良农作物品种。

5.生物信息学在生态环境平衡研究领域中的应用

在生态系统中,基因流从根本上影响能量流和物质流的循环和运转,是生态平衡稳定的根本因素。生物信息学在环境领域主要应用在控制环境污染方面,主要通过数学与计算机的运用构建遗传工程特效菌株,以降解目标基因及其目标污染物为切入点,通过降解污染物的分子遗传物质核酸 dna,以及生物大分子蛋白质酶,达到催化目标污染物的降解,从而维护空气[16]、水源、土地等生态环境的安全。

美国农业研究中心(ars) 的农药特性信息数据库(ppd) 提供 334 种正在广泛使用的杀虫剂信息,涉及它们在环境中转运和降解途径的16种最重要的物化特性。日本丰桥技术大学(toyohashi university of technology) 多环芳烃危险性有机污染物的物化特性、色谱、紫外光谱的谱线图。美国环保局综合风险信息系统数据库(iris) 涉及 600种化学污染物,列出了污染物的毒性与风险评价参数,以及分子遗传毒性参数[17]。除此之外,生物信息学在生物防治[18]中也起到了重要的作用。网络的普及,情报、信息等学科的资源共享,势必会创造出一个环境微生物技术信息的高速发展趋势。

6.生物信息学在食品安全研究领域中的应用

食品在加工制作和存储过程中各种细菌数量发生变化,传统检测方法是进行生化鉴定,但所需时间较长,不能满足检验检疫部门的要求,运用生物信息学方法获得各种致病菌的核酸序列,并对这些序列进行比对,筛选出用于检测的引物和探针,进而运用pcr法[19]、rt-pcr法、荧光rt-pcr法、多重pcr[20]和多重荧光定量pcr等技术,可快速准确地检测出细菌及病毒。此外,对电阻抗、放射测量、elisa法、生物传感器、基因芯片等[21-25]技术也是未来食品病毒检测的发展方向。

转基因食品检测是通过设计特异性的引物对食品样品的dna提取物进行扩增,从而判断样品中是否含有外源性基因片段[26]。通过对转基因农产品数据库信息的及时更新,可准确了解各国新出现和新批准的转基因农产品,便于查找其插入的外源基因片段,以便及时对检验方法进行修改。目前由于某些通过食品传播的病毒具有变异特性,以及检测方法的不完善等因素影响,生物信息学在食品领域的应用还比较有限,但随着食品安全检测数据库的不断完善,相信相关的生物信息学技术将在食品领域发挥越来越重要的作用。

  生物信息学广泛用于农业科学研究的各个领域,但是仅有信息资源是不够的,选出符合自己需求的生物信息就需要情报部门,以及信息中介服务机构提供相关服务,通过出版物、信息共享平台、数字图书馆、电子论坛等信息媒介的帮助,科研工作者可快速有效地找到符合需要的信息。目前我国生物信息学发展还很不均衡,与国际前沿有一定差距,这需要从事信息和科研的工作者们不断交流,使得生物信息学能够更好地为我国农业持续健康发展发挥作用。

参考文献:

[1]yockey hp,platzman rp,quastler h.symposium on information.theory in biology.pergamon press,new york,london,1958.

[2]郑国清,张瑞玲.生物信息学的形成与发展[j].河南农业科学,2002,(11):4-7.

[3]骆建新,郑崛村,马用信等.人类基因组计划与后基因组时代.中国生物工程杂志,2003,23,(11):87-94.

[4]曹学军.基因研究的又一壮举——美国国家植物基因组计划[j].国外科技动态,2001,1:24-25.

[5]michael b.genomics and plantcells:application ofgenomics strategies to arabidopsis cellbiology[j].philostransr soc lond b bio sci,2002,357(1422):731-736.

[6]卢新雄.植物种质资源库的设计与建设要求[j].植物学通报,2006,23,(1):119-125.

[7]guy d,noel

e,mike a.using bioinformatics to analyse germplasm collections [j].springer netherlands,2004:39-54.

[8]郑衍,王非.药物生物信息学,化学化工出版社,2004.1:214-215.

[9]俞庆森,邱建卫,胡艾希.药物设计.化学化工出版社,2005.1:160-164.

[10]austen m,dohrmann c.phenotype—first screening for the identification of novel drug targets.drug discov today,2005,10,(4):275-282.

[11]arun agrawal,ashwini chhatre.state involvement and forest cogovernance:evidence from the indianhmi alayas.stcomp international developmen.t sep 2007:67-86.

[12]tang sy.institutionsand collective action:self-governance in irrigation [m].san francisco,ca:icspress,1999.

[13]pungpo p,saparpakorn p,wolschann p,et a.l computer-aided moleculardesign of highly potenthiv-1 rt inhibitors:3d qsar and moleculardocking studies of efavirenz derivatives[j].sar qsar environres,2006,17,(4):353-370.

[14]杨华铮,刘华银,邹小毛等.计算机辅助设计与合成除草剂的研究[j].计算机与应用化学,1999,16,(5):400.

[15]vassilev d,leunissen j,atanassov a.application of bioinformatics in plant breeding[j].biotechnology & biotechnological equipment,2005,3:139-152.

[16]王春华,谢小保,曾海燕等.深圳市空气微生物污染状况监测分析[j].微生物学杂志,2008,28,(4):93-97.

[17]程树培,严峻,郝春博等.环境生物技术信息学进展[j].环境污染治理技术与设备,2002,3,(11):92-94.

[18]史应武,娄恺,李春.植物内生菌在生物防治中的应用[j].微生物学杂志,2009,29,(6):61-64.

[19]赵玉玲,张天生,张巧艳.pcr 法快速检测肉食品污染沙门菌的实验研究[j].微生物学杂志,2010,30,(3):103-105.

[20]徐义刚,崔丽春,李苏龙等.多重pcr方法快速检测4种主要致腹泻性大肠埃希菌[j].微生物学杂志,2010,30,(3) :25-29.

[21]索标,汪月霞,艾志录.食源性致病菌多重分子生物学检测技术研究进展[j].微生物学杂志,2010,30,(6):71-75

[22]朱晓娥,袁耿彪.基因芯片技术在基因突变诊断中的应用及其前景[j].重庆医学,2010,(22):3128-3131.

[23]陈彦闯,辛明秀.用于分析微生物种类组成的微生物生态学研究方法[j].微生物学杂志,2009,29,(4):79-83.

[24]王大勇,方振东,谢朝新等.食源性致病菌快速检测技术研究进展[j].微生物学杂志,2009,29,(5):67-72.

[25]苏晨曦,潘迎捷,赵勇等.疏水网格滤膜技术检测食源性致病菌的研究进展[j].微生物学杂志,2010,30,(6):76-81.

生物信息学范文5

【关键词】云计算 生物信息学

下一代测序技术的应用产生了大量的测序数据,这对生物学特别是生物信息学在数据的存储、管理和搜索等方面带来了新的挑战。一直以来计算机存储和处理数据能力的增长速度都快于生物数据的增长速度,但2003年后,由于测序技术的发展使得测序成本大幅度下降,产生了大量的生物数据,计算机的存储和计算能力逐渐无法满足大数据的需求。这促进了云计算的运用和发展,它使得用户可以根据需求租用硬件设备和软件,避免了对硬件设备的大量资金投入和管理投入。

1 云计算定义

“云”是一个通过虚拟技术把云端计算机或是服务器连接在一起的服务网络。存储和分析数据都由“云”端的服务器或是计算机完成。中国云计算专家刘鹏给出如下定义:“云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。”

按照资源的共享水平,云计算的服务模式分为三种,基础架构即服务(Infrastructure as a service), 平台即服务(Platform as a service)和软件即服务(Software as a service)。

IaaS(Infrastructure as a service) Service:基础架构即服务。它整合了基础设施如虚拟主机、存储设备、网络设备等资源成为一个服务平台提供给用户使用。IaaS位于网络的底层,向用户提供按需分配、按需付费的计算设备和存储设备。

PaaS(Platform as a service)提供服务平台,用户掌控运作应用程序的环境,可以在平台上应用,测试和开发软件。

SaaS(Software as a service)即在服务平台上提供软件供用户使用,用户只使用软件,不掌握操作系统、硬件等网络基础架构。用户不必自己安装软件,只需要浏览器连接到公共的服务平台即可。供应商会按照用户的要求安装所需的软件,并负责软件的升级和维护。

云计算的主要优点:

(1)把用户从安装和测试软件的工作中解脱出来。云计算平台可以按照用户的需求提供软件及硬件的服务。用户不需要考虑网络下面复杂的硬件架构,仅仅需要关注计算和分析就可以。

(2)按需租用计算资源可以让用户支付更少的费用。在云计算平台上,用户在最初时可以租用少量的机器,以后随着需求的增加或减少相应的增加或减少租用的机器。用户所付的费用就是实际租用机器的费用。

(3)云计算方便研究人员之间的数据共享和分析。不同研究者在本地服务器上安装的软件版本可能不同,所以共享数据和软件很困难。云计算可以使登录同一个平台的用户共享操作系统和所有的软件数据,保证了软件的版本同步更新。

2 云计算在生物信息中的应用

我们把云计算在生物信息学中的应用按IaaS, PaaS和SaaS三个方面分别介绍。

2.1 IaaS

用户租用云计算上的虚拟主机可以自己控制计算、存储等硬件设备,建立需要的计算环境。并且大量的生物信息学工具可以打包为虚拟镜像用于租用的云计算的虚拟主机上,可以很方便的进行多种数据分析。如CloVR提供的一个包含预配置和自动的生物信息学流程的虚拟主机,可以运行在本地的计算机上也可以运行在云计算平台上。这个虚拟机以Ubuntu和BioLinux为基础,安装了Grid Engine和Hadoop作为作业调度,Ergatis作为工作流系统,还有很多开源的生物信息学软件,如BLAST、16S rRNA等。用户也可以开发自己的软件运行在虚拟机上。Bioconductor是一个开源的关于R语言的生物信息学库,提供了一系列的软件包用于微阵列数据分析。用户可以下载Bioconductor提供的镜像安装到租用的云计算平台上。

2.2 PaaS

Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的简单易用的工具,提供一个简易的网页用来分析数据。Galaxy Cloudman把Galaxy的软件工具打包成一个镜像,可以在AWS(Amazon Web Service)上应用。用户可以将其他安装在Galaxy平台上的软件安装到自己的云计算平台上,甚至可以在Galaxy Cloudman上定义插件。通过添加额外的工具,可以扩展默认函数并测试和使用。从这个意义上说,Galaxy Cloudman可以看做PaaS。

Eoulsan整合了很多下一代基因数据分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一个框架内,同时,它也支持用户自己开发的插件用于数据分析。

2.3 SaaS

很多传统的生物信息学工具如BLAST、UCSC Genome Browser仅仅用一个浏览器就可以登录到服务器使用相应的服务,它们也可以称为SaaS。这些服务一般由软件工具的开发者提供,伸缩性很差。我们主要介绍应用于云计算平台上可以伸缩的生物信息学工具。

短序列(读段)匹配是指将测序得到短序列匹配到参考基因组上,这是许多测序数据分析的第一步,如SNP识别和基因表达谱分析。CloudBurst,CloudAligner,SEAL和Crossbow都是应用于云计算基于MapReduce的软件,可以匹配数以百万计的序列。Schatz用”seed-and-extend”算法开发的CloudBurst可以确定错误匹配的数目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能处理重亚硫酸盐测序和(双)末端测序产生的数据。CloudAligner弥补了这个缺点,并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配时可以去除重复的序列,这对SNP识别和以后分析很有用。应用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在几个小时内匹配数以十亿计的序列。

差异表达分析可以用来寻找不同样本中表达有明显差别的基因,而RNA测序(RNA-seq)用来量化样本中的基因表达水平。Myrna是一个云计算平台上计算大规模RNA测序的软件。它整合了序列匹配、归一化、聚类分析和统计模型,直接输出不同样本的基因表达水平和不同表达水平的基因。然而,Myrna 最大的缺陷是不能正确地将短序列匹配到外显子拼接位点上。但FX弥补了这个缺点。FX用改进的匹配函数分析RNA数据,以RPKM或是BPKM的格式输出不同基因的表达水平。

3 云计算面临的问题

云计算提供了强大的计算能力,但云计算自身的特点也使它的发展面临了一些困难和制约。云计算在生物信息学上的应用尚处于初期阶段,尽管已经出现了一定数量的生物信息学工具,但仍有很多的分析无法完成,很多的工具还需升级或者开发。云计算上数据的隐私性和安全性也是用户需要考虑的方面。特别是一些生物数据涉及到病人的隐私,但很多国家还没有保护这种数据隐私的法律。云计算服务提供商需要制定一些规则来保护用户的数据。

4 对应用云计算的建议

对于将要使用云计算的用户,需要考虑以下三个方面:数据规模、安全隐私和费用。

数据规模及安全隐私:首先要考虑你的数据规模是否超过了本地计算机的处理能力。现在本地的个人电脑可以处理数千兆的数据,服务器一次可以处理数百G的数据。如果用户熟悉并行计算的技术,可以处理数TB的数据。但如果你的数据更大并且不精通并行计算,本地计算机和服务器就很难处理了,就可以考虑云计算。用户如果要向云计算平台上传输数据,需要考虑数据的安全性和隐私性。比如涉及病人的隐私是否会泄露,云计算服务提供商是否可以保证数据的安全等。

费用:云计算的费用一般是按照使用的计算资源的多少和使用时间的长短计算的。使用云计算前应该评估其使用费用。用户应该考虑所有阶段的费用,如数据传输、保存、分析等。

目前,云计算和生物信息学都处在快速发展当中,云计算在生物信息学中的应用也越来越广泛和深入。特别是生物数据的大规模增涨,生物学家必须从大量的数据当中分辨出有用的信息。这就需要强大的存储能力和计算分析能力,云计算可以很好的解决这个问题。 云计算和生物信息学的结合将极大的促进生物学的发展。

参考文献

[1]刘鹏主编.云计算(第二版)[M].北京:电子工业出版社,2011(05).

[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics

25(11):1363-1369,2009.

[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.

[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,FX:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.

作者简介

李渊(1985-),男,河南省延津县人。硕士研究生学历。现为苏州大学系统生物学研究中心助理实验师。主要研究方向为实验技术。

生物信息学范文6

伴随着基因组研究日新月异的快速发展,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。以DNA碱基数为例,其增长速度呈指数性增长,大约每14个月就会增长一倍,这种增长速度只有计算机运算能力的增长可以与之相比。所以在当前基因组信息爆炸的时代,需要建立超大规模计算系统,用更准确、更可靠的方法来分析这些数据,从中获得有用的信息是生物信息学取得成果的决定性步骤。

近日,具有万亿次浮点运算能力、基于四核处理器的联想高性能机群――深腾1800落户于上海交通大学,承载着该校在生命科学研究领域的多种核心应用软件。上海生物信息技术研究中心主任李亦学在接受记者采访时说: “生物与计算结合最早叫做计算生物学,从要求来讲,能够进行大规模计算即可,对单个CPU结点的内存没有多大的要求,但随着生物学的发展,对计算机的要求变得比较复杂。一个完整的解决方案,要求对大量不同的数据库同时进行快速检索,然后是数据整合,同时还要做很多并发计算,很多计算是非常耗内存的。实际上并不一定非得要求计算能力非常高,但一定要可靠。再者,需要同时并发完成许多不同的计算。”

李亦学说,他们在进行生物信息计算时会同时存在几十种不同的任务,这不但需要计算机运算速度快,还要求有很大的共享内存。现代生物学为了获得高速运算,必须把所有的数据放在内存中进行操作,这样会节省时间。如果没有很大的共享内存,他们的很多案例就没有办法做了。比如大的基因组测序数据的拼接工作,内存要30G左右,大内存的胖结点可以做到。而四核的发展,其实可以把每个结点共享内存加大,在性价比方面也比较高,这种发展非常符合生物学发展对复杂生物系统计算性能的要求。