基因组学概述范例6篇

前言:中文期刊网精心挑选了基因组学概述范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

基因组学概述

基因组学概述范文1

药物基因组学是伴随人类基因组学研究的迅猛发展而开辟的药物遗传学研究的新领域,主要阐明药物代谢、药物转运和药物靶分子的基因多态性及药物作用包括疗效和毒副作用之间关系的学科。

基因多态性是药物基因组学的研究基础。药物效应基因所编码的酶、受体、离子通道作为药物作用的靶,是药物基因组学研究的关键所在。基因多态性可通过药物代谢动力学和药物效应动力学改变来影响物的作用。

基因多态性对药代动力学的影响主要是通过相应编码的药物代谢酶及药物转运蛋白等的改变而影响药物的吸收、分布、转运、代谢和生物转化等方面。与物代谢有关的酶有很多,其中对细胞色素-P450家族与丁酰胆碱酯酶的研究较多。基因多态性对药效动力学的影响主要是受体蛋白编码基因的多态性使个体对药物敏感性发生差异。

苯二氮卓类药与基因多态性:咪唑安定由CYP3A代谢,不同个体对咪唑安定的清除率可有五倍的差异。地西泮是由CYP2C19和CYP2D6代谢,基因的差异在临床上可表现为用药后镇静时间的延长。

吸入与基因多态性:RYR1基因变异与MH密切相关,现在已知至少有23种不同的RYR1基因多态性与MH有关。氟烷性肝炎可能源于机体对在CYP2E1作用下产生的氟烷代谢产物的一种免疫反应。

神经肌肉阻滞药与基因多态性:丁酰胆碱酯酶是水解琥珀酰胆碱和美维库铵的酶,已发现该酶超过40种的基因多态性,其中最常见的是被称为非典型的(A)变异体,与用药后长时间窒息有关。

镇痛药物与基因多态性:μ-阿片受体是阿片类药的主要作用部位,常见的基因多态性是A118G和G2172T。可待因和曲马多通过CYP2D6代谢。此外,美沙酮的代谢还受CYP3A4的作用。儿茶酚O-甲基转移酶(COMT)基因与痛觉的产生有关。

局部与基因多态性:罗哌卡因主要由CYP1A2和CYP3A4代谢。CYP1A2的基因多态性主要是C734T和G2964A,可能影响药物代谢速度。

一直以来麻醉科医生较其它专业的医疗人员更能意识到不同个体对药物的反应存在差异。的药物基因组学研究将不仅更加合理的解释药效与不良反应的个体差异,更重要的是在用药前就可以根据病人的遗传特征选择最有效而副作用最小的药物种类和剂型,达到真正的个体化用药。

能够准确预测病人对麻醉及镇痛药物的反应,一直是广大麻醉科医生追求的目标之一。若能了解药物基因组学的基本原理,掌握用药的个体化原则,就有可能根据病人的不同基因组学特性合理用药,达到提高药效,降低毒性,防止不良反应的目的。本文对药物基因组学的基本概念和常用的药物基因组学研究进展进行综述。

一、概述

二十世纪60年代对临床麻醉过程中应用琥珀酰胆碱后长时间窒息、硫喷妥钠诱发卟啉症及恶性高热等的研究促进了药物遗传学(Pharmacogenetics)的形成和发展,可以说这门学科最早的研究就是从麻醉学开始的。

药物基因组学(Phamacogenomics)是伴随人类基因组学研究的迅猛发展而开辟的药物遗传学研究的新领域,主要阐明药物代谢、药物转运和药物靶分子的基因多态性及药物作用包括疗效和毒副作用之间的关系。它是以提高药物的疗效及安全性为目标,研究影响药物吸收、转运、代谢、消除等个体差异的基因特性,以及基因变异所致的不同病人对药物的不同反应,并由此开发新的药物和用药方法的科学。

1959年Vogel提出了“药物遗传学”,1997年Marshall提出“药物基因组学”。药物基因组学是药物遗传学的延伸和发展,两者的研究方法和范畴有颇多相似之处,都是研究基因的遗传变异与药物反应关系的学科。但药物遗传学主要集中于研究单基因变异,特别是药物代谢酶基因变异对药物作用的影响;而药物基因组学除覆盖药物遗传学研究范畴外,还包括与药物反应有关的所有遗传学标志,药物代谢靶受体或疾病发生链上诸多环节,所以研究领域更为广泛[1,2,3]。

二、基本概念

1.分子生物学基本概念

基因是一个遗传密码单位,由位于一条染色体(即一条长DNA分子和与其相关的蛋白)上特定位置的一段DNA序列组成。等位基因是位于染色体单一基因座位上的、两种或两种以上不同形式基因中的一种。人类基因或等位基因变异最常见的类型是单核苷酸多态性(single-nucleotidepolymorphism,SNP)。目前为止,已经鉴定出13000000多种SNPs。突变和多态性常可互换使用,但一般来说,突变是指低于1%的群体发生的变异,而多态性是高于1%的群体发生的变异。

2.基因多态性的命名法:

(1)数字前面的字母代表该基因座上最常见的核苷酸(即野生型),而数字后的字母则代表突变的核苷酸。例如:μ阿片受体基因A118G指的是在118碱基对上的腺嘌呤核苷酸(A)被鸟嘌呤核苷酸(G)取代,也可写成118A/G或118A>G。

(2)对于单个基因密码子导致氨基酸转换的多态性编码也可以用相互转换的氨基酸的来标记。例如:丁酰胆碱酯酶基因多态性Asp70Gly是指此蛋白质中第70个氨基酸-甘氨酸被天冬氨酸取代。

三、药物基因组学的研究内容

基因多态性是药物基因组学的研究基础。药物效应基因所编码的酶、受体、离子通道及基因本身作为药物作用的靶,是药物基因组学研究的关键所在。这些基因编码蛋白大致可分为三大类:药物代谢酶、药物作用靶点、药物转运蛋白等。其中研究最为深入的是物与药物代谢酶CYP45O酶系基因多态性的相关性[1,2,3]。

基因多态性可通过药物代谢动力学和药物效应动力学改变来影响药物作用,对于临床较常用的、治疗剂量范围较窄的、替代药物较少的物尤其需引起临床重视。

(一)基因多态性对药物代谢动力学的影响

基因多态性对药物代谢动力学

的影响主要是通过相应编码的药物代谢酶及药物转运蛋白等的改变而影响药物的吸收、分布、转运、代谢和生物转化等方面[3,4,5,6]。

1、药物代谢酶

与物代谢有关的酶有很多,其中对细胞色素-P450家族与丁酰胆碱酯酶的研究较多。

(1)细胞色素P-450(CYP45O)

物绝大部分在肝脏进行生物转化,参与反应的主要酶类是由一个庞大基因家族编码控制的细胞色素P450的氧化酶系统,其主要成分是细胞色素P-450(CYP45O)。CYP45O组成复杂,受基因多态性影响,称为CYP45O基因超家族。1993年Nelson等制定出能反应CYP45O基因超家族内的进化关系的统一命名法:凡CYP45O基因表达的P450酶系的氨基酸同源性大于40%的视为同一家族(Family),以CYP后标阿拉伯数字表示,如CYP2;氨基酸同源性大于55%为同一亚族(Subfamily),在家族表达后面加一大写字母,如CYP2D;每一亚族中的单个变化则在表达式后加上一个阿拉伯数字,如CYP2D6。

(2)丁酰胆碱酯酶

麻醉过程中常用短效肌松剂美维库铵和琥珀酰胆碱,其作用时限依赖于水解速度。血浆中丁酰胆碱酯酶(假性胆碱酯酶)是水解这两种药物的酶,它的基因变异会使肌肉麻痹持续时间在个体间出现显著差异。

2、药物转运蛋白的多态性

转运蛋白控制药物的摄取、分布和排除。P-糖蛋白参与很多药物的能量依赖性跨膜转运,包括一些止吐药、镇痛药和抗心律失常药等。P-糖蛋白由多药耐药基因(MDR1)编码。不同个体间P-糖蛋白的表达差别明显,MDR1基因的数种SNPs已经被证实,但其对临床麻醉的意义还不清楚。

(二)基因多态性对药物效应动力学的影响

物的受体(药物靶点)蛋白编码基因的多态性有可能引起个体对许多药物敏感性的差异,产生不同的药物效应和毒性反应[7,8]。

1、蓝尼定受体-1(Ryanodinereceptor-1,RYR1)

蓝尼定受体-1是一种骨骼肌的钙离子通道蛋白,参与骨骼肌的收缩过程。恶性高热(malignanthyperthermia,MH)是一种具有家族遗传性的、由于RYR1基因异常而导致RYR1存在缺陷的亚临床肌肉病,在挥发性吸入和琥珀酰胆碱的触发下可以出现骨骼肌异常高代谢状态,以至导致患者死亡。

2、阿片受体

μ-阿片受体由OPRM1基因编码,是临床使用的大部分阿片类药物的主要作用位点。OPRM1基因的多态性在启动子、内含子和编码区均有发生,可引起受体蛋白的改变。吗啡和其它阿片类药物与μ-受体结合而产生镇痛、镇静及呼吸抑制。不同个体之间μ-阿片受体基因的表达水平有差异,对疼痛刺激的反应也有差异,对阿片药物的反应也不同。

3、GABAA和NMDA受体

γ-氨基丁酸A型(GABAA)受体是递质门控离子通道,能够调节多种物的效应。GABAA受体的亚单位(α、β、γ、δ、ε和θ)的编码基因存在多态性(尤其α和β),可能与孤独症、酒精依赖、癫痫及精神分裂症有关,但尚未见与物敏感性有关的报道。N-甲基-D-天门冬氨酸(NMDA)受体的多态性也有报道,但尚未发现与之相关的疾病。

(三)基因多态性对其它调节因子的影响

有些蛋白既不是药物作用的直接靶点,也不影响药代和药效动力学,但其编码基因的多态性在某些特定情况下会改变个体对药物的反应。例如,载脂蛋白E基因的遗传多态性可以影响羟甲基戊二酸单酰辅酶A(HMG-CoA)还原酶抑制剂(他汀类药物)的治疗反应。鲜红色头发的出现几乎都是黑皮质素-1受体(MC1R)基因突变的结果。MC1R基因敲除的老鼠对的需求量增加。先天红发妇女对地氟醚的需要量增加,热痛敏上升而局麻效力减弱。

四、苯二氮卓类药与基因多态性

大多数苯二氮卓类药经肝脏CYP45O代谢形成极性代谢物,由胆汁或尿液排出。常用的苯二氮卓类药物咪唑安定就是由CYP3A代谢,其代谢产物主要是1-羟基咪唑安定,其次是4-羟基咪唑安定。在体实验显示不同个体咪唑安定的清除率可有五倍的差异。

地西泮是另一种常用的苯二氮卓类镇静药,由CYP2C19和CYP2D6代谢。细胞色素CYP2C19的G681A多态性中A等位基因纯合子个体与正常等位基因G纯合子个体相比,地西泮的半衰期延长4倍,可能是CYP2C19的代谢活性明显降低的原因。A等位基因杂合子个体对地西泮代谢的半衰期介于两者之间。这些基因的差异在临床上表现为地西泮用药后镇静或意识消失的时间延长[9,10]。

五、吸入与基因多态性

到目前为止,吸入的药物基因组学研究主要集中于寻找引起药物副反应的遗传方面的原因,其中研究最多的是MH。药物基因组学研究发现RYR1基因变异与MH密切相关,现在已知至少有23种不同的RYR1基因多态性与MH有关。

与MH不同,氟烷性肝炎可能源于机体对在CYP2E1作用下产生的氟烷代谢产物的一种免疫反应,但其发生机制还不十分清楚[7,11]。

六、神经肌肉阻滞药与基因多态性

神经肌肉阻滞药如琥珀酰胆碱和美维库铵的作用与遗传因素密切相关。血浆中丁酰胆碱酯酶(假性胆碱酯酶)是一种水解这两种药物的酶,已发现该酶超过40种的基因多态性,其中最常见的是被称为非典型的(A)变异体,其第70位发生点突变而导致一个氨基酸的改变,与应用肌松剂后长时间窒息有关。如果丁酰胆碱酯酶Asp70Gly多态性杂合子(单个等位基因)表达,会导致胆碱酯酶活性降低,药物作用时间通常会延长3~8倍;而丁酰胆碱酯酶Asp70Gly多态性的纯合子(2个等位基因)表达则更加延长其恢复时间,比正常人增加60倍。法国的一项研究表明,应用多聚酶链反应(PCR)方法,16例发生过窒息延长的病人中13例被检测为A变异体阳性。预先了解丁酰胆碱酯酶基因型的改变,避免这些药物的应用可以缩短术后恢复时间和降低医疗费用[6,12]。

七、镇痛药物与基因多态性

μ-阿片受体是临床应用的阿片类药的主要作用部位。5%~10%的高加索人存在两种常见μ-阿片受体基因变异,即A118G和G2172T。A118G变异型使阿片药物的镇痛效力减弱。另一种阿片相关效应—瞳孔缩小,在118G携带者明显减弱。多态性还可影响阿片类药物

代谢。

阿片类药物的重要的代谢酶是CYP2D6。可待因通过CYP2D6转化为它的活性代谢产物-吗啡,从而发挥镇痛作用。对33名曾使用过曲马多的死者进行尸检发现,CYP2D6等位基因表达的数量与曲马多和O-和N-去甲基曲马多的血浆浓度比值密切相关,说明其代谢速度受CYP2D6多态性的影响。除CYP2D6外,美沙酮的代谢还受CYP3A4的作用。已证实CYP3A4在其它阿片类药如芬太尼、阿芬太尼和苏芬太尼的代谢方面也发挥重要作用。

有报道显示儿茶酚O-甲基转移酶(COMT)基因与痛觉的产生有关。COMT是儿茶酚胺代谢的重要介质,也是痛觉传导通路上肾上腺素能和多巴胺能神经的调控因子。研究证实Val158MetCOMT基因多态性可以使该酶的活性下降3~4倍。Zubieta等报道,G1947A多态性个体对实验性疼痛的耐受性较差,μ-阿片受体密度增加,内源性脑啡肽水平降低[13~16]。

八、局部与基因多态性

罗哌卡因是一种新型的酰胺类局麻药,有特有的S-(-)-S对应体,主要经肝脏代谢消除。罗哌卡因代谢产物3-OH-罗哌卡因由CYP1A2代谢生成,而4-OH-罗哌卡因、2-OH-罗哌卡因和2-6-pipecoloxylidide(PPX)则主要由CYP3A4代谢生成。CYP1A2的基因多态性主要是C734T和G2964A。Mendoza等对159例墨西哥人的DNA进行检测,发现CYP1A2基因的突变率为43%。Murayama等发现日本人中CYP1A2基因存在6种导致氨基酸替换的SNPs。这些发现可能对药物代谢动力学的研究、个体化用药具有重要意义[17,18,19]。

九、总结与展望

基因组学概述范文2

关键词 《利用AFLP技术分析植物基因组》;实验课教学;问题;改革措施

中图分类号 N45;G642 文献标识码 A 文章编号 1007-5739(2012)17-0328-02

AFLP(Amplified Fragment Length Polymorphism)技术是由荷兰科学家Zabeau与Vos等创建[1]的一项基于PCR的高分辨DNA指纹分析方法,具有费用相对较低、简便、快速、可靠等优点,近年来被广泛应用于遗传育种研究领域,在动物遗传育种、动物基因组研究中亦有着广泛的应用前景[2]。因此,国内越来越多的高校开始为本科生开设AFLP技术相关的实验课程。笔者所在学院根据自身专业特色和教学资源状况,为生物科学与生物技术专业的本科生开设了《利用AFLP技术分析植物基因组》的综合实验课程,使本科生能够学习该门实验课程,从而掌握AFLP技术。但是,由于AFLP技术具有复杂性和综合性,因此本科生在实验课学习过程中存在诸多不尽人意的地方。鉴于此,笔者结合自己讲授该门实验课程的经验和体会,提出一些有针对性的改革措施,以飨国内同行。

1 存在的问题

1.1 技术原理理解难

作为一项功能强大的DNA指纹技术,AFLP技术应用于植物基因组的分析时,其理论基础来自遗传学、细胞生物学、分子生物学等多门课程。因此,要深刻理解和牢固掌握AFLP技术分析植物基因组的原理,就必须对生物学基础理论知识有一个全面、综合的把握。但是,由于缺乏专门的实验教材,致使修课学生对AFLP技术的理论知识的理解难以融会贯通,尤其是对于学习不主动的学生来说,很难深入领会AFLP技术的基本原理,使得该实验课程的教学效果大打折扣。

1.2 实验操作难度大

AFLP 的技术流程一般包括模板 DNA 的制备、多态性片段的扩增、扩增产物的分离检测和结果分析4个步骤[3]。该门实验课的实验内容主要包括全基因组DNA的提取与纯化、基因组DNA双酶切、接头连接、预扩增、选择性扩增、变性PAGE胶板的制作、扩增产物的变性、上样、电泳与染色、结果统计分析等过程。实验内容前后相连,环环相扣,前一步实验的结果是下一步实验的基础,为下一步实验提供相应的材料和保障,若不能按时按质完成,则无法进行后续实验。由此可见,实验操作较为复杂,要求比较高[4]。

在课堂教学实施的过程中,由于学生太多,实验设备有限,学时数少,一般采取分组的方式进行实验,不可能让每位学生都能同时操作实验的每一个步骤,无法满足每一位学生都进行每步实验操作的要求。同时,部分学生对生物学基本仪器的操作不熟练,如移液器操作不规范或不熟练,因而量取的液体不精确,直接导致实验结果错误或没有;变性聚丙烯酰胺凝胶厚度不足0.5 mm,一旦出现气泡或粘板现象,则前功尽弃。加之学生都十分关心自己组的实验结果,一旦结果不理想,便会露出失望的情绪,大大削弱了学生下次做实验的积极性和主动性。

1.3 优秀学生的求知欲难以满足

在《利用AFLP技术分析植物基因组》的实验课教学过程中,笔者发现,授课学生的知识层次和学习兴趣存在较大差异,有些学生仅满足于该课程的基本原理和操作步骤,而有些学生则不仅仅满足于课堂上所学到的东西,他们还会考虑到将AFLP技术运用到其他科学研究当中,独立思考、独立操作。但是,由于客观条件的局限,该部分学生的求知欲往往难以满足,非常不利于优秀学生发挥积极性,也使其失去进一步锻炼学习的机会,不利于培养学生的动手、应用能力和综合科研思维能力。

2 改革措施

2.1 编写教材

教材是学生学习知识的抓手,教材虽然没有明显的知识上的创新。但是它把前人的知识做了全面、系统的梳理和总结,图文并貌,为学生在短期内掌握实验课的基本原理提供了便利。但是,目前国内尚无该实验课程的专门教材,非常不利于该实验教学目标的达成。为此,笔者通过各种渠道收集AFLP相关的最新研究文献,结合自己多年的实验教学经验,编写了一本既适合授课又适合学生学习的专门教材,使得学生在实验课的学习中有了一个基本的依托,方便了同学们对实验课基础知识的把握和理解。

2.2 制作视频课件

《利用AFLP技术分析植物基因组》实验是一个多种实验环节紧密相扣的过程,一个细节的失误可能会导致整个实验的失败。在不能保证每位授课学生都能亲自操作实验的每一个步骤和细节的情况下,制作视频课件可以让每个学生都能清晰地看到实验步骤的各个细节,在一定程度上可以弥补传统静态课件之不足。笔者在学生的协助下,利用现代摄像技术,对实验中每个实验步骤的详细操作过程进行全程摄像,利用视频的形式将实验操作过程展示出来,学生看不懂可以再次回放,使学生更加直观地了解实验操作技术,大大提高了学生实验操作的规范化程度和熟练程度。

2.3 实施开放性实验

由于授课学生的知识层次不同,学习积极性和学习兴趣差异极大,传统的标准化教育模式往往不利于优秀学生脱颖而出,有可能将天才学生埋没在萌芽状态,非常不利于本科教学质量的提升。鉴于此,在学院的大力支持下,笔者尝试采取了开放性实验的新做法。利用河南省实验教学示范中心和开放实验室,提供与该实验相关的开放性实验课题,鼓励学生在课余时间进行创新实验研究,极大地激发了学生学习该门实验课程的兴趣,培养了学生的创新能力和实践应用能力。有些学生的开放性实验成果甚至在全国大学生挑战杯竞赛中获奖;部分学生将创新实验与其本科毕业论文结合起来,不仅锻炼了其科研能力,同时也使其高质量的完成了毕业论文。

3 效果评价

通过实施上述3个方面的教学改革尝试,教学效果有较明显的提高,主要体现在3个方面:首先,有了专门的实验教材之后,学生在上课期间不需再花大量的时间记笔记,而将重点放在对实验基本原理和步骤的理解和记忆上,使得他们对实验基本原理和基本步骤的掌握更加系统和牢固。其次,视频课件的制作虽然花费了大量的时间,但是在制作之后可以长久使用,甚至其他老师也可以使用,从长远来看,极大地节省了备课时间,也方便了学生对实验操作细节的近距离观察和反复练习。通过观看视频课件,学生们的实验操作技能明显提高,大部分同学达到了熟练操作的程度。再次,开放性实验项目的开展,满足了部分学生的求知欲和创新应用欲求,激发了学生对生物学这门学科的学习兴趣,取得了良好的效果,提高了部分学生毕业论文的质量,得到学院领导的高度评价。开放性实验项目如果能够得到学院及相关部门更多的物力和财力支持,其效果会更好、更明显。

4 结语

综上,在生物科学专业和生物技术专业的本科生中开设《利用AFLP技术分析植物基因组》实验课程非常必要。但是鉴于该门实验课程本身的复杂性和综合性特征,要使得该门实验课程取得预期的教学效果,需要一线实验课教师积极创新,探索新的教学方法和手段,提升教学质量和教学效果。笔者在该门课程的教学过程中,尝试了编写内部使用教材、制作视频课件、实施开放性实验项目3项改进措施,收到了比较好的教学效果,以期引来更多的切实有效的提高该门课程教学效果的新思路、新方法、新手段。

5 参考文献

[1] VOS P,HOGERS R,BLEEKER M,et al.AFLP:a new technique for DNA finger printing[J].Nucleic Acids Research,1995,23(21):4407-4414.

[2] 刘峰.AFLP技术及其在植物学应用中的研究进展[J].国土与自然资源研究,2011(3):88-90.

基因组学概述范文3

龄成为可能。作为表观遗传学重要组成部分的dna甲基化,在机体生长、发育、衰老的过程中存在着动态变化过程.通过

检测dna甲基化改变,有望构建与之相关的年龄变化模式,用以推断个体年龄。本文着重介绍dna甲基化水平的改变与

个体年龄的相关性及其在判断个体年龄方面的前景。

【关键词】法医物证;dna甲基化;年龄推断;生物体衰老

【中图分类号】d9l9.2

【文献标识码】a

【文章编号】1007—9297(20__)04—0284—05

当前在法医学实践中,对个体年龄的推断主要是

依据人类学方法测量骨骼、牙齿等一些具有年龄相关

性的检材.并根据相关模型进行计算。分子生物学的

飞速发展,开拓了人们的视野。借助于分子生物学理

论和方法.在细胞水平、分子水平发现一些可能与年

龄相关的遗传学改变,如dna损伤修复能力、端粒的

长度、线粒体片段的缺失、dna甲基化水平、b一半乳糖

苷酶活性以及基因表达谱等。lll dna甲基化是表观遗

传学(epigenetics)的重要组成部分,在维持正常细胞

功能、遗传印记、胚胎发育以及人类肿瘤发生中起着重

要作用.在衰老的过程中某些细胞会发生年龄相关的

变化,121例如某个cpg岛的从头甲基化会关闭一个基

因,使这个基因相关的生理功能丧失:同样。甲基化的

丢失也会激活正常情况下沉默的基因.造成不恰当的

异位表达(ectopic expression)。必须指出,表观遗传研

究丝毫没有降低遗传学或基因组学的重要性,恰恰相

反,表观遗传学是在以孟德尔式遗传为理论基石的经

典遗传学和分子遗传学母体中孕育的专门研究基因功

能实现的一种特殊机制的遗传学分支学科。认识到表

观基因组在发育、生长和衰老过程中存在着一个动态

变化的过程,以及体细胞的表观基因组有重新编程的

可能性,有助于我们以新的观点来探索衰老的机制,构

建年龄变化的模式。本文就dna甲基化与个体年龄的

相关性及其在判断个体年龄方面的前景进行探讨。

、概述

(一)表观遗传学和dna甲基化

遗传学是与表观遗传学(genetic)相对应的概念。

遗传学是指基于基因序列改变所致基因表达水平变

化,如基因突变、基因杂合丢失和微卫星不稳定等;而

表观遗传学则是指基于非基因序列改变所致基因表

达水平变化,如dna甲基化和染色质构象变化等:表

观基因组学(epigenomics)~0是在基因组水平上对表观

遗传学改变的研究。甲基化是最重要的表观遗传修饰

形式。dna甲基化是生物体在dna甲基化转移酶

(dnmts)的作用下,以s一腺苷酰一l一甲硫氨酸(sam)

为甲基供体,将甲基转移到特定碱基上去的过程,

dna甲基化多发生在胞嘧啶,大多在一cpg一序列上。

胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine.

5-mc)。这种dna修饰方式并没有改变基因序列。但

它调控了基因的表达。

哺乳动物中.cpg序列在基因组中出现的频率仅

有l%,远低于基因组中的其他核苷酸序列。但在基因

组的某些区域中,cpg序列密度很高,可以达均值的5

倍以上,成为鸟嘌呤和胞嘧啶的富集区.形成所谓

cpg岛。通常cpg岛大约含有500多个碱基。在哺乳

动物基因组中约有4万个cpg岛,而且只有cpg岛

的胞嘧啶能够被甲基化,cpg岛通常位于基因的启动

子区或是第一个外显子区 。人类基因组中大小为

100~l 000 bp左右且富含cpg二核苷酸的cpg岛总

是处于未甲基化状态.并且与56%的人类基因组编码

基因相关。人类基因组序列草图分析结果表明,人类

基因组cpg岛约为45 000个.大部分染色体每1 mb

就有5—15个cpg岛。平均值为每mb含lo.5个cpg

岛,cpg岛的数目与基因密度有良好的对应关系。健

康人基因组中.cpg岛中的cpg位点通常是处于非甲

基化状态,而在cpg岛外的cpg位点则通常足甲基化的。这种

甲基化的形式在细胞分裂的过程中能够稳定的保留。阁基因

调控元件(如启动子)所含cpg岛中的5-mc会阻碍

[作者简介]李鑫(1974一),男,山东淄博人,主检法医师,硕士研究生,主要从事法医遗传学研究。

法律与医学杂志20__年第l3卷(第4期)

转录因子复合体与dna的结合,所以dna甲基化一

般与基因沉默(gene silence)相关联;而去甲基化

(demethylation)往往与一个沉默基因的重新激活(re.

activation)相关联。当机体衰老或呈病理状态,特别是

肿瘤发生时,抑癌基因cpg岛以外的cpg序列非甲

基化程度增加,而cpg岛中的cpg则呈高度甲基化,

以至于染色体螺旋程度增加及抑癌基因表达的丢失。

一般说来,dna的甲基化对维持染色体的结构、x染

色体的失活、基因印记和肿瘤的发生发展都起重要的

作用。【6】

(二)dna甲基化的生物作用及特点

1.dna甲基化与基因表达

dna甲基化在维持正常细胞功能、遗传印记、胚

胎发育过程以及衰老过程中起着极其重要的作用。研

究表明胚胎的正常发育得益于基因组dna适当的甲

基化。例如:缺少任何一种甲基转移酶对小鼠胚胎的

发育都是致死性的。[31此外,等位基因的抑制被印记控

制区(icrs)所调控,该区域在双亲中的一个等位基因

是甲基化的。17]印记基因的异常表达可以引发伴有突

变和表型缺陷的多种人类疾病。甲基化抑制基因转录

主要通过以下机制来实现。

(1)直接抑制。cpg岛甲基化真接干扰tf与调控

区dna 的结合. 例如camp反应元件结合蛋白

(creb),ap一2,e2f,nfkb等tf不能与相应的dna

位点相结合。但有些tf如sp1,ctf与甲基化和非甲

基化位点都能结合,这表明甲基化单独不足以阻止体

内tf与dna相结合。

(2)间接机制。近年来发现一些甲基化dna结合

蛋白如mdbp1,mdb2以及甲基化cpg结合蛋白如

mecp1,mecp2与甲基化dna特异结合,抑制基因转

录。其介导转录抑制的程度取决于甲基化密度和启动

子的强度。如低密度甲基化可完全抑制一些弱的启动

子,但对强的启动子则收效甚微。

(3)dna甲基化还可通过影响染色体结构来抑制

转录。不仅甲基化启动子区形成的核小体抑制体外起

始转录,而且mecp1与甲基化启动子cpg位点结合

后,可引起染色质聚缩成非活性高级结构,以至于转

录因子不能与其相结合,从而抑制转录。

dna甲基化状态并非固定不变.在许多哺乳动物

组织内,基因组甲基脱氧胞嘧啶水平随老化而下降,

在鲑鱼、小鼠、大鼠、牛与人类的脑、肝脏、大肠粘膜、

心脏和脾脏内发现dna脱甲基化作用。相反,大鼠肺

则不发生脱甲基化,大鼠。肾内甲基脱氧胞苷总含量增

加。这说明甲基化状态随老化而变化,即发生甲基化

· 285 ·

和脱甲基化,但总的说来,最常见的变化似乎是进行

性的脱甲基化。这些变化均可导致随老化而发生的基

因表达变化。

2.dna甲基化与肿瘤的关系

研究表明,dna甲基化在肿瘤的发生、发展中起

重要作用。甲基化状态的改变是引起肿瘤的一个重要

因素,这种变化包括dna甲基化总体水平降低和启

动子等基因表达调控元件附近的cpg岛局部甲基化

水平的异常升高,从而导致基因组的不稳定(如染色

体的不稳定、可移动遗传因子的激活、原癌基因的表

达)和抑癌基因的不表达。如果抑癌基因中有活性的

等位基因失活,则发生癌症的几率提高,例如:胰岛素

样生长因子一2(igf一2)基因印记丢失导致多种肿瘤,

如wilm‘s瘤。【8j

3.dna甲基化与基因印记

基因组印记是性细胞系的一种表观遗传修饰,这

种修饰有一整套分布于染色体不同部位的印记中心

来协调。印记中心直接介导了印记标记的建立及其在

发育全过程中的维持和传递,并导致以亲本来源特异

性方式优先表达两个亲本等位基因中的一个.而使另

一个沉默。基因组印记是可遗传的,dna的甲基化在

基因组印记的分子机理中充当重要角色。dna高甲基

化是一个基因印记抑制信号,dna甲基化对控制印记

基因中父子和母子等位基因的不同表达具有重要作

用。[91

4.人类基因组dna甲基化的特点

dna甲基化的基本特征有:1)数量多、信息容量

大;2)可遗传性:有丝分裂时分化细胞可以稳定地将

甲基化模式传递给子代细胞:3)相对稳定性,即在体

内.内外环境短时间变化不会引起细胞基因组甲基化

谱的改变;4)与snp标记毗邻,提供不同层次信息,相

互补充。人类基因组dna甲基化还有自身特点。

(1)时空特异性。dna甲基化是记录细胞分化历

史、维持组织特异性基因表达的主要机制之一。有学

者认为,dna甲基化可能使分化细胞基因组重新编

程,通过dna 甲基化来控制基因的时空表达,调节发

育过程和各种生理反应。在不同组织或同一类型细胞

的不同发育阶段,基因组dna上各cpg位点甲基化

状态的差异构成基因组dna甲基化谱。组织特异的

dna甲基化谱是哺乳动物基因组的一个显著特征。

细胞之间dna甲基化模式的差异是在个体发育

的过程中逐步形成的,并在以后的有丝分裂中保持不

变。在胚胎发育过程中,细胞的甲基化模式按一定方向

发生有规律地变化。成年个体,组织特异性基因形成组

· 286 ·

织特异性的甲基化模式。随着年龄增长,基因组dna甲

基化总体水平不断下降.特定dna片断的甲基化程度

可以增高或降低。取决于组织细胞和基因种类。

(2)亲缘特异性。在某些基因座,所有组织体细胞

都选择性地将亲代一方的等位基因甲基化.呈现亲缘

依赖的等位基因甲基化模式。

(3)病理特异性。在病理状态下,组织细胞的dna

甲基化谱发生特异性的改变。dna甲基化改变在许多

肿瘤的发生发展过程中发挥重要的作用。目前证实,启

动子高甲基化是肿瘤抑制基因第三种常见的失活途径。

二、dna甲基化与年龄相关性

分化细胞的稳定性是高等生物的基本特征之一。

然而,在衰老过程中某些细胞会发生年龄相关的变

化。例如,某种cpg岛的从头甲基化会关闭一个基因,

丧失与这个基因相关的生理功能;同样.甲基化的丧

失也会激活正常情况下沉默的基因,造成不恰当的异

位表达。2o世纪8o年代初,wilson等测定了体外培养

的人、田鼠及小鼠成纤维细胞dna的5 甲基胞嘧啶

含量,发现均随细胞分裂次数的增加而降低.且下降

速度以人、田鼠、小鼠的次序递减.而永生化细胞系的

5 甲基胞嘧啶含量则保持相对稳定。以dna甲基化

酶抑制剂5 氮杂胞苷或5 氮脱氧胞苷处理人二倍

体成纤维细胞或某些肿瘤细胞,可使其增殖能力下

降,体外培养寿限缩短。因此,dna甲基化水平也可以

作为细胞分裂的“计时器”。体内实验同样发现基因组

整体甲基化水平有随龄降低的趋势。

在基因组整体甲基化水平降低的同时,衰老过程

中也伴有个别基因甲基化水平增高的现象。最早证明

与年龄相关启动子cpg岛的甲基化是人结肠组织雌

激素受体(estrogen receptor,er)基因,年轻个体中,几

乎检测不到er基因的甲基化,以后,随龄逐渐升高。

另外。胰岛索样生长因子2(insulinlike growth facror,

igf2)、肌原调节蛋白myod1、体觉诱发电位组分

n33基因启动子cpg岛的甲基化水平在正常的结肠

组织中同样随龄升高。tra等用限制性界标基因组扫

描技术对t淋巴细胞20__个基因座的甲基化年龄变

化情况进行了调查,发现29个基因座有变化,其中23

个增加,6个降低。也许.这些特定基因的甲基化是更

好的衰老生物学标志。

陈培利等_10]利用人胚肺二倍体成纤维细胞(hu

man fetal lung diploid fibroblasts。2bs)进行体外培养。

发现其p16基因启动子区及外显子i处的dna甲基

化水平随个体细胞代龄的增加而降低。他们首先将

2bs细胞在体外作常规传代培养(规定3o代龄以内为

法律与医学杂志20__年第l3卷(第4期)

年轻细胞,55代龄以上为衰老细胞,在31至54代龄

之问位中年细胞)。然后用有机法提取细胞dna,取各

组dna各llxg加入sinai约40u,25~c酶切过夜(smai

不具备甲基化修饰作用)。然后对p16基因外显子i

及13-actin进行pcr扩增。

ll 二| ’。_ lll

l | _ __⋯一_l\

‘l \_ _l’ _li \

_l\ il 、

l i、

4 _ li 0_ _l

年轻细胞中年j田胞老年细胞

围1不同代龄2bs细胞p16外显于pcr扩增条带的吸光度扫描值【’。

寰1 不同代龄2bs细胞pl6外丑于l殛i~-actinpcr扩增条带的吸

光度扫描值

组别 n

沣:#以b—actin的值校正后结果;t检验,与年轻细胞相比, p<o.05

实验结果(参见表1)表明,不同代龄2bs细胞

p16基因外显子i上的扩增产物均低于相对的未酶切

的b—actin对照组,且其dna甲基化水平随代龄的增

加而趋于降低,在年轻细胞中甲基化水平约为64%.

而在衰老细胞中仅为24%,降低约40%。在之后的研

究中,陈培利等在以2bs为模型的衰老研究中发现,

细胞分裂一次端区(即端粒)缩短50bp,抑制dna甲

基化则可导致细胞早衰。⋯】他们测定了去甲基化处理

后的2bs细胞的端区长度.研究表明老年2bs细胞衰

老表型更加明显,端区长度较对照细胞缩短,而年轻

细胞则变化不显著。从而推断甲基化的改变可以影响

染色质的构象,从而可能改变端区结合蛋白与dna

的作用l1 1,后者可以进一步引起端区长度改变。

三、dna 甲基化检测方法

随着对甲基化研究的不断深入,各种各样甲基化

检测方法被开发出来以满足不同类型研究的要求。

dna甲基化可以从甲基化含量、甲基化水平、甲基化

模式和甲基化图谱分析等多种途径进行分析。甲基化

含量分析5mc在基因组中所占的总体比例:甲基化水

2 1 8 6 4 2 0

l n n

璎辍 越

法律与医学杂志20__年第13卷(第4期)

平分析单个cpg胞嘧啶甲基化的发生率,若同时分析

多个cpg位点,则可以制作甲基化水平图谱;甲基化模

式分析一段单链dna上一组cpg的甲基化状态组合。

根据研究目的,甲基化检测方法分为:基因组整体水平

的甲基化检测,特异位点甲基化的检测和寻找新甲基化

位点。从研究所用的处理方法不同分为:基于pcr的甲

基化分析方法;基于限制性内切酶的甲基化分析方法;

基于重亚硫酸盐的分析方法和层析法等。[31以下归纳

总结了主要的甲基化分析方法以及相关特性。

(一)基因组整体水平甲基化分析

高效液相色谱柱(hplc)及相关方法。hplc是一

种比较传统的方法,能够定量测定基因组整体水平

dna甲基化水平。它由kuo等1980年[131首次报道。

过程是将dna样品先经盐酸或氢氟酸水解成碱基,

水解产物通过色谱柱,结果与标准品比较,用紫外光

测定吸收峰值及其量,计算5mc/(5mc+5c)的积分面

积就得到基因组整体的甲基化水平。oefner等1992

年提出变性高效液相色谱法(dhplc)用于分析单核

苷酸和dna分子。邓大君等20__年i141将其改进与

pcr联用建:立了一种检测甲基化程度的dhplc分析

方法。将重亚硫酸盐处理后的产物进行差异性扩增。

由于原甲基化的在重亚硫酸盐处理时仍被保留为胞

嘧啶,因此原甲基化的在pcr扩增时,其变性温度也

相应上升。使pcr产物在色谱柱中保留的时间明显延

长.这样就可以测定出pcr产物中甲基化的情况。

这种方法的最明显优点是:可用于高通量混合样

本检测.能够明确显示目的片段中所有cpg位点甲基

化的情况.但不能对甲基化的cpg位点进行定位。

其他基因组水平甲基化分析还有sssi甲基转移

酶法,免疫化学法,氯乙醛法等。各具优缺点。

(二)特异性位点的dna 甲基化的检测

1.甲基化敏感性限制性内切酶(ms—re—pcr/

southern)法

这种方法利用甲基化敏感性限制性内切酶对甲

基化区的不切割的特性.将dna消化为不同大小的

片段后再进行分析。 这是一种经典的甲基化研究方

法,其优点是:相对简单,成本低廉,甲基化位点明确,

实验结果易解释;

2.甲基化特异性的pcr(ms—pcr)

herman等[161 1996年在使用重亚硫酸盐处理的基

础上新建的一种方法。它将dna先用重亚硫酸盐处

理。这样未甲基化的胞嘧啶转变为尿嘧啶,而甲基化

的不变。随后行引物特异性的pcr。检测msp扩增产

物.如果用针对处理后甲基化dna链的引物能扩增

· 287 ·

出片段,则说明该被检测的位点存在甲基化;若用针对

处理后的非甲基化dna链的引物扩增出片段.则说明

被检测的位点不存在甲基化(见图2)。[15·17]

. /

5’衄_{2盈__ 平 盈3. 5-啪__曩墨|_唧h _霉叠__甲3·

— __. —

p1.m ri 一 一

图2甲基特异性的pcr扩增(ms—pcr)示意i莩i。dna经重亚硫酸盐处

理后。以处理后的产物作为模板.加入甲基化特异性的引物(primer 1)

或非甲基化的引物(primer¨).进行特异性的扩增(如图所示),只有结

合完全的甲基化或非甲基化特异性引物的片段才能扩增出产物。[1s,1

(三)寻找新甲基化位点

1.限制性标记基因组扫描(rlgs)

costello等20__年报道的rlgs[ 81能对整个基因

组的甲基化状态进行分析.发现新甲基化基因的方

法。这种方法联合使用了限制性内切酶及二维电泳。

其过程是:先用甲基化敏感的稀频限制性内切酶not

i消化基因组dna,甲基化位点保留,标记末端、切

割、行一维电泳,随后再用更高频的甲基化不敏感的

内切酶切割。行二维电泳,这样甲基化的部分被切割

开并在电泳时显带,得到rlgs图谱与正常对照得出

缺失条带即为甲基化的可能部位。

2.联合甲基化敏感性限制性内切酶的mb(com.

pare—ms)

srinivasan yegnasubramaniant 91 20__年报道了一

种新方法compare—ms.该法将mbd柱层析法与

ms—re联用。互补了各自单用的弊处,能够快速、敏感

的检测dna甲基化情况(见图3)。[19j

四、甲基化型分析的优势以及存在的问题

(一)甲基化作为检测对象的优势

1.甲基化型既能反映有关基因功能状态及与此相

连的多种疾病相关的丰富信息。叉具有简单的“二元

化”性质,即令甲基化为“0”,非甲基化为“1”,就可以进

行数字化处理,便于开展大规模和自动化监测分析。

2.dna分子十分稳定。有可能将它和dna的snp

分析等置于同一个技术平台。同时它又比rna和蛋白

质更便于保存和运输。并可对已经石蜡、甲醛或乙醇预

· 288 ·

_f 簟

图3 联台甲基化敏豫性限制性内切酶的mbd (compare-ms)示

意围。用甲基化以外的位点的内切酶ia酶)与甲基化敏雅的内切酶(b

酶)联用.则甲基化的dna链不被切开。非甲基化的切开.再行mbd

捕获存在甲基化位点的dna片段。最后行实时pcr扩增并分析。f删

处理的样本进行分析,可以开发历史上储备的病理学资

料。

(二)存在的问题

目前还未找到dna甲基化改变与年龄之间的精

确的量化关系式。虽然人们对个体细胞的衰老及其基

因甲基化水平的改变有了初步的了解.但还在研究探

索二者之问的精确的量化关系。[201对使用dna甲基

化改变来推断个体年龄的大小,仍需要进行大量的研

究和调查。

(三)付诸于实践之前还必须解决的问题

1.确定表观遗传修饰与特定生理指标的相关性:

2证实将这些指标作为鉴别诊断的潜在可能性和

技术可行性:

3.通过一定规模的流行病学调查来验证实验室内

的表观遗传生理及病理发现在人群中的真实性。

五、dna甲基化在法医学中判定个体年龄上的展

目前,研究dna甲基化水平改变与个体年龄的

相关性尚处于试验阶段,但已引起许多学者的关注。

人类表观基因组协会(human epigenome con—sortium,

hec)于20__年1o月正式宣布开始投资和实施人类

表观基因组 计划(human epigenome project,hep)。

dna甲基化已经成为表观遗传学和表观基因组学的

重要研究内容,hep的最终目标是就要确认这些dna

甲基化位点在人类基因组的分布与频率,以指导和系

统研究dna甲基化在人类表观遗传、胚胎发育、基因

印记等发挥的作用。 借助于该计划的实施和分子生

物学技术的发展,在法医实践中可以通过调查各年龄

段人群基因组dna甲基化分布以及相关频率,建立

相关统计学模型,将来有望成为法医个体年龄判定的

一项重要的生物学指标。(感谢西安交通大学医学院第一附

法律与医学杂志20__年第l3卷(第4期)

属医院妇产科、环境与疾病相关教育部重点实验室郑鹏生教授

和顾婷婷同学的支持和帮助。)

参考文献

【1 j 马宏,张宗玉,童坦君.衰老的生物学标志[j】.生理科学进展,20__,

33:65—69

[2】陈朝飞,房静远.衰老的表观遗传修饰研究[j】.上海医学,20__,29

(1):58~60

【3】dahlc,guldbergp.dnamethylationanalysistechniques[j】.biogerontology,

20__,4(4):233~250

【4 ] bird a p.cpg—rich islands and the function ofdna methylation[j].

nature,1986,321:209~231

【5 j depamphilis ml,zorbas h.identifying 5一methyic 08ine and related

modifications in dna genomes[j】.nucleic acids res.1998,26(10):

2255~2264

[6】 黄庆,郭颖,府伟灵.人类表观基因组计划[jj’生命的化学,20__,24

(2):101~102

[7】董玉玮,侯进慧,朱必才,等.表观遗传学的相关概念和研究进展叨.

生命的化学,20__,22(1):1~3

[8】feinberg a p,tycko b.the history of cancer epigeneticⅲ.nat rev

cancer,20__,4(2):l43-153

[9】李素婷.真核生物dna甲基化状态ⅲ.河北医学,1999,5:85-88

[1o】 陈培利,童坦君,张宗玉.dna甲基化埘基因表达的影响及其在衰

老过程中的表现ⅲ.同外医学分子生物学分册,20__,22:155~168

[il】毛泽斌,张宗 ,童坦军.dna去甲基化对细胞衰老的影响【j1l生物

化学杂志,l997,l3(3):318 32l

[12】lustig aj,kurtz s,shore d.involvement of the silencer and usa

binding protein rap1 in regulation of telomere length[j】.science,

l 990.250:549~553

[13】kuo k c,mccune r a,gehrke c w,et a1.quantitative reversed—

phase high performanceliquid chromatographic determination of ma—

jor and modified deoxyribonucleosides in dna ⅲ.nucleic acids

res.1980.8:4763~4776

[1 4j 邓大君,邓国仁,吕有勇,等.变性高效液相色谱法检测cpg岛胞

嘧啶甲基化ⅲ.中华医学杂志,20__,81(3):158~161

[15】朱燕.dna的甲基化的分析与状态检测ⅲ.现代预防医学,20__,

32(9):1070~1073

[16】herman j g,graft j r,myohanen s,et a1.methylation—specific

pcr:a novel pcr assay for methylation status of cpg islands [j】.

proe natl acad sci usa,1996,93(18),9821~9826

[1_7】沈佳尧,侯鹏,祭美菊,等.dna甲基化方法研究现状[j】_生命的化

学.20__,23(2):149~l5l

[1 8】hatada i,hayashizaki y,himtsune s,et a1.a genomic scanning

method for higher organisms using restriction sites∞landmarks [j].

pmc natl acad sci usa,1991,88:9523—9527

[19】yegnasubramanian s,lin x,haffner m c,et a1.combination of

methylated—-dna precipitation and methylation—-sensitive restriction

enzymes(compare-ms)for the rapid。sensitive and quantitative

deleelion of dna methylation[j】.nucleic acids res,20__,34(3):

el9

【20】lssa jp.aging,dna methylation and cancer[jl,cri rev oncool hematol,

基因组学概述范文4

【关键词】生物制药;开发;展望

【中图分类号】R195 【文献标识码】A 【文章编号】2095-6851(2014)2-0494-01

生物技术药物产业中涵盖了药学、生物学以及医学等先进的技术,其对很多基础学科进行突破,例如分子遗传学、生物物理等,并以此作为坚实的后盾。目前机会所有行业与领域都在广泛的应用生物技术药品,例如日化产品以及医药等,特别是在改造传统制药工业以及新药的开发与研制过程中都开始更加广泛的应用此生物技术药品,于是生物制药产业逐渐发展变成一个发展最快、较为活跃的产业。生物制药产业的未来进展能够帮助人类治疗许多现在不能治疗的疾病,解决营养不良等问题,延长人们的生存寿命,提升其生命质量。

一 生物药物的概述

生物药物是指以生物体、生物组织、细胞、体液等为原料,综合利用微生物学、化学、生物化学、生物技术、药学等科学的原理和方法制造的一类用于预防、治疗和诊断的制品。

生物药物的特点是药理活性高、毒副作用小,营养价值高。生物药物主要有蛋白质、核酸、糖类、脂类等。这些物质的组成单元为氨基酸、核苷酸、单糖、脂肪酸等,对人体不仅无害而且还是重要的营养物质。生物药物的阵营很庞大,发展也很快。

二 生物制药的开发现状

(一)生物制药现在的主要研究方向

(1)神经退化性疾病:老年痴呆症、帕金森氏病、脑中风及脊椎外伤的生物技术药物治疗,胰岛素生长因子rhIGF- 1 已进入Ⅲ期临床。美国每年有中风患者60 万,中风症的有效防治药物不多,尤其是可治疗不可逆脑损伤的药物更少,溶栓活性酶(Activase 重组tPA)用于中风患者治疗,可以消除症状30%。

(2)肿瘤:在全世界肿瘤死亡率居首位,肿瘤是多机制的复杂疾病,目前仍用早期诊断、放疗、化疗等综合手段治疗。今后10 年抗肿瘤生物药物会急剧增加。如应用基因工程抗体抑制肿瘤,应用导向IL- 2 受体的融合毒素治疗CTCL 肿瘤,基质金属蛋白酶抑制剂(TNMPs)可抑制肿瘤血管生长,阻止肿瘤生长与转移。这类抑制剂有可能成为广谱抗肿瘤治疗剂,已有3 种化合物进入临床试验。

(3)自身免疫性疾病:许多炎症由自身免疫缺陷引起,如哮喘、风湿性关节炎、多发性硬化症、红斑狼疮等。风湿性关节炎患者多于4000 万,每年医疗费达上千亿美元,一些制药公司正在积极攻克这类疾病。如Genentech 公司研究一种人源化单克隆抗体免疫球蛋白E 用于治疗哮喘,已进入Ⅱ期临床;Cetor’s 公司研制一种TNF-α 抗体用于治疗风湿性关节炎,有效率达80%。Chiron 公司的β- 干扰素用于治疗多发性硬化病。还有的公司在应用基因疗法治疗糖尿病,如将胰岛素基因导入患者的皮肤细胞,再将细胞注入人体,使工程细胞产生全程胰岛素供应。

(二)我国现代生物制药的开发现状

现代生物技术医药产业化进程:我国自80 年代开始进行现代生物技术药品的研究和开发,虽然起步较晚,基础较差,但一开始就受到党和国家的高度重视,并列为“863”计划和国家重点攻关项目的主要内容,经过十多年的努力,特别是近五年来,现代生物技术医药产业有了突破性的进展,到1998 年7 月底我国已有十四种现代生物技术药品和疫苗投入生产,据初步统计,1997 年的工业总产值约20 亿。目前我国已有近200 多个现代生物技术制药企业,其中约30家生产企业已具有不同规模的生产能力,陆续投入生产。

(三)我国生物制药目前的发展方向

目前,我国为了发展具有科技优势和自主创新特点的生物制药产品,需要重点研究和开发以下几个领域:(1)中草药及其有效生物活性成分的发酵生产;(2)改造抗生素工艺技术;(3)人源化的单克隆抗体的研究和开发;(4)核酸类药物研究;(5)血液替代品的研究与开发;(6)基因芯片(DNA 芯片)技术;(7)拓展人类基因组的研究成果;(8)发展氨基酸工业化的研究和开发甾醇激素;(9)开发活性蛋白与多肽类药物以及治疗性抗体。

三 生物制药的未来展望

随着现代生物技术的迅猛发展,运用基因组学、蛋白质组学、生物信息学等现代生化与分子生物学技术,结合基因工程、蛋白质工程、细胞工程、酶工程、生物芯片等常用技术,在将一些疾病的发病机理的认识清楚的基础上,针对生物制药研究中存在的问题,展开综合研究是生物制药发展的趋势。

同时,生物制药的发展不仅依赖于生物科学和生物技术的自身发展,同时也依赖于很多相关领域的技术进步,一些新技术的出现对于新药物的开发有着很大的推动作用:例如计算机模拟和分子图像处理技术相结合可以提高设计具有特定功能特性的分子的能力,这一技术很可能成为药物研究和药物设计的得力工具。药物与使用该药物的生物系统相互作用的模拟在理解药效和药物安全方面会成为越来越有用的工具。

随着人类基因组计划的成功完成,人类遗传结构的秘密正逐步被人类所了解。这些遗传信息必定是宝贵的医药资源,是生物制药研究的重要依据,对以后生物制药发展的有着重大的意义和深远的影响。

总而言之,在多个学科的共同努力下,借助于高新技术能够有效的拓展新药的开发空间,为新药的发明创造更多机遇,提高开发速度。由于这些技术与方法能够有效的找到可以更快鉴定药物作用的靶,从而找到更多先进的新型先导物化学实体,于是为新药的发明提供更为便利的条件。

参考文献

[1]靳,李洋,李乾.我国生物制药研究进展及展望[J]. 现代生物医学进展,2012,01(07):67-68 .

基因组学概述范文5

摘要: 深海微生物是地球生物系统的重要组成部分,深海微生物由于其在生态、资源、环境等方面的重要性,越来越受到人们的重视。本文对深海微生物研究开发的历史和进展进行概述。

关键词: 深海微生物; 研究; 开发

Research and development of deepsea microbes

ABSTRACT Deepsea microbes are the important components of earth biological system. Deepsea microbes have received more and more intensive attention as their importance in the research and application in ecology, resources, environments, and so on. In this study, the history and main achievements in deepsea microbial research and developments were briefly introduced.

KEY WORDS Deepsea microbes; Research; Development

深海的概念通常指1000米以下的海洋,占到海洋总面积的3/4,而其中深海沉积物覆盖了地球表层的50%以上。深海及深海沉积物中的微生物生存面临高压,低温或高温、黑暗及低营养水平等几个主要极端环境,长期以来一直被认为是一片“荒芜的沙漠”。20世纪中期,深海测量技术发现深海洋底也有高山峻岭,全世界有8万公里长的山脊蜿蜒在各个大洋,大洋中山脊的发现使人们认识到海洋环境与陆地环境的统一性。1977年美国“阿尔文”号深潜器最早在太平洋上的加拉帕戈斯群岛附近2500米的深海热液区发现了完全不依赖于光合作用而独立生存的独立生命体系。位于生命体系金字塔底部的是微生物,能直接利用深海火山口喷出的硫化物、氮化物、甲烷等低分子化合物作为食物和能源,合成各种生物大分子如蛋白质、糖等。位于金字塔上部的是一些大型生物包括长管虫、蠕虫、蛤类、贻贝类,还有蟹类、水母、藤壶等特殊的生物群落。有人将这样五彩缤纷、生机勃勃的海底生物世界称为海底“生命绿洲”。目前已经有几十个深海热液区生物体系被研究,这种依靠地球内源能量支持,在深海黑暗和高温的环境下,通过化合作用生产有机质的“黑暗食物链”的发现使人类对深海环境以及生物圈有了更进一步的了解。在目前已发现的各种极端环境中深海蕴藏着的生物资源极为丰富,其中最主要的是深海微生物,但这些微生物大部分还鲜为人知。深海环境下极端微生物的研究不仅是目前生命科学最前沿的领域之一,也是海底深部生物圈研究和海底流体活动研究重要的组成部分。该项研究将回答生命起源、生物进化、外太空生命探索等生命科学的重大问题并带动包括21世纪地球科学内的其它学科领域的重大发展。2001年美国国家科学基金(NSF)在其题为“Ocean Science at the New Millenium”的科学发展展望报告中,将海底流体活动研究列为海洋科学今后十年最重要、最有可能取得重大突破和科学发现的前沿研究方向之一,生命科学与海底地球物理、地球化学等在上述研究中将占据重要地位。于2003年10月份开始的整合大洋钻探计划(IODP)将深部生物圈和洋底、海底列为该计划中三大科学课题之一。深海深部生物圈的发现是对“生物圈”广泛范围的进一步了解。虽然海底采集沉积柱状样已经有近80年的历史,大规模的系统研究开始于1968年的深海钻探计划。“深海钻探(DSDP,1968~1983)”、“大洋钻探(ODP,1985~2003)”和“综合大洋钻探(IODP,2003~至今)”等深海研究的三部曲,是国际地球科学历时最长、规模最大,也是成绩最为突出的合作研究计划。大洋钻探计划ODP以独特的视角为我们呈现出另外一个生命世界――掩埋在洋底沉积物中和地壳中的生物圈。在数千米深海海底存在着由微小的原核生物组成,数量极大的生物群,有人估计其生物量相当全球地表生物总量的1/10。与热液口“自养”的微生物不同,深部生物圈的原核生物依靠地层里的有机物实行“异养”。深海大洋中生物圈的发现,让人类认识到地球生态系统的真正基础在于原核生物。正是这些原核生物多种多样的新陈代谢过程,产生了多种多样生物地球化学效果,在此基础上建立了地球的生态系统。微生物总是出现在它们能够生存的一切物理、化学、地质环境中,这似乎是一条基本规律。那些在极端环境中生长并通常需要这种极端环境正常生长的微生物被统称为极端微生物。极端环境涵盖了物理极端环境(如温度、辐射、压力、磁场、空间、时间等)、化学极端(如干燥、盐度、酸碱度、重金属浓度、氧化还原电位等)和生物极端(如营养、种群密度、生物链因素等),海底被认为是上述极端环境中的极端。在深海环境中广泛存在着嗜酸(pH3以下)、嗜碱(pH10以上)、嗜盐(25mol/L以上)、嗜冷(可达0℃以下)、嗜热(120℃以上)、嗜压(500大气压以上)微生物。深海环境下极端生物特征的研究也为生命极限的研究提供了良好的生物材料并对外太空生命探索不断提供新的线索和依据。科学家们设想:既然在如此严酷的极端环境下微生物还能很好地生存,那么在火星上也会有生命存在。深海微生物学的建立应该追溯到上世纪70年代,美国Scripps海洋研究所Yayanos教授设计、改进高压培养罐并于1979年首先分离出深海嗜压菌,1989年Bartlett首先分离出压力调控的外膜蛋白(OmpH)。1990年日本三菱重工和三洋公司开始为日本海洋科学技术中心研制深海微生物高温/高压培养系统,1994年才完成,耗资七亿五千万日元。该系统的建设和深潜、采样系统的建设极大地推动了深海生物圈的研究进步。1995年Kato等分析了一个压力调控基因簇,1999年Nogi等从马里亚纳海沟分离、鉴定出极端嗜压菌Moritella yayanosii[1~3];2003年日本、美国和意大利相继展开了深海嗜压菌Shewanella violacea DSS12和Photobacterium profundum SS9全基因组测序[4,5];2005年3月P.profundum SS9全基因组序列及初步分析在Science上发表[6,7]。除了巨大的科学研究价值,深海微生物研究还具有极大的经济、社会价值而引起广泛的关注。深海生物处于独特的物理、化学和生态环境中,在高静水压、剧变的温度梯度、极微弱的光照条件和高浓度的有毒物质包围下,它们形成了极为特殊的生物结构、代谢机制系统。由于这种极端的环境,深海生物体内的各种活性物质,特别是酶,具有高度的温度耐受性,高度的耐酸碱性、耐盐性及很强的抗毒能力。这些特殊的生物活性物质是深海生物资源中最具应用价值的部分。除了发展、改进海洋微生物的分离培养方法获得新的海洋微生物,筛选活性物质外,应用基因组学研究方法,构建海洋微生物基因组文库,通过研究,操作海洋微生物遗传基因,来获得新的海洋微生物活性物质,这是探索海洋特别是深海微生物资源,研究开发海洋新药物的必然而有效的选择,也是目前深海微生物资源开发的热点。概括来说,深海生物在以下几个方面具有潜在的应用价值:

1 工业应用

工业生产常常要求一些特殊的反应温度、酸碱度并加入一些有机溶剂,在这种条件下,普通酶无法保持活性,因此,依赖酶的工业必须花费大量资金采取特殊的工艺以保持这些酶的活性,从而大大提高了成本,而极端酶在普通酶失活的条件下仍然能保持较高的活性,所以在工业上有着广泛的的应用前景。目前已经有高温聚合酶、糖酶、淀粉酶、蛋白酶等几种极端酶开始工业化生产,并且已经创造了数十亿美元的经济效益。

2 医药应用

从生物体内研制药物治疗人类的各种疾病由来已久。由于越来越多的病原菌或病毒对目前的药物产生了抗药性,并且不断产生新的疾病。因此从海洋中筛选新的生物药物成为海洋药物研究开发的方向。深海生物由于环境的独特性而成为新型特效药物、抗肿瘤、抗病毒、降压降脂等药物的来源。目前国际上在深海药物的筛选方面还未见太多报道,但是可以预料它的前景将是十分广阔的。

3 环境保护

在海底,由于动物尸体聚集、火山喷发等原因造成有毒物质及硫化物等对陆地生物有害物质的浓度较高,而生存在这里的微生物能分解这些物质并以其为能源繁衍生息,因此,这些生物在清除地球表面的重金属、石油等污染物方面具有重要的应用价值。目前日本科学家已经从深海中筛选到具有较高的石油分解能力的菌株,并已开展了应用研究。从20世纪后期开始,随着深海技术能力的提高,越来越多的国家投身于深海研究的前沿领域。目前的深海载人潜器下潜深度达到6500m,无人缆控潜器ROV则可达到11000m水深,并获得最深处马里亚纳海沟深海沉积物样本,研究发现其微生物含量达到103~104/g的水平。实验室深海环境模拟也取得突破进展,已分离鉴定出嗜压、嗜碱、嗜酸、嗜盐、嗜冷、嗜热等极端微生物。目前国际上进行深海微生物研究的国家主要分布在欧洲,美洲及亚洲,其中美国、日本、德国和法国都是深海微生物研究的主力军。目前,在深海微生物的分离培养、多样性调查、功能基因研究和适应性机制研究(如深海嗜压菌的嗜压机制)等方面取得了一定的进展;各类极端微生物在工业用酶、工具酶、环境修复以及生物活性物质等方面的开发应用也有了突破,使人们看到了深海微生物开发的巨大潜力和广阔的应用前景。深海生物资源尤其是微生物资源越来越得到人类的重视。随着科学的发展进步,水下工程技术和探测技术的改进和完善,人类对深海微生物的研究和开发有了更大的空间和可能性。我国深海生物基因的系统研究起步时间较晚,从本世纪初开始主要得到了国家科技部和中国大洋专项的资助。中国大洋协会依托国家海洋局第三海洋研究所成立了中国大洋生物基因研究开发基地,研制、配备了一批船载和实验室深海微生物培养专用设备。在深海设备的支持下,真正意义的深海微生物研究得以开展。到目前为止,基础研究主要开展了深海微生物在物质循环中的作用;极端微生物分离、培养;微生物遗传、代谢研究,深海极端环境下微生物适应性机理的研究等。成功分离、鉴定出各类深海嗜压、嗜热、嗜冷、嗜盐、嗜碱、嗜酸微生物,从中发现了多个未经报道的新种。以此为基础,正在建设国内第一个深海微生物菌株资源库。克隆了多种深海极端酶基因,进行了基因表达和分析。深海微生物抗菌、抗肿瘤活性物质筛选工作也已经开展。深海耐压菌Shewanella comra WP3已基本完成全基因组序列测定,正在开展后基因组研究。开展了深海沉积物宏基因组文库的构建,成功构建了一个深海5000米水深沉积物的cosmid基因文库,通过对克隆子的分析发现文库中微生物来源主要是一些不可培养的微生物新种,部分克隆子序列测定发现克隆子上大部分基因是新基因。目前已筛选到多个能表达生物活性物质的克隆子,正在进行序列测定。总之,深海生物研究是一个依赖于工程技术的高投入项目,我国深海生物基因资源开发利用研究的快速发展还需要更多资金和人才的不断投入。

参考文献

[1] Ishii A, Nakasone K, Sato T, Wachi M, et al. Isolation and characterization of the dcw cluster from the piezophilic deepsea bacterium Shewanella violacea [J]. J Biochem,2002,132 (2):183

[2] Horikoshi K, Tsujii. Extremophiles in deepsea environments [M]. Tokyo: SpringerVerlag,1999:91

[3] Kato C, Nogi Y. Correlation between phylogenetic structure and function examples from deepsea Shewanella [J]. FEMS Microbiol Ecol.,2001,35(3):223

[4] Bidle K A, Bartlett D H. RNA arbitrarily primed PCR survey of genes regulated by ToxR in deepsea bacterium Photobacterium profundum strain SS9 [J]. J Bacteriol,2001,183(5):1688

[5] Nakasone K, Ikegami A, Kato C, et al. Analysis of ciselements upstream of the pressureregulated operon in the deepsea barophilic bacterium Shewanella violacea strain DSS12 [J]. FEMS Microbiol Lett,1999,176:351

[6] Vezzi A, Campanaro S, D′Angelo M, et al. Life at depth: Photobacterium profundum genome sequence and expression analysis [J]. Science,2005,307(5714):1459

[7] Campanaro S. Vezzi A, D′Angelo M, et al. Laterally transferred elements and high pressure adaption in Photobacterium profundum strains [J]. BMC Genomics,2005,6:122

[8] Vetriani C, Jannasch H W, Macgregor B J, et al. Population structure and phylogenetic characterization of marine benthic archaea in deepsea sediments [J]. Appl Environ Microbiol,1999,65(10):4375

[9] Priest F G, Goodfellow M. Applied microbial systematics [M]. Dordrecht: Kluwer Academic Publishers,2000

[10] Reysenbach A L, Voytek M, Mancinelli R. Thermophiles biopersity, ecology, and evolution [M]. New York: Kluwer Academic/Plenum Publishers,2001

[11] Bull A T, Ward A and Goodfellow M. Search and discovery strategies for biotechnology: the paradigm shift [J]. Microbiol Mol Biol Rev,2000,64(3):573

[12] Akerley B J, Rubin E J, Camilli A, et al. Systematic identification of essential genes by in vitro mariner mutagenesis [J]. Proc Natl Acad Sci USA,95(15):8927

[13] Bernan V S, Greenstein M and Maiese W M. Marine microorganisms as a source of new natural products [J]. Adv Appl Microbiol,1997,43:57

[14] Storey K B, Storey J. Environmental stressors and gene responses [M]. Elsevier Science B.V. 2000:277

[15] Abe F, Kato C, Horikoshi K. Pressureregulated metabolism in microorganisms [J]. Trends Microbiol,1999,7(11):447

[16] Yamada M, Nakasone K, Tamegai H, et al. Pressure regulation of soluble cytochromes c in a deepSea piezophilic bacterium, Shewanella violacea [J]. J Bacteriol,2000,182(10):2945

[17] Kato C, Qureshi M H. Pressure response in deepsea piezophilic bacteria[J]. J Mol Microbiol Biotechnol,1999,1(1):87

[18] Li S, Xiao X, Luo J, et al. Identification of genes regulated by changing salinity in the deepsea bacterium Shewanella sp. WP3 using RNA arbitrarily primed PCR [J]. Extremophiles,2005,published on line

基因组学概述范文6

关键词:科学计算;大数据处理;超级计算机;模拟仿真;并行计算

1引言

在现代科学研究和工程实践中,通常使用数学方程式来表示某些自然科学规律,产生了众多复杂繁琐的数学计算问题[1]。基于普通计算工具来解决这些问题,将耗费大量人力物力,甚至无法得到准确结果。而科学计算[2],利用计算机仿真、重现、预测或探索自然世界万物运动规律和演变特性的全过程,通过研究合理的计算方法,设计高效的并行算法,研制合适的应用程序,能准确、高效地模拟各领域研究过程,分析计算结果。然而,普通计算机的科学计算能力往往是有限的,现有的计算能力无法高效地解决某些基础学科和工程技术部门的科学计算问题,如长期天气预报、石油勘探、飞机整体气动力等等。

与此同时,地震检测仪、粒子碰撞器、天文望远镜以及高通量分析装置等大型科学仪器的研制和发展[3],产生了大量非结构化或半结构化的数据,使得“大数据”趋势变得越来越突出[4]。如今,许多科学发现和见解由大量数据集驱动,“大数据”被认为是除了实验、理论和计算方法之外的第四种科学范式[5]。数据生成的容量、速度和多样性构成了分析大数据的主要挑战。

为提高科学计算能力,解决大数据问题,高性能计算(HPC)[6]技术迅猛发展。高性能计算机代表用于解决计算密集型科学和工程问题的高端计算基础设施。我国的高性能计算早已突破每秒浮点运算千万亿次的壁垒,并继续解决性能、可扩展性、可编程性、能效和可靠性等问题,探索新的支持技术以达到e级计算能力。

目前,高性能计算机已在多个领域得到了成功的应用[7],但仍存在大量可供多个研究机构使用的空闲节点。本文简介了一些高性能计算机系统及其性能,针对近年来在高性能计算机上的各大领域应用实例进行总结,并对在其他领域的应用做出了展望,以促进更高效、全面地使用高性能计算机。

2高性能计算机系统概述

中国首台千万亿次超级计算机,是“天河一号”。“天河一号”超级计算机使用由中国自行研发的“龙”芯片,其峰值计算速度能够达到1.206TFlop/s,同时Linpack实测性能达到了0.563TFlop/s,该超级计算机位居当时公布的中国超级计算机前100强之首,中国成为了继美国之后世界上第二个能够自主研制千万亿次超级计算机的国家。

天河一号采用6144个英特尔通用多核处理器和5120个AMD图形加速处理器,其内存总容量98TB。至于点对点通信的带宽就达到了40Gbps,而其用于共享的磁盘总容量则达到1PB。该超级计算机系统部署于天津滨海新区的国家超级计算天津中心作为业务主机。

2013年,由国防科学技术大学研制的“天河二号”大型超级计算机以每秒33.86千万亿次的浮点运算速度成为全球最快的超级计算机,位列国际大型超级计算机TOP500榜首。随后,“天河二号”实现了世界最快超算“六连冠”。天河二号采用基于加速器的架构[8]。在可接受的总成本、功率预算、支持可靠性、可用性和可服务性(RAS)的能力、应用开发和移植的复杂性下提供高的计算性能。

天河二号的硬件系统由五个子系统组成,包括计算系统、通信系统、存储系统、监控诊断系统和服务系统。它由16000个节点组成,每个节点有2颗基于IvyBridge-EXeonE52692处理器和3颗XeonPhi,每个节点的内存是64GB。所有的计算节点都通过专有的高速互连系统连接。还提供了一个服务子系统的4096个节点,以加快高吞吐量的计算任务,如大数据处理。存储子系统包括256个I/O节点和64个容量为12.4PB的存储服务器。天河二号文件系统命名为h2fs,采用麒麟操作系统、基于SLURM的全局资源管理。支持大多数现代编程语言,包括C、C++、Java、Python等。采用的是新型异构多态体系结构(Multipurpose-Heterogeneous)[9]。

天河二号的系统配置列于表1中。

“天河二号”集科学计算、大数据分析和云计算于一体,被认为是满足工业和社会需求的战略基础设施。以超级计算机为支撑的高性能计算应用正加速向各个领域渗透。

Table1SystemindicatorsofTianhe-2

表1天河二号系统指标

width=375,height=252,dpi=110

在国内早期的高性能计算机研究中,2004年6月超级计算机曙光4000A研制成功,落户上海超级计算中心,标志着继美国和日本之后,中国是第三个能研制10万亿次高性能计算机的国家。曙光能够每秒运算11万亿次,进入全球超级计算机前十名。经过十多年发展,曙光E级高性能计算机系统项目现在是国家“十三五”期间高性能计算的重点专项,其最显著的特点是突破了制约E级计算发展的各个关键技术,通过这样原型机的研制去验证E级的技术路线,为未来真正实现国产E级系统做技术铺垫。

width=642,height=303,dpi=110

Figure1StructureofSugon’sCPU

图1曙光CPU结构

在2016年法兰克福世界超算大会上,“神威·太湖之光”超级计算机系统成为新的榜首,速度较第二名“天河二号”快出近两倍,效率提高三倍。

神威·太湖之光超级计算机由40个运算机柜和8个网络机柜组成。每个运算机柜包含4块由32块运算插件组成的超节点。每个插件由4个运算节点板组成,一个运算节点板又含2块“申威26010”高性能处理器。一台机柜就有1024块处理器,整台“神威·太湖之光”共有40960块处理器。每个单个处理器有260个核心,主板为双节点设计,每个CPU固化的板载内存为32GBDDR3-2133。

在2018年的法兰克福世界超算大会上,美国能源部橡树岭国家实验室(ORNL)推出的新超级计算机“Summit”以每秒12.23亿亿次的浮点运算速度,接近每秒18.77亿亿次峰值速度夺冠,“神威·太湖之光”屈居第二。

3高性能计算机各大领域应用实例分析

为充分发挥高性能计算机的优势,极大限度地满足客户需求,自超级计算机在中国开始发展以来,相关团队都致力于扩展高性能计算在各个领域的利用,迎合各领域应用的计算要求,协助用户配置应用环境,建立高效模型,设计合理并行算法,以实现各领域的科学计算和大数据处理在高性能计算机上的应用。

3.1生物计算与精准医疗

根据广州国家超级计算中心的内部统计[10],生物医学相关应用现在是超级计算中心的主要客户。生物医学研究主要包括生物大分子的结构模拟与功能建模,药物设计与筛选,蛋白质序列分析,基因序列分析与比对,基因调控网络的分析与建模,医疗卫生的双数据分析及生物医学文献挖掘等。

生物医学数据繁多,且一直呈指数增长。如世界最大的生物数据保存者之一,欧洲生物信息学研究所(EBI),存储超过20PB的数据,并且最近每年的数据量都增加一倍[11]。数据源的异质性,包括基因组学、蛋白质组学、代谢组学、微阵列数据、文献等,使其更加复杂。

针对典型类型的大数据——基因组大数据,在大数据框架(如Hadoop和Spark)的帮助下,云计算已经在大数据处理中发挥着积极作用。现在,HPC在中国的快速发展使得以不同的方式解决基因组大数据挑战成为可能。Yang等人[12]强调了在现代超级计算机上增强大数据支持的必要性,提出只需单个命令或单个shell脚本就能使当前的大数据应用在高性能计算机上运行,并且支持多个用户同时处理多个任务的Orion作为高性能计算机的大数据平台。该平台可以根据大数据处理需求,合理分配所需的资源量,并使用HPC系统软件栈自动建立和配置可回收的Hadoop/Spark集群。以华大基因提供的基因组学大数据作为案例研究,测试基因组分析流水线SOAPGaea的FASTQ过滤、读取对齐、重复删除和质量控制四个过程,证明了Orion平台的高效性。

为更好地了解基因的精细结构、分析基因型与表现型的关系、绘制基因图谱,DNA序列分析成为生物医学中的重要课题[12]。

DNA序列的排序是对DNA序列分析的基础[13]。通常先使用测序仪得到生物体基因组的一些片段,再利用计算机对片段进行denovo拼接,从而得到DNA序列的排列顺序。而随着测序仪的发展,基因组的数据量增大,分析复杂性提高,普通计算工具分析数据会消耗大量时间和空间。张峰等人[14]基于高性能计算机,使用一种新型序列拼接工具SGA(StringGraphAssernbler),对任务之间数据耦合度小的分批构建FM-Index,采用粗粒度的多进程并行;对任务之间数据耦合度较大的FM-Index合并过程,采用多线程的细粒度并行。这种多进程与多线程的混合并行策略,使用并行计算代替通信开销,测试小规模数据时,将索引构建时间的最佳性能提高了3.06倍。叶志强等人[15]在基因组排序时,引入随机listranking算法,基于高性能计算机,使用MPI并行实现Pregel框架的线性化步骤,利用节点之间的通信和计算能力,减少了线性化步骤时间。

SNP(单核苷酸多态性)检测是DNA序列分析的关键步骤[16]。它将对齐的read、参考序列和被编排的数据库(如数据库SNPP)作为输入,通过站点检测对齐的read和引用站点的信息,生成SNP站点的列表。SNP检测工具SoAPSNP可以用一个多星期的时间来分析一个覆盖20倍的人类基因组。崔英博等人[17]通过重新设计SOAPSNP的关键数据结构以降低内存操作的开销,设计CPU与XeonPhi协作的协调并行框架,以获得更高的硬件利用率。并提出了一种基于读取的窗口划分策略(RWD),在多个节点上提高吞吐量和并行规模,开发了SOAPSNP的并行版本MSNP,在没有任何精度损失的情况下,利用高性能计算机的一个节点实现了45倍的加速。

方翔等人[18]利用高性能计算机,构建了由基因组与转录组测序数据分析、蛋白质结构预测和分子动力学模拟三个功能模块组成的生物信息平台分析水产病原,对约氏黄杆菌等多种水生动物病原进行生物信息学分析。

从生物医学文献中提取有价值的信息的一种主流方法是在非结构化文本上应用文本挖掘方法。然而,大量的文献需要分析,这对文本挖掘的处理效率提出了巨大的挑战。彭绍亮等人[19]将针对疾病实体识别的软件DNorm加入可高效识别基因、蛋白质、药物、基因通路等实体关系的文本挖掘工具PWTEES流水线中,扩充了PWTEES的功能。使用LINNAEUS导入MEDLIN数据库提供的摘要,并在个人账户目录下,动态使用计算节点,编译安装配置了非关系型数据库(MySQL),将大量非结构化数据(文献)转为结构化数据。将平时在普通服务器上需100天能完成的文本挖掘过程缩短为1小时,并利用200个进程并行挖掘7万篇头颈癌相关文献中的关键命名实体,得到了80%以上的并行效率。Xing等人[20]开发了一个可运行的框架PARABTM,它能够在超级计算机上实现并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm三种命名实体识别任务为例,对多个数据集上PARABTM的性能进行了评价。结果表明,使用PARABTM并行处理策略中的短板匹配负载平衡算法(Short-Boardloadbalancingalgorithm),最大程度地提高了生物医学命名实体识别的处理速度。

3.2全数字设计与制造

数字设计与制造是一种以计算机系统为中心的集成制造方法。随着制造工厂中计算机系统数量和质量的提高,数字化趋势迅速。越来越多的自动化工具被用于制造工厂,有必要对所有机器、工具和输入材料进行建模、模拟和分析,以优化制造过程。而模拟能够建模和测试一个系统行为特性,让工程师能够用更低耗、更快速同时更安全的方式来分析所做的设计会产生什么样的影响。模拟的应用范围广泛,涵盖了产品设计、过程设计以及企业资源安排[21]。在模拟过程中,利用超级计算机强大的计算能力,使工程师能在几分钟或几小时内仿真和测试数千种设计方案。

利用数字化的方式,可以对产品进行结构力学分析、流体力学分析、电磁设计和多物理场模拟等多种计算仿真。

在计算流体力学CFD(CcomputationalFluidDynamics)领域的一大热点研究问题就是如何在当前主流的众核异构高性能计算机平台上进行超大规模计算。杨梅芳等人[22]在高性能计算机的单个节点上,利用超然冲压发动机燃烧数值模拟软件LESAP模拟一个实际发动机燃烧化学反应和超声速流动的问题,采用OpenMP4.0编程标准,向量化SIMD,优化数据传输过程,均衡基于网格块划分的负载技术,实现了软件面向CPU+MIC异构平台的移植,达到了3.07倍的性能加速比。王勇献等人[23]面向高性能计算机探索了高阶精度CFD流场数值模拟程序的高效并行性。在高性能异构并行计算平台上进行了多个算例的数值模拟的结果显示最大CFD规模达到1228亿个网格点,共使用约59万CPU+MIC处理器核,实现了移植后的性能大幅度提高。通过将算法移植到超级计算机进行大规模并行,能够实现高效的流体力学分析。而文献[24-26]都是针对空气动力学中的具体分类利用高性能计算机进行模拟以验证有效性的研究。利用数字化设计,能够快速低成本地对设计性能进行分析评估。

在图像模拟中,Metropolis光传输算法能够利用双向路径跟踪构建出由眼睛到光源的路径,是MonteCarlo方法的变体。然后,使用Metropolis算法静态计算图像中光线的恰当的散射状态,由一条已发现的光到眼睛的路径,能搜索到邻近路径。简单地说,Metropolis光传输算法能够生成一条路径并存储其上的节点,同时能通过添加额外节点来调整并生成新的路径。随着对照片级真实感图像的要求越来越高,为Metropolis光传输算法开发高效且高度可扩展的光线跟踪器变得越来越重要。主要是渲染图像通常需要花费大量时间,开发高效且高度可扩展的光线跟踪器的困难来自不规则的存储器访问模式、光携带路径的不平衡工作量以及复杂的数学模型和复杂的物理过程。Wu等人[27]提出了一种基于物理的高度可扩展的并行光线追踪器,并在高性能计算机上进行了实现,利用多达26400个CPU内核,证明了其可扩展性,能够从复杂的3D场景生成逼真图像。

模拟高场非局部载流子传输同样需要3DMonteCarlo模拟方法,通过适当的量子校正涵盖散射效应,半经典的MC模拟能够给出准确的结果。但是,MC方法中3D模拟和量子校正都需要巨大的计算资源[28],由效率出发超级计算机的计算能力就至关重要了。文献[29]中,通过在高性能计算机上使用IntelMIC协处理器,进一步提高了之前工作中开发的3D并行的继承MC模拟器的并行效率。

对于高性能计算机在全数字设计和制造领域的集成应用,国家超级计算广州中心推出了天河星光云超算平台,以云服务的方式提供CAE计算和HPC访问,大大降低了数字设计的门槛,支持产品设计的全工作流。目前基于该平台支撑的项目有诸如国产大飞机、高铁等,都是国家工业生产中重要项目[30]。

3.3地球科学与环境工程

基于该应用领域,超级计算机的主要作用在于变革对自然界中诸如地理状况、海洋、大气等种种元素的模拟方式。以超算为平台,不仅能模拟出地球上每个时期的状况,甚至是对宇宙中的种种同样能进行模拟分析,让地球科学和环境工程的研究范围不再限于此时此地,而是更广阔的空间。

在宇宙学的层面,早在2015年就利用高性能计算机模拟出宇宙大爆炸后1600万年之后至今约137亿年的暗物质和中微子的演化过程,并将进一步寻找宇宙边界的报告[31]。中微子虽然是自然界中的基本粒子之一,在宇宙大爆炸约1s后与其他等离子体物质退耦,形成看不见的宇宙背景,通过物理实验和实际的天文观测都无法精确测量中微子的质量。在高性能计算机平台上,利用3万亿粒子来对宇宙中的中微子和暗物质的分布和演化进行模拟,开创了宇宙学中独立测量中微子质量的道路。

在地球外围层面上,大气变化同样是一个关注点。Xue等人[32]提出了一种基于高性能计算机的全球性大气动态模拟的混合算法。通过使用更灵活的域分区方案来支持节点中任意数量的CPU和加速器,算法能够充分利用超算的优良性能。当使用8664个节点,包括了近170万个核心时,可以有效地利用节点内的三个MIC卡,对两个IvyBridgeCPU(24个内核)实现4.35倍的加速。基于成功的计算-通信重叠,算法分别在弱和强缩放测试中实现了93.5%和77%的并行效率。

相较于广袤无边的宇宙,大部分人们对于脚下的土地更加关心。自然灾害如地震、泥石流等,可能会造成巨大的生命财产损失,而地下油气资源又是经济社会发展所必需的,利用超级计算机去探索大地也是发展所需要的。

中石油集团开发的用于石油油气勘探的GeoEast系统已经经过了十几年的发展更新,在数据模型、数据共享、一体化运行模式、三维可视化、交互应用框架、地震地质建模、网络运行环境和并行处理方面取得了多项创新与重大技术突破,是地震数据处理解释一体化系统。目前GeoEastV3.0版本软件总体达到国际同类软件先进水平,为推动中国石油勘探开发领域不断取得新成果发挥了重要作用[33]。但是,这样的一体化系统在使用中势必会产生大量的数据,这就对计算机的性能有了要求。因此,在GeoEast系统闻名世界的过程中,高性能计算机在幕后是功臣之一,保证了系统的顺利运行,助力石油勘探工作[34]。而文献[35]专注于地震模拟,提出了针对英特尔至强处理器的对于软件SeisSol的优化,以适用于高性能计算机的计算环境中,通过全摩擦滑动和地震波的耦合仿真实现了空前复杂的地震模型。移植到高性能计算机的SeisSol提供近乎最佳的弱缩放,在8192个节点上达到8.6DP-PFLOPS,在所利用的整个高性能计算机上能达到18~20DP-PFLOPS,成功模拟了1992年兰德斯地震。

3.4智慧城市云计算

城市发展经过多年的调整,已经在经济上有了相当进展,目前从如何让人们生活更加便捷出发,许多地区开始建设智慧城市。智慧城市(SmartCity)是指利用各种信息技术或创新意念,集成城市的组成系统服务,以提升资源运用的效率,优化城市管理和服务,进而能够提高居民生活质量。智慧城市的发展不仅仅是对生活的改变,还能促进生产方式的转变,解决在城市扩张及经济高速发展中产生的一系列“城市病”问题。智慧城市,代表的是城市的智慧,由智慧,能够衍生出智能中、知识和数字等更广泛的内涵[36]。

迄今为止,广州、北京、上海、宁波、无锡、深圳、武汉、佛山等国内城市已纷纷启动“智慧城市”战略,相关规划、项目和活动渐次推出。高性能计算机云平台应运而生,为智慧城市建立坚实、先进的基石。智慧城市由于其性能需求,对依赖的平台的计算能力的要求会更高,而超算的计算能力就能为智慧城市的建设提供相当助力。在2014年,就有中国首台千万亿次超级计算机“天河一号”在智慧城市中应用的报道,以其在天津滨海区的应用为例,“天河一号”的建筑信息领域的大数据平台通过对建筑信息建模,实现对建筑物从规划、设计、建造到后期物业管理理的全程数字化。此外,城市规划、气象预测、生物医疗、装备制造、汽车碰撞模拟等行业,也能更多地通过“天河一号”,实现大批量数据计算、分析和存储[37]。

而高性能计算机的持续计算速度进一步达到了亿亿次,所能提供的服务质量也更高,麒麟云平台被部署在1920个节点(15个机柜),其中64个节点(两个机框)作为云平台控制节点,其余节点为运行虚拟机的计算节点和分布式存储的存储节点。为方便管理,将计算节点进行分区管理,512个节点(4个机柜)为一区,用于满足生产环境、适配环境、测试环境需要。分布式存储没有分区,所有节点形成一个全局的分布式存储池,但在使用时可按需划分指定容量的区域供不同用途使用[38]。这种云超算服务采用麒麟安全云系统实现虚拟化技术,将虚拟机资源远程推送给用户使用[39]。可通过互联网远程管理虚拟机资源,使高性能计算机云平台资源能够被更多人使用,超算的计算能力能够更好地推动社会各个领域发展。2017年OpenStack的第15个版本中,麒麟云团队在核心功能解决的Bug数,以及Commits的数量均进入全球前20,麒麟云的发展是非常迅速的,与开源社区紧密结合,贡献突出[40]。

3.5材料科学与工程

在材料科学与工程的研究中,量子力学、经典动力学、统计力学是三大基础且主要的研究方向。研究人员致力于材料参数的建模、多尺度平台开发和新材料的设计、开发和优化。

分子动力学模拟在材料科学、生物化学和生物物理学等领域得到了广泛的应用。分子动力学(MD)是研究分子和分子的物理运动的计算机模拟方法,它提供分子尺度上的微观取样。基于能量细化的辅助建模AMBER(AssistedModelBuildingwithEnergyRefinement)[41]是用于MD模拟的使用最广泛的软件包之一。然而,对于具有百万原子级的系统的AMBERMD模拟的速度仍然需要改进。彭绍亮等人[42]在单CPU上的细粒度OpenMP并行、单节点CPU/MIC并行优化和多节点多MIC协作并行加速方面进行了改进。在高性能计算机上实现AMBER的并行加速策略,与原程序相比,实现了25~33倍的最高加速比。同时,对于计算资源的限制,分子动力学软件GROMACS不能大规模地进行满意的操作。Wang等人[43]提出了一种利用卸载模式加速GROMACS的方法。为了提高GROMACS的效率,提出了异步化、数据重组和数组重用等一系列方法。在这种模式下,GROMACS可以与CPU和IntelXeonPHITM多个集成内核(MIC)协处理器同时有效地配置,充分利用高性能计算机资源。

材料辐照效应(Materialirradiationeffect)是使用核能的重要关键之一。然而,由于高通量辐照设施和进化过程知识的缺乏,此效应的利用并不好。在高性能计算的帮助下,Hu等人[44]提出了一种新的数据结构,用于大规模并行模拟金属材料在辐照环境下的演化。基于所提出的数据结构,开发了一种新的分子动力学软件——CrystalMD,并在高性能计算机上进行了二兆个原子模拟,对MD辐射效应研究的模拟规模进行了扩展。

3.6其他领域

近年来,随高性能计算的推广,政府部门对超级计算机的重视,旧产业转向新产业的变化及大量有高性能计算需求的企业对超级计算机的需求增大,超算人才培养初见成效[45]。在应用软件开发等推动下,高性能计算机的适用范围逐渐向更多领域渗透。

源于人工神经网络的研究深度学习作为人工智能的一个新研究领域,在模仿人脑的机制来解释如图像、声音和文本数据上有了很大进展。例如,卷积神经网络(CNN)能准确地对大型图像进行识别处理,然而CNN的训练密集程度很高,特别是对于大型具挑战性的任务,卷积层的参数数据量庞大。而高性能计算机的易访问、高峰值等性能使学术界和工业界都可以轻松访问相关平台,并可以在合理的时间内训练中等和较大规模的CNN。使用基于输入展开以将其投影为矩阵乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先进的CNN基础设施已可以在高性能计算机上进行部署和应用。

增强现实技术AR(AugmentedReality),将真实世界信息模拟至虚拟世界,让人随时产生真实感受。通过高性能计算机高效地实现算法,可以数字虚拟孕育“互联网+”新业态,开发虚拟试衣、模拟试驾等应用项目。