中国科技术语

• 新科技·新概念 • 上一篇    

生物信息学

丁达夫   

  1. 中国科学院上海生命科学院生物化学与细胞生物学研究所 200031
  • 出版日期:2001-09-15 发布日期:2001-09-15

Bioinformatics

Ding Dafu   

  • Online:2001-09-15 Published:2001-09-15

摘要: 生物信息学(Bioinformatics)是一门生物学与信息学交叉而成的年轻学科,旨在研究生物系统与生物过程的信息量与信息流,以便支持人口与健康、农业生产、创新材料和资源环境等领域的研发计划。其中基因组信息学(genome informatics)、结构生物信息学(Structural Bioinformatics)和神经信息学(Neuroinformatics)是较热门的分支。生物信息学由数据库、应用软件和因特网三大要素组成。
20世纪60年代,蛋白质氨基酸序列和蛋白质三维晶体结构测定成功后,出现存储与研究蛋白质序列信息与结构信息的工作,像美国女科学家Dayhoff建立了第一个分子生物学数据库“Atlas of protein sequence and structure”,亦即现今数据库PIR的前身;Zuckerkandl与Pauling提出运用蛋白质序列推断生物种族的进化历史以及Anfinsen根据核酸酶再折叠试验提出“氨基酸序列决定它的三维结构”原理。到70年代核酸序列测定已获成功,特别是Sanger等人开始病毒基因组的测序工作,吸引了众多计算机科学家、数学家和物理学家加盟,去实现数据在线采集与建立数据库以及数据检索、处理、分析、显示和流通等目的。经过近十年的努力,取得一批崭新成果,分别收录于1982年、1984年和1986年的《核酸研究》(Nucleic Acid Research)的特刊中。随后蛋白质序列库PIR与SwissProt,核酸序列库GenBank与EMBL以及蛋白质结构库相继出台服务。以上计算分子生物学工作和数据库建设为90年代诞生生物信息学准备了科技条件。1986年美国科学家Dulbecco在《科学》(Science)上发表题为《癌症研究的转折点——测定人类基因组序列》的文章,在科技界引起了强烈反应。经过激烈的辩论,终于在1990年公布了美国的人类基因组计划,随后形成国际人类基因组计划。在它的第一个五年计划中,第三项目标是基因组信息学,要求研发有效的数据库、应用软件和网络传输等信息技术,来支撑大规模图谱与测序以及诠释基因组信息。同年,召开了第一届国际生物信息学会议。在第二届国际会议上正式使用Bioinformatics一词。到2001年已是第10届会议,会议内容涉及序列和结构数据库、基因识别、基因组比较、基因组功能分析、DNA芯片信息学、分子进化和蛋白质组学等方面。还有每年一次的计算分子生物学会议,像国际计算分子生物学会议(RECOMB),生物计算太平洋会议和分子生物学智能系统国际会议(ISMB)等,是国际生物信息学界的盛会。
我国的生物信息学工作是逐步地发展起来的。20世纪80年代初仅在中国科学院生物化学研究所与生物物理研究所和内蒙古大学物理系艰难地开展一些计算分子生物学的工作,像RNA二级结构预测、分子动力学、核酸序列的统计分析和蛋白质二级结构预测以及精神分裂症的脑复杂度分析等。至1986年,国家“863计划”支持几个单位用计算生物学实施蛋白质工程,如中国科学院的生物化学所、生物物理所和药物所,以及北京大学化学系和中国科大生物系。1990年这些单位率先开展生物信息学研究工作和实施相应的博士和博士后培养计划。1992年中国生物物理学会召开以“蛋白质工程、基因组分析与非线性生物学”为题的全国首届生物信息学会议,比首届国际生物信息学会议仅晚2年,但没有引起管理层和科技界注意。随后,北京大学化学系与生物系也分别开放蛋白质结构库(PDB)和欧洲生物信息学研究所(EBI)映象数据库服务。几年后,国际“基因组计划”变得十分火热。国内随即成立中国科学院国家基因研究中心和中国人类基因组南、北研究中心,分别负责“水稻基因组计划”和“人类基因组计划”。其中,中国科学院遗传所的人类基因组中心异军突起,克服重重困难于1999年9月代表中国承担国际人类基因组计划中1%的任务,即3号染色体短臂上的一个约30MB区域的测序。它成为中国各个基因组项目中最具影响和实际产出最明确的主要部分。由此,生物信息学顿时成为公众宠儿,科技界角逐的领域。
除此之外,1993年美国国立健康研究院(NIH)宣布实施“人脑计划”。在头五年中主要发展神经信息学(Nuroinformatics),并于2000年6月在《自然》(Nature)杂志发文提议建立国际神经信息网络。国内与此差距甚大,但仍有积极响应。
人类基因组计划的工作方式在生物领域中是前所未有的,采用了工业化模式的大科学工程。生物信息学解决了由此产生的海量信息的采集、存储、处理、共享、流通、服务和开发等挑战性问题。至今即将完成或已经完成测序的有人、褐鼠、黑腹果蝇、秀丽线虫、拟南芥菜、水稻、啤酒酵母等真核生物以及近百种微生物。其中重大的成就有:
1.整基因组的测序原理和集装方案的提出和实行。从20世纪70年代简单病毒基因组测序开始到如今实施整基因组测序和集装,历经了整整20年的努力。
2.从集装成的基因组序列预测基因,提示蛋白质功能,结构与功能分类,最后构成面向对象的数据库(ACEDB),无不依赖于生物信息学的支撑。
3.后基因组的发展,如结构基因组学,功能基因组学,蛋白质组学、疾病基因组学,药物基因组学和环境基因组学等,更离不开高效、灵敏和准确的生物信息学。其中阵列信号检测(如DNA/Protein chip)的统计分析和众多基因组间的平行比较是典型的例子。
与国际上生物信息学的重大成就相比,我国的研究呈现三种状况:一是序列基因组学(图谱与测序)中所用的生物信息科技(软硬件)多半从国外移植和拷贝;二是依靠国外生物信息中心(例如EBI和NCBI等)建立北京大学生物数据映象中心;三是中国生物信息学的本土基础力量较薄弱。尽管如此,仍取得了一些好的成果。这些成果包括:
1.中国科技大学施蕴渝院士的研究组成功地发展了分子动力学,且用于蛋白质工程。尤其她将分子动力学和量子化学程序结合用来模拟酶促反应,是国际上少数成功事例之一。
2.应用序列同源性搜索和基因电子克隆技术大大加快了新基因的发现。例如夏家辉院士的研究组发现了遗传性高频耳聋的疾病基因以及克隆了新的蛋白质激酶基因DyRk3和识别了人的auxilin基因。
3.中国科学院生物化学研究所丁达夫研究组根据分子生物学的序列、结构和功能的基础关系在三个方面得到了好结果:① 从序列模建蛋白质三维结构。其中关键一步是序列—结构联配,在国际上是较早实行者之一。② 蛋白质分子设计。其中创新之处是氨基酸序列选择、侧链构象安装和主链骨架柔性的平行组合筛选,以及在小分子骨架上嫁接功能活性区。③ 基因组功能预测。其特点是发展了进化踪迹法,比通常的同源搜索方法有较高的正确率,且可延拓到细胞生化功能(代谢途径与调控网络)的预测。
4.另外,中国科学院生物物理研究所陈润生研究组发现基因组的Junk DNA序列(即不编码基因的DNA序列)可能存在特异的编码方法,且与基因组调控网络关联。还有,中国科学院昆明动物所刘次全研究组,北京大学来鲁华研究组,以及内蒙古大学罗辽复研究组在结构生物信息学和基因组统计分析方面都有显著的成就。
今年二月份《自然》和《科学》分别公布了国际人类基因组联合体和Celera基因组公司的人基因组测序结果。他们都认为这只是破解生命奥秘的良好开端,而不是完满的结束,基因组功能是永恒的主题。而且提出了一些实质性的问题,例如:
1.基因组复杂性。虽然人和大猩猩的基因组仅差1%~2%,但是他们的基因组表达及其调控乃至整体行为却有很大差异。基因组复杂性同基因数、神经元数和细胞类型数没有直接关联。有人提出生化网络(代谢和调控)的复杂性才是基因组复杂性的表现。
2.基因表达图谱(像DNA chip)可揭示整体细胞基因表达信息,是基因组功能分析方面的主要进展。然而细胞或组织中的mRNA丰度与蛋白质丰度的统计关联是不显著的(在人肝中0.48,在酶中小于0.4),因此基因组的后翻译修饰及其与环境的相互作用(epigenetics)对于理解生命的活动是不可缺少的,从而必须开展蛋白质组学和环境基因组学的研究计划,药物基因组学才能有较大的发展。
毫无疑问,面对这些巨大系统工程,生物信息学看到的既有挑战又有机遇。