从基因组学到蛋白质组学
蛋白质组学是研究所有表达蛋白质功能的学科。过去几年间,有关蛋白质与蛋白质之间的相互作用、细胞器的组成、癌症患者蛋白质的活性成分以及蛋白质表达谱等 方面积累了大量的数据。但是,进一步地完善技术、组织国际蛋白质组学计划以及开放使用蛋白质组学数据迫切需要蛋白质组学发挥其应有的效力。
蛋白质组一词最先是用于描述基因组编码的一组蛋白质[1]。研究蛋白质组的科学称为蛋白质组学。现在蛋白质组学不仅包括细胞中的所有蛋白 质,而且包括所有的蛋白质亚型及其异构体、蛋白质之间的相互作用、蛋白质初级结构以及他们的高级结构的描述,几乎包括了后基因组学的所有内容。在这篇综述 里我们将以崭新的和高通量的观点,应用蛋白质组学全面理解蛋白质的生物化学。希望这种高通量的生物化学将在各个层面,为全面了解细胞的功能做出贡献。
蛋白质组学补充了其它功能基因组学方法,包括微阵列表达谱[2],细胞和生物体水平的系统表型谱[3,4],系统遗传学[5,6]和小分 子阵列[7]。通过生物信息学整合这些数据将产生全面的基因功能数据库,这将对蛋白质的特性和功能研究有巨大的参考价值,同时也是研究人员提出和验证假说 的有力工具。此外,大量的数据库对新出现的系统生物学也是十分重要的[8]。
蛋白质组学的挑战和方法
如果没有先前的基因组学的成果,蛋白质组学的研究是不可能的。基因组学提供可能的基因产物的蓝图,这些基因产物是蛋白质组学研究的核心内 容。虽然蛋白质组学的任务几乎是老生常谈了,但所面临的困难可以和最初基因组计划所面对的巨大而直接的挑战相提并论。不象DNA测序技术可以应用PCR和 自动测序技术,蛋白质组学必须面对各种不可回避的问题,如有限的、不断变化的标本资源、标本的降解、动态波动巨大(蛋白质丰度差异超过106倍)、翻译后 修饰的多样性、多种多样的组织来源、发育上的和时间上的特异性以及疾病和药物的干扰。虽然从定义上看蛋白组学可以产生直观的生物学结果,但所有这些困难致 使人们对全面的蛋白质组学计划产生了一种内在的压力,并经常将之看作令人有挫败感的练习。
在3月份的《Nature》上,5个重要的蛋白质组学研究的重点放在技术的发展和应用上。这些领域包括基于质谱的蛋白质组学、全蛋白质组 的生物化学分析、系统结构生物学和成像技术、蛋白质信息学和蛋白质组学的临床应用。很明显,这样的分类方法是有些主观的,不仅仅因为技术的突破经常在很多 科学前沿得到直接应用,更重要的是在深入了解蛋白质功能方面,经常出现需要联合应用不同的蛋白质组学的研究方法。
基于质谱方法的蛋白质组学
质谱学具有从不断增长的复杂混合物中分离出微量蛋白质的能力,这是推动蛋白质组学研究的主要力量。最初蛋白质组学研究的成效依赖于二维凝 胶电泳,然后用质谱鉴定蛋白质。这种方法受蛋白质浓度范围的限制,必须将标本中的蛋白质浓缩成最大丰度。质谱技术的快速发展已经转变到直接质谱分析,进一 步的改进将提高特异性、稳定性和数据处理的能力。
过去几年对酵母蛋白质相互作用组、疟原虫蛋白质组、细菌蛋白质组和不同细胞器的蛋白质组进行了部分分析。这些大量蛋白组学数据只代表生物 学和药物学进展的冰山一角。更巨大的挑战来源于蛋白质组是一个动态的,而不是一个静止的学科的事实。当初想在一次实验中测定全蛋白质组调控事件所做的努 力,已经转向酵母磷酸蛋白质组[9]和泛素介导的分解代谢组。想要获得真实的蛋白质组动力学和细胞反应的动态情况,需要更高通量和更加灵敏的检测方法。初 期不需要凝胶分析复杂混合物的方法在这方面起了重大的作用[10]。进一步的需求包括每种蛋白质的全部序列,样品前处理的各种方法以及翻译后修饰的蛋白质 的自动检测和识别的复杂的算法。系统生物学的目标是在整个系统水平来理解典型的细胞间相互作用[8,11],这也将需要更加可靠的定量方法。
基于阵列的蛋白质组学
许多已经建立的,快速的蛋白质组学研究平台补充了质谱法的不足。这些方法的先驱是Fields 改进的双杂交筛选法[12]。 不像直接的生物化学方法受蛋白质丰度的限制,双杂交法虽有假阳性的缺点,但它可以检测低丰度蛋白质之间极其微弱的相互作用。
最近,不同格式的蛋白质阵列有希望在蛋白质组水平快速检查蛋白质的活性。这些阵列是建立在重组蛋白基础上,或者是与蛋白质特异性作用的分 子,包括抗体、多肽和一些小分子[13]。从蛋白质阵列得到的信息可以了解蛋白质之间的相互作用,蛋白质修饰和酶的活性。目前存在的挑战是有效地结合 highend质谱到阵列上去。阵列分析方法也可以用于显示体内信息,例如,通过绿色荧光蛋白(GFP)信号系统分析蛋白质在细胞的定位,或者通过蛋白质 融合体之间的荧光共振能量转移到不同波长的GFP来分析蛋白质的相关性。最后,基于细胞和组织的阵列能够在另一层面上解释蛋白质的功能。
这些方法实际应用中的一个瓶颈,其实也是大多数系统方法的瓶颈,是应用已知全基因组cDNA捕获带有抗原决定位点的蛋白质复合体时,一直存在有效性不高的问题。
结构蛋白质组学
由Baumeister等撰写的综述完全超越蛋白质一级结构、丰度及活性的描述,系统地理解蛋白质的相互作用及其功能的结构基础。作者运 用文学上的比喻,令人信服地论证了全面描述细胞的行为必须结合结构信息,不仅仅是在全部蛋白质水平,而且包括所有蛋白质的复合体以及这些复合体在细胞内的 组织水平。所有这些结构学上的目标包括测量范围的跨度有几个数量级,需要一系列研究蛋白质结构的技术,从研究蛋白质的X射线晶体衍射技术和核磁共振技术 (NMR),到复杂的放大数百万倍的电子显微镜以及能看到整个细胞环境的高分辨率的X射线断层摄影。这些重复关于蛋白质组产量和灵敏度的论文涉及了每一个 研究结构的方法。Baumeister等建议新的解决方法甚至包括从晶体摄影中消除结晶。NMR和芯片对建立蛋白质相互作用的动力学模型是必要的, 这些相互作用很多是通过大量的非结构区所控制的[14]。
信息学
随着大量数据的产生, 信息学研究在许多蛋白质组学前沿显得十分重要。Boguski 和McIntosh强调了样品资料管理的重要性,和执行严格的标准及恰当的基因功能的注释[15]。十分重要的是软件的开发是与早期一致同意的文件编制相 联系的, 基于XML的定义和对词汇的控制,可以允许使用不同的工具交流原始数据。已经投入很大力量建立蛋白质相互作用数据库[16],系统生物学软件的基础结构 [17]应该建立在将来蛋白组学的发展之上。开发可靠的统计学方法以便从大量不完整的质谱数据中赋予蛋白质特性,对于将结果自动存入数据库是十分重要的, 这也是一个目前十分艰辛的操作和不断纠正错误的过程。从DNA微阵列数据分析得来的知识包括聚类,概略以及形式-匹配方法,应该可以移动到蛋白质组的分析 上[2]。令人受到鼓舞的是欧洲生物信息学研究院和人类蛋白质组学组织(HUPO)已经联合开始启动关于蛋白质间的相互作用和其他蛋白质组学数据的研究 (参看http://psidev.sourceforge.net/)。
临床蛋白质组学
蛋白组学对临床诊断和新药物研发产生了深刻的影响,HUPO总裁Sam Hanash在这方面已经有很好的综述。因为大多数药物的靶点是蛋白质,蛋白质组学研究将不可避免推动新药的发现、发展以及临床应用。蛋白组学全力履行其 任务的形式是受多因素影响的,不仅仅指在完成的不同时期应用不同技术平台上。
检测与疾病相关的蛋白质谱可以追溯到蛋白质组学发展的初期,当时二维凝胶电泳首次应用于临床检测。质谱技术现在已经能够在体液中同时检测 到数千种蛋白质和多肽,已经开始改变基于蛋白质的诊断学,这些成果已经被对癌症患者的回顾性研究所证实[18]。质谱仪具有坚固耐用和高通量特性,十分适 合于临床应用。带有确定诊断阅读器的蛋白质和抗体芯片也可能逐渐变得符合临床应用的要求。因为所有的临床界面,标准品的制备,贮存和注释均必须得到解决。
尽管在这个领域前进的步伐比开始想象的要慢,蛋白质组学将不可避免地加快新药的开发。使用当前先进的技术已经能够识别新的疾病特异性靶标,这些靶标大部分位于细胞表面。了解位于细胞表面的生物学网络知识有利于为初步选择适合的药物靶点提供理论基础。
直系同源(Orthogonalomics)
对所有高通量的研究方法包括蛋白质组学需要注意的是,大量的实验经常缺少重复性和严格的验证, 而这些恰恰是可靠的科学研究的根本。 但是,从各种不同物种而来的蛋白质组学数据之间或蛋白质组之间与其它全基因组数据之间的交集,经常允许进行相互验证。这个观点已经被最近分析酵母菌和人类 的核仁的结果验证。这些直接或间接的成果揭示了蛋白质之间相互作用的巨大网络, 其中许多影响核糖体的生物发生的保守过程[19]。对酵母细胞大小突变体(表型组学)和调控这些控制细胞大小基因的一组基因 (转录组学) 进行独立系统性分析的结果,揭示了在核糖体生物发生和其对细胞分裂的作用之间存在一种人们意想不到的调节关系[20]。
类似对相互作用组、表型组和转录组数据库的整合,已经应用于线虫胚系从而推导出一个新的调节网络[21]。联合应用生理学,表型和表达数 据库可以得到一些假说,否则只应用上述任何单一的方法则不会产生这些假说。即使只有有限的数据资源,也可以依据简单的参数做出猜测。例如,一种称为 ScanSite的算法,仅仅依据磷酸化物质的电泳质量和与PKB丰度一致的位点序列,就可以识别结节性硬化症复合体-1是与蛋白激酶B(PKB)在生理 学上相关联的底物[22]。最后,通过利用新的方法重新检测已知的复合体,经常可以得到很多新的信息。例如,已经着重研究的促进细胞分裂后期复合体的三种 新成分,最近已经通过多维质谱分析法找到[23]。
随着大量开始系统地将许多模式生物包括酵母菌、线虫、果蝇、斑马鱼、小鼠和人类的表型与缺失的基因功能之间进行联系,从联合应用大规模的 细胞生物学、转录和蛋白组学数据库而获得的认识必须经过整合而变得协同,因为研究的范围在扩大。最近,通过RNA干扰技术在组织培养细胞中系统地研究人类 基因组的方法快速采集表型数据[6],结合蛋白质组数据将大大加速功能研究的新发现。
将来的发展和挑战
人类基因组序列的巨大成功已经表明,更快速和更廉价这句话是任何大规模事业必然的道路。虽然离蛋白组学还很遥远,但这个华丽的语言被成倍 地运用于蛋白组学。就这个词的纯粹意思来说,蛋白质组就像地平线一样永远不可触及;更正确的说法是,蛋白质组学将以一种迄今还无法想象的方式与其他技术结 合,以便精确地描述细胞的特征。
以全部标准来评判, 当今的仪器手段还远远不是最佳的,在一定程度上是因为厂家还没有花费足够的时间制造出仪器及相关的完全适合于蛋白质分析的硬件。
以质谱为基础的蛋白质组学在使用中受到众多限制,因此在不久的将来仪器性能将有望大幅度提高。由于新一代蛋白质组学仪器的改进,从而有可 能监测许多有关的蛋白质翻译后修饰和复杂混合物中蛋白质的相互作用[24]。作为技术革新可以预计的一个例子是,通过实时分析复杂混合物中每一种蛋白质存 储的色谱信号,可以使蛋白质的产量和范围大幅度增长。
在单个实验室水平,由于质谱仪可以常规应用于生物学研究的各个方面,毫无疑问的是,灵敏的和可花费得起的小型质谱仪在这方面将有巨大的市场。
样品处理的自动化、选择性地计算蛋白质之间的相互作用和微小流动相使样品的损失减少到最小,这些是获得高质量蛋白质组进行质谱分析的全部因素。同样重要的是,适度地利用蛋白质的表达和抗体将提高蛋白质组学研究的速度和规模。
关于更为简单的模式生物的蛋白质组, 所有现成的蛋白质相互作用图谱远远未达到饱和。由于已知的蛋白质相互作用密度的提高,可验证的假说应该来源于不断增长的数据库,尤其是联合其他基因组的数 据库,包括预测蛋白质结构的数据库。一旦足够的动力学数据有利于建立细胞行为的原始模型,对模型的改进要求在众多的突变和药物治疗条件下,蛋白质分析具有 重复性。如果简单的Boolean网络模型是一个引子,那么在系统水平上研究蛋白质相互作用的网络必定产生一些令人惊讶的效果[25]。
所有这些网络信息必须是可被人们利用的格式。为了达到这个目的,大量的工作必须放在发展形象化工具上,包括和其他全基因组数据库的自动整合。
新技术还有很大的发展空间,许多有待改进的方面可能来自遭受信息超载之苦的其他领域。这样的例子包括将DNA阵列数据聚类的复杂工具和用颜色突出整个趋势的多变量的绘图表现形式[26],以及用于计算机游戏程序上的精巧的三维界面。
在临床上,深入分析少量疾病组织的蛋白质组将有利于诊断和治疗的监测,尤其是当预测的疾病模式从大量的临床数据中得到验证时。将磷酸化蛋 白质组学方法应用于临床标本可能最有希望获取大量信息和分辨细胞状况,这将有利于诊断、新药的研发以及阐明药物的作用机制。病原体宿主相互作用的蛋白质组 也应该成为新药作用的丰富的靶点。无论什么确切的形式,质谱测量法和蛋白质阵列技术平台必定会渗透到临床,代替价格更为昂贵、可靠性差的、传统的临床生物 化学分析方法。最后,刚出现的化学蛋白质组学不仅有利于发现许多药物的作用机制,而且有可能使无数失败的不明原因失去效应的小分子重新得到利用。
开放的蛋白质组学
蛋白质组学发展最常见的阻碍是提供给生物医学研究者个人的途径很有限或没有。虽然事实上所有的研究中心有某类质谱仪,但丢失标本、鉴定失 败和通量不足是很普遍的。从某种意义上说,这些问题代表了一种复杂技术的初期阶段;另外的原因是无力支付设备的高昂费用和缺乏训练有素的人员检查仪器。结 果大多数蛋白质组学的突破和原始数据仅仅来源于一些倾向于实验室的技术性工作。改善这种状况的任务就落在仪器制造厂商、蛋白质组学的领导者、基金会、学术 研究机构和个体用户身上。国家蛋白质组学中心也被提议作为一种确保可得到专家意见和仪器使用的途径[27]。
绘制和理解蛋白质组学各种表现方式方面可以从基因组序列协会得到借鉴。首先,假如整个生物医学界的参与是有意义的,则公众必须有权使用在 线的原始数据。与在基因组计划的危机关头发布的百慕大指导方针相似[28],制订的条例规定,对基本的蛋白质数据公众可以有权使用和不能申请专利将有利于 学术和产业机构的研究。这些数据应该包括蛋白质的一级结构、翻译后的修饰、蛋白质的定位以及蛋白质间相互作用的所有模式。
具有重要意义的一点是,大规模蛋白质组学研究应该是协调的,目的是避免重复和为基金会提供强有力的理性建议。这些基金会组织原则上愿意资 助蛋白质组计划,目的是获得象基因组计划那样丰厚的回报,但是需要向他们展示明确的目标和说明蛋白质组学如何为加速生物医学的发展建立基础。HUPO是有 重要协调作用的机构。HUPO已经宣布全世界的蛋白质组学研究的5个重要的目标:血浆蛋白质组学的定义;提议深入研究针对特殊类型细胞的蛋白质组学;建立 一个联合会生产全部人类蛋白质的抗体;发展新技术和建立信息学基础设施。在这个列表上我们将加上所有蛋白质一级结构的目录、绘制所有可以纯化的细胞器图 谱,以及为比较蛋白质组学和正在进行的整合功能基因组学计划而产生的模式生物的蛋白质相互作用图谱。
为了完成这个宏伟的计划,必须为蛋白质组学研究建立一个专门的基金库,类似于为人类和模式生物的基因组计划而建立的基金会,或者正在执行 的基金同样资助蛋白质组计划。既然知道全蛋白质组计划的花费是巨大的,因此学术界和产业界在方法学的发展、数据采集和项目调整方面尽可能合作对双方都有 利。最后,必须建立一种方法将全蛋白质组实验和许多个别生物学实验室的成果整合起来,发展和检测生物学模型。无论将来如何发展,蛋白质组学将对生物学和医 学学科产生巨大的回报。
参考文献
[1] Wilkins, M. R. et al. From proteins to proteomes: large scale protein identification by two-dimensional electrophoresis and amino acid analysis. Biotechnology ,1996,14: 61-65.
[2] Shoemaker, D. D. & Linsley, P. S. Recent developments in DNA microarrays. Curr. Opin. Microbiol,2002,5: 334-337.
[3] Giaever, G. et al. Functional profiling of the Saccharomyces cerevisiae genome. Nature , 2002,418:387-391.
[4] Gerlai, R. Phenomics: fiction or the future? Trends Neurosci, 2002 ,25:506-509.
[5] Tong, A. H. et al. Systematic genetic analysis with ordered arrays of yeast deletion mutants. Science , 2001, 294:2364-2368.
[6] Hannon, G. J. RNA interference. Nature, 2002,418:244-251.
[7] Kuruvilla, F. G., Shamji, A. F., Sternson, S. M., Hergenrother, P. J. & Schreiber, S. L. Dissecting glucose signalling with diversity-oriented synthesis and small-molecule microarrays. Nature , 2002,416: 653-657.
[8] Csete, M. E. & Doyle, J. C. Reverse engineering of biological complexity. Science,2002,295:1664-1669.
[9] Ficarro, S. B. et al. Phosphoproteome analysis by mass spectrometry and its application to Saccharomyces cerevisiae. Nature Biotechnol, 2002,20, 301-305.
[10]Liu, H., Lin, D. & Yates, J. R. III Multidimensional separations for protein/peptide analysis in the post-genomic era. Biotechniques , 2002,32:898-911.
[11]Ideker, T. et al. Integrated genomic and proteomic analyses of a systematically perturbed metabolic network. Science , 2001,292:929-934.
[12]Fields, S. & Song, O. A novel genetic system to detect protein-protein interactions. Nature, 1989,340:245-246.
[13]MacBeath, G. Protein microarrays and proteomics. Nature Genet,2002,32(Suppl.):526-532.
[14]Wright, P. E. & Dyson, H. J. Intrinsically unstructured proteins: re-assessing the protein structure-function paradigm. J. Mol. Biol, 1999 ,293:321-331.
[15]Ashburner, M. et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genet, 2000 ,25:25-29.
[16]Bader, G. D. & Hogue, W. V. C. in Genomics and Bioinformatics (ed. Sensen, C. W.) 399-413 (Wiley-VCH, Weinheim, 2001).
[17]Kitano, H. Systems biology: a brief overview. Science ,2002,295:1662-1664.
[18]Petricoin, E. F., Zoon, K. C., Kohn, E. C., Barrett, J. C. & Liotta, L. A. Clinical proteomics: translating benchside promise into bedside reality. Nature Rev. Drug Discov. , 2002,1: 683-695.
[19]Andersen, J. S. et al. Directed proteomic analysis of the human nucleolus. Curr. Biol, 2002 ,12:1-11.
[20]Jorgensen, P., Nishikawa, J. L., Breitkreutz, B. J. & Tyers, M. Systematic identification of pathways that couple cell growth and division in yeast. Science , 2002,297:395-400.
[21]Walhout, A. J. et al. Integrating interactome, phenome, and transcriptome mapping data for the C. elegans germline. Curr. Biol, 2002 ,12:1952-1958.
[22]Manning, B. D., Tee, A. R., Logsdon, M. N., Blenis, J. & Cantley, L. C. Identification of the tuberous sclerosis complex-2 tumor suppressor gene product tuberin as a target of the phosphoinositide 3-kinase/akt pathway. Mol. Cell , 2002,10:151-162.
[23]Yoon, H. J. et al. Proteomics analysis identifies new components of the fission and budding yeast anaphase-promoting complexes. Curr. Biol, 2002 ,12:2048-2054.
[24]Mann, M. & Jensen, O. N. Proteomic analysis of post-translational modifications. Nature Biotechnol. (in the press).
[25]Huang, S. & Ingber, D. E. Shape-dependent control of cell growth, differentiation, and apoptosis: switching between attractors in cell regulatory networks. Exp. Cell Res,2000, 261, 91-103.
[26]Ball, P. Data visualization: picture this. Nature ,2002,418:11-13.
[27]Aebersold, R. & Watts, J. D. The need for national centers for proteomics. Nature Biotechnol, 2002 ,20:651.
[28]Marshall, E. Bermuda rules: community spirit, with teeth. Science , 2001,291:1192.
Nature,2003,422:193-197.(张志译)
无知无忧,你好。我是从你在我的IBLOG留言出寻找到这里的,感谢你的留言。我是技术方面的菜鸟,有两个问题请教,我的BLOGSPOT被封闭后,也想假设一个应该叫“FTP”吧,这个技术很难吗,另外有免费的FTP空间吗,希望得到答案。多谢拉。你的博客专业内容虽然我不懂,但是页面设计很让人羡慕。
回复删除再次感谢。