前言

20世纪70年代初,Anfinsen提出蛋白质的氨基酸序列包含足够的信息决定其空间结构的假说,并因此获得诺贝尔奖。但是,一些研究者发现存在氨基酸序列相同但构象不同和构象相似而氨基酸序列相差显著的蛋白质。这说明氨基酸序列并不是决定蛋白质结构的充分条件,同时意味着除氨基酸序列以外的其他信息对蛋白质空间结构的形成也是非常重要的。但是这种信息到底储存在哪里?是通过什么途径来传递的?这些问题一直困扰着相关研究者们。如果我们能够找到mRNA除了编码氨基酸之外影响蛋白质结构的其他定性或定量结果,那就意味着我们找到了两者之间的一些联系,这是一项极具挑战性的工作。

如果除氨基酸之外确实还有一些影响蛋白质结构和功能的信息,这种信息很有可能存在于mRNA序列和结构中。但是,现有的报道中没有找到相关的定量描述。考虑到折叠速率包含一些蛋白质结构和功能的信息,那么蛋白质折叠速率与其相应mRNA序列之间的关系就会表明,蛋白质对应的mRNA序列除了编码氨基酸之外确实还携带一些影响蛋白质结构和功能的信息。而蛋白质折叠速率又与蛋白质结构有着非常密切的相关性。如果能找到有关mRNA序列和结构对蛋白质折叠速率影响的一些定量结果,也就意味着找到了mRNA序列和结构与蛋白质结构间相关性的定量结果。这是我们工作思路的出发点。

从最简单的单细胞生物到最高等的人类,其最基本最重要的组成物质是DNA、RNA和蛋白质,这些组成物质是生物体遗传信息的携带者。由于人类基因组计划的顺利实施以及各种后基因组计划的开展,人们获得了大量的生物分子数据。这些生物数据具有丰富的内涵,其背后隐藏着许多人类尚不清楚的生物学知识。利用数学、物理、化学等各种方法,通过大量数据分析来揭示生物分子数据中蕴含的生物信息是一项非常有意义的工作,也为我们的工作提供了研究方法。

基因组中mRNA序列被认为是一种遗传语言,它的词汇组成和语法结构中包含了绝大部分的遗传信息。作为遗传信息的使者,mRNA序列包含的遗传信息也绝非编码规则这一项信息,如密码子第三位点存在的自由度和mRNA序列中复杂的高级结构均是编码规则之外的信息。挖掘这些遗传信息的生物学功能是后基因组时代研究的主要任务。人们发现mRNA序列中存在非常复杂的回文结构分布,而且回文结构可能形成发夹结构和十字形结构并具有重要的生物学功能。

蛋白质是生命活动的主要承担者,是一类最重要的生物大分子,在生物体内占有特殊的地位,蛋白质的一级结构即肽链是没有生物活性的,只有折叠成一定的空间结构,才能具有生物活性。蛋白质的折叠就是指一个蛋白质从它的变性状态转变到它的特定生物学天然构象的过程。异常的蛋白质空间结构很可能导致其生物活性的降低、丧失,甚至会导致疾病。疯牛病、阿尔茨海默病等都是由蛋白质折叠异常引起的疾病。蛋白质折叠问题是分子生物学的核心问题之一,其中有很多谜团尚未解开。蛋白质折叠问题是生命科学领域的前沿课题之一,并且被列为“21世纪生物物理学”的重要课题之一,它是分子生物学中心法则尚未解决的一个重大生物学问题。基于蛋白质一级序列或mRNA预测蛋白质折叠并进一步预测其功能,是极富挑战性的工作。研究蛋白质折叠,尤其是折叠早期过程,即新生肽段的折叠过程是全面的最终阐明中心法则的一个根本问题,是蛋白质分子设计及蛋白质工程的需要,也是越来越多基因工程产物复性复活的需要,更是理解与错折叠相关的疾病起源的需要。人们正从不同角度入手来研究蛋白质的折叠问题。

蛋白质折叠问题非常复杂,具体可分解为两个问题:①蛋白质折叠的热力学(thermodynamics)问题,即什么是蛋白质折叠的驱动力?②折叠的动力学(kinetics)或折叠速率问题,即为什么新生或变性肽链可以迅速折叠成天然构象状态?这两个问题相辅相成,只有同时得到解决,才能彻底揭开蛋白质折叠之谜。我们一直重点关注蛋白质折叠速率问题。

目前,越来越多的研究者加入到蛋白质折叠速率的研究中,提出了诸多蛋白质折叠速率的影响因素,随之提出了一些蛋白质折叠速率的预测方法。但是,还有诸多影响因素,特别是基于蛋白质一级序列的一些因素尚未提出,蛋白质折叠速率的预测精度尚待提高。另外,人们普遍认为决定蛋白质折叠速率的因素主要来自蛋白质的氨基酸序列和各级结构以及环境和温度。虽然有关于氨基酸序列包含了决定蛋白质三维结构全部信息的假说,但决定正常功能蛋白质信息的组分和来源是不完善的,也是非常复杂的。我们坚信这些信息的一部分来自核酸序列,并将提取或定义刻画mRNA特征的信息参数,探讨它们对蛋白质折叠速率的影响。我们认为,决定蛋白质折叠速率的信息还来自mRNA序列,它们在调节蛋白质折叠过程中起着重要的作用。

本书大部分内容是笔者及其团队近几年来的研究工作成果。本研究分析了蛋白质氨基酸序列的特征,以期从中挖掘蛋白质折叠速率的影响因素,指出mRNA序列中复杂的二级结构、同义密码子使用、回文结构等所包含的信息是影响mRNA输运、基因表达调控乃至蛋白质结构的重要根源之一。通过分析mRNA序列这种遗传语言的词汇组成、语法结构信息、同义密码子使用偏好以及回文结构、二级结构的组成和分布,研究它们对相应蛋白质折叠速率的影响,从而挖掘它们蕴含的新的生物学意义。笔者期望通过这些研究工作推进相关学者对mRNA序列以及蛋白质折叠等生物过程的认识,并为青年学者提供研究思路和方法。

感谢为本书研究成果共同奋斗过的几位学生,感谢上海交通大学出版社杨迎春博士对本书的修改和指正,感谢内蒙古大学李宏教授的指导,感谢内蒙古自然科学基金(2016MS0362)对本书的资助。感谢内蒙古师范大学的领导和老师们对我学习的支持和鼓励。感谢我的家人对我的支持和关心!非常感谢我的父母和姐姐,他们始终鼓励我、支持我,帮我做生活琐事,让我有更多的时间投入到科研工作中。感谢我的弟弟和弟妹在英文写作上的有益帮助和支持。感谢我的丈夫和女儿,是他们的爱给予我无穷的动力和战胜困难的勇气。

书中存在的不足与缺点,恳请读者批评和指正。