2.3 mRNA对蛋白质结构的影响

2.3.1 mRNA对蛋白质结构影响的必然性分析

分子生物学“中心法则”揭示了遗传信息从DNA到RNA再到蛋白质的传递过程,在此过程中,通过翻译,由成熟的mRNA序列得到相应的蛋白质氨基酸序列。除了这种翻译信息之外,mRNA序列中是否携带决定蛋白质构象的更为重要的因素呢?1973年,Anfinsen[34]等提出一个原理认为蛋白质的氨基酸序列包含了决定蛋白质结构的全部信息。但是,随后的研究者发现存在着氨基酸序列相同但构象不同的蛋白质,以及构象相似而氨基酸序列相差显著的蛋白质[35]。说明氨基酸序列并不是决定蛋白质空间结构的充分条件,意味着除氨基酸序列以外的其他信息对蛋白质空间结构的形成也是重要的。这种信息很有可能存在于mRNA的序列和结构中。在后来的工作中,人们发现了蛋白质的结构与mRNA序列信息之间的相关性。相关的工作主要是从以下几个方面开展的。

第一,核糖体在mRNA上翻译时的速率会影响蛋白质的折叠速率,从而影响蛋白质的各级结构及其最终的功能[36][37]。Purvis和Komar在1987年和1988年相继提出蛋白质的折叠可能发生在共翻译折叠的停顿区,这些慢翻译速度区可能作为蛋白质折叠的内在标点符号[36][37]。现在人们普遍认为许多蛋白质在核糖体上合成时,蛋白质的折叠就开始了,由于受到同义密码子使用偏好的调节作用及密码子与反密码子的相互作用、密码子的上下文关系以及mRNA不同区域的二级结构等因素的影响,核糖体在mRNA上翻译时的速率是不均匀的。

第二,蛋白质的结构与功能可能与mRNA的同义密码子使用相关。同义密码子的使用并不影响编码氨基酸序列,但与基因表达水平相关。不同物种的基因在同义密码子使用上存在着明显的偏性。近年来,人们又发现不同功能的基因,其同义密码子使用偏性也存在较大的差异[38]。遗传密码的简并性主要是与密码子的第三位点有关,这使得编码蛋白质的核酸序列有更大的自由度,允许mRNA携带除编码相应氨基酸以外的更大信息量。所以,mRNA的同义密码子使用应该是影响蛋白质结构与功能的重要因素之一。

第三,蛋白质二级结构与mRNA序列信息之间具有显著相关性。单链mRNA通过互补片段的相互作用能够形成局部二级结构。蛋白质结构域以及规则二级结构单元的共翻译折叠对促进蛋白质最终构象的形成是极其重要的[39]。mRNA的二级结构由茎区、环区以及单链区组成,核糖体在阅读mRNA茎区时,需要克服较高的自由能障碍使配对区解链,所以翻译速率要比单链区与环区慢一些。因此,mRNA的结构可能影响翻译速率,进而影响蛋白质的折叠以及蛋白质结构的形成。如:Thanarg和Patrick统计了大肠杆菌的54个蛋白质的密码子使用频率,并与这54个蛋白质的二级结构区域进行比较后得出结论:蛋白质的螺旋构象区偏向由mRNA快翻译区编码,而慢翻译区通常编码β折叠以及无规则卷曲[40]。进一步研究后又发现,蛋白质结构域和规则二级结构单元之间的连接肽大多由mRNA的慢翻译区编码,且组成连接肽的氨基酸会在核糖体肽通道中堆积,使新生肽链有机会进一步折叠。另外,把蛋白质的二级结构分为规则结构(α螺旋和β折叠)和无规则结构(coil)后,发现它们在mRNA水平上有比较显著的差异[41],蛋白质二级结构与密码子tRNA拷贝数,以及stem/loop结构有着显著的相关性[42]。这些研究均表明mRNA二级结构与蛋白质空间结构之间存在某种相关性。

种种迹象表明,mRNA除了翻译信息之外,对蛋白质功能和结构的影响是非常重要的。但是mRNA对蛋白质的影响信息是在什么时候或通过什么途径传递到蛋白质等问题至今尚未明确。我们分析,在此问题上研究者遇到的困难是:①很难找到一个合适的能刻画蛋白质结构及其变化的参量,同时也很难找到一个包含很多mRNA信息的参量。②mRNA序列对蛋白质结构的影响相对氨基酸序列等其他参量来说比较小,所以直接分析它们之间的关系很难得到一些合理的结论。

通过对回文结构及蛋白质折叠速率研究进程的调研,我们发现回文结构具有分布广泛,既携带mRNA序列的信息,又携带mRNA二级结构的信息等特点。同时,蛋白质的mRNA序列作为一种遗传语言,其中的信息必定储存在这种遗传语言的词汇组成和语法结构里,而蛋白质折叠速率与蛋白质结构又有着非常强的相关性。所以,我们把蛋白质折叠速率作为蛋白质结构的代表参量,把蛋白质mRNA序列中的回文结构、RNA二级结构以及遗传语言的词汇组成和语法结构信息作为mRNA的代表参量,并且研究它们之间的相关性,如果能找到蛋白质折叠速率与mRNA序列参量之间的相关性,那就意味着找到了mRNA与蛋白质结构之间的某种关联。这必将对进一步研究mRNA对蛋白质结构除了翻译信息之外的影响提供有效的方法和思路。

2.3.2 数据获得方法

1)蛋白质二级结构的获得

考虑到不同二级结构的蛋白质折叠与不同氨基酸属性相关,所以在研究mRNA序列对蛋白质折叠的影响时,首先需要获得蛋白质序列中不同的二级结构片段。预测蛋白质二级结构的方法和软件很多,由于HNN只是根据片段的局部信息来预测其二级结构的,所以我们选择HNN在线软件来获得文章中的α螺旋和β折叠片段。HNN是在Qian和Sejnowski[43]所提出的较权威的预测方法的基础上进行改进的一种方法,它的网址是http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl。因为对于α螺旋来讲,它一圈的平均长度为3.6个碱基,所以我们选择α螺旋和β折叠片段的最小长度均为4个碱基,忽略掉小于4个碱基的片段。

2)蛋白质折叠速率实验值的获得

在研究蛋白质编码序列对其折叠速率的影响以及研究蛋白质折叠速率与其编码序列中同义密码子使用之间相关性的问题中,首先需要已知各蛋白质折叠速率的实验值,我们所研究的蛋白质的折叠速率的实验值取自蛋白质折叠速率研究的相关实验工作。

3)蛋白质折叠速率理论值的计算

对未知折叠速率的氨基酸片段的相关研究中,需要计算氨基酸片段的折叠速率。我们计算中采用的是Gromiha提供的折叠速率预测模型[22]

4)蛋白质编码序列的获得

蛋白质序列取自PDB库,蛋白质相对应的编码序列取自EMBL库,两个数据库均有各自的命名方式,在PDB库中没有提供与EMBL库的交叉引用。因此,我们只能通过其他提供交叉引用的数据库来建立PDB库和EMBL库之间的联系。具体做法如下:首先在PDB库中找到蛋白质的“structure summary page”;第二,通过它们的“外部连接项”找到该蛋白质在“OCA Browser”中的位置;第三,通过OCA的序列起源信息找到该蛋白质在SWISS-PROT中的位置;最后,利用SWISS-PROT库提供的与EMBL的交叉引用找到该蛋白质的编码序列。

2.3.3 数据分析方法

生物统计学[44-46]为我们的相关研究提供了很好的方法,我们的工作中主要应用了如下几种统计学方法。

1)相关分析

相关分析是生物统计学中一种重要的统计学方法,它是考察两个或多个数据型变量之间相互变化关系的统计分析方法,其重要任务是研究变量之间关系的密切程度,用相关系数来衡量变量之间的密切程度。相关系数的计算公式如下:

式中,分别为变量X和Y的平均值,r的取值范围是[-1,+1]。若r为正数,说明两变量呈正相关,即X和Y有相同的变化趋势;若r为负数,说明两变量呈负相关,即X和Y有相反的变化趋势。由样本得到的相关系数是一个统计量,由于可能存在抽样误差,样本相关系数的大小并不能直接说明总体线形相关关系是否确实存在,要通过显著性检验才能对此做出统计推断。建立假设如下。

零假设H0:ρ=0,备择假设HA:ρ≠0。

对此假设可以用3种方法检验,即F检验、t检验和利用相关系数临界值表检验。

2)偏相关分析

当多个变量之间彼此互相影响时,其中两个变量之间的相关性要受到其他变量的影响,因而,这时变量之间的两两简单相关系数并不能反映两个变量之间的真正关系。只有在其他变量保持不变的条件下,计算该两变量之间的相关系数才有意义。这样的相关称为偏相关。设有m个变量,首先计算它们之间两两简单相关系数,并将这些相关系数列在下列矩阵中:

其逆矩阵为

偏相关系数rij·

3)均数差异显著性检验

由于在我们研究的实际问题中,总体方差是未知的,所以采用t检验。

式中,为样本的平均数,n为样本含量,S为样本标准差,μ为样本总体均数。这一统计量不再服从标准正态分布,而是服从n-1的t分布。

t分布与标准正态分布相似,也是对称分布,它关于t=0对称,只有一个峰值,峰值在t=0处,分布曲线受自由度影响,自由度越小,离散程度越大。统计量服从自由度为n-1的t分布,其临界值要由t分布的分布数表查得。

4)卡方检验

卡方检验(χ2检验)主要有3种用途,一个样本方差的同质性检验、适合性检验和独立性检验。卡方值的计算公式如下:

式中,χ2为样本的卡方值,O为实际观测值,E为理论推算值。χ2的取值范围是[0,∞],实际上其符合程度由χ2概率决定。由χ2值表可知,χ2值与概率成反比,χ2值越小,概率值越大;χ2值越大,概率值越小。χ2检验的步骤如下:

(1)提出无效假设H0,同时给出相应的备择假设HA

(2)确定显著性水平α,一般可确定为0.05或0.01。

(3)利用式(2-14)计算χ2值。

(4)进行统计推断,从附表中查出χ2α值,如果实际χ2>χ2α,表明p>α,应接受H0,否定HA,说明在α显著标准下理论值与实验值之间的相关性不显著;如果实际χ2<χ2α,表明p<α,应否定H0,接受HA,说明在α显著标准下理论值与实验值之间的相关性是显著的。

5)多元线性回归分析

多元线形回归是研究一个变量(因变量)对其他两个或两个以上变量的线性回归关系。多元线形回归的数学模型如下:

式中,Y为因变量,X1,X2,…,Xm为m个自变量,e为随机误差。

多元回归方程的显著性检验用F检验方法。

6)总体方差分析

为了度量变量的变异程度,可以用各观测值离均差的大小来表示,对于样本来说,其样本方差定义为

式中,s2为样本方差,x为样本的观测值,为样本的平均值,N为样本容量。

对于总体,其样本方差的定义为

式中,σ2为总体方差,x为样本的观测值,μ为该总体算术平均值,N为样本容量。