1.2 随机变量数字特征_统计学习理论与方法：R语言版-QQ阅读历史男生网

书名：统计学习理论与方法：R语言版
作者名：左飞
本章字数：2803字
更新时间：2025-02-20 19:35:23

1.2　随机变量数字特征

随机变量的累积分布函数、离散型随机变量的概率质量函数或者连续型随机变量的概率密度函数都可以较为完整地对随机变量加以描述。除此之外，一些常数也可以被用来描述随机变量的某一特征，而且在实际应用中，人们往往对这些常数更感兴趣。由随机变量的分布所确定的，能刻画随机变量某一方面特征的常数被称为随机变量的数字特征。

1.2.1　期望

概率论中一个非常重要的概念就是随机变量的期望。如果X是一个离散型随机变量，并具有概率质量函数

p（x_k）=P｛X=x_k｝，　k=1，2，…

如果级数

绝对收敛，则称上述级数的和为X的期望，记为E［X］，即

换言之，X的期望就是X所有可能取值的一个加权平均，每个值的权重就是X取该值的概率。

如果X是一个连续型随机变量，其概率密度函数为f（x），若积分

绝对收敛，则称上述积分的值为随机变量X的数学期望，记为E（X）。即

定理：设Y是随机变量X的函数，Y=g（X），g是连续函数。如果X是离散型随机变量，它的概率质量函数为p（x_k）=P｛X=x_k｝，k=1，2，…，若

绝对收敛，则有

如果X是连续型随机变量，它的概率密度函数为f（x），若

绝对收敛，则有

该定理的重要意义在于当求E（Y）时，不必算出Y的概率质量函数（或概率密度函数），而只需要利用X的概率质量函数（或概率密度函数）即可。我们不具体给出该定理的证明，但由此定理可得如下推论。

推论：若a和b是常数，则E［aX+b］=aE［X］+b。

证明：（此处仅证明离散的情况，连续的情况与此类似）

于是推论得证。

1.2.2　方差

方差（variance）是用来度量随机变量和其数学期望之间偏离程度的量。

定义：设X是一个随机变量，X的期望μ=E（X），若E［（X-μ）²］存在，则称E［（X-μ）²］为X的方差，记为D（X）或var（X），即

D（X）=var（X）=E｛［X-E（X）］²｝

在应用上还引入量，记为σ（X），称为标准差或均方差。

随机变量的方差是刻画随机变量相对于期望值的散布程度的一个度量。下面导出var（X）的另一公式

即

var（X）=E［X²］-（E［X］）²

可见，X的方差等于X²的期望减去X期望的平方。这也是实际应用中最方便的计算方差的方法。而且上述结论对于连续型随机变量的方差也成立。

最后，给出关于方差的几个重要性质。

设C是常数，则D（C）=0；
设X是随机变量，C是常数，则有

D（CX）=C²D（X），　D（X+C）=D（X）

设X、Y是两个随机变量，则有

D（X+Y）=D（X）+D（Y）+2E｛［X-E（X）］［Y-E（Y）］｝

特别地，如果X、Y彼此独立，则有

D（X+Y）=D（X）+D（Y）

这一性质还可以推广到任意有限多个相互独立的随机变量之和的情况。

D（X）=0的充要条件是X以概率1取常数E（X），即

P｛X=E（X）｝=1

前三个性质请读者自行证明，最后一个性质的证明我们将在本章的后续篇幅中给出。

设随机变量X具有数学期望E（X）=μ，方差D（X）=σ²≠0，记

则X^∗的数学期望为0，方差为1，并称X^∗为X的标准化变量。

证明：

根据上一节最后给出的结论，若，其中i=1，2，…，n，且相互独立，则它们的线性组合：C₁X₁+C₂X₂+…+C_nX_n，仍服从正态分布，其中C₁，C₂，…，C_n是不全为0的常数。于是，由数学期望和方差的性质可知

1.2.3　矩与矩母函数

随机变量X的期望E［X］也称为X的均值或者一阶矩（Moment），此外，方差D（X）是X的二阶中心矩。更广泛地，我们有如下概念：

若E［X^k］存在，k=1，2，…，则称其为X的k阶原点矩，简称k阶矩。根据之前给出的定理，亦可知

若E｛［X-E（X）］^k｝存在，其中k=2，3，…，则称其为X的k阶中心矩。

概率论中不仅有中心矩，事实上还有其他形式的矩。下面总结了不同的“矩”的定义。设X，Y是两个随机变量，则

（1）若E（X^k），k=1，2，…存在，则称它为X的k阶原点矩，记为v_k=E（X^k）。

（2）若E｛［X-E（X）］^k｝，k=1，2，…存在，则称它为X的k阶中心矩，记为μ_k=E［X-E（X）］^k。

（3）若E（X^kY^l），k，l=1，2，…存在，则称它为X，Y的k+l阶混合原点矩。

（4）若E｛［X-E（X）］^k［Y-E（Y）］^l｝，k，l=1，2，…存在，则称它为X，Y的k+l阶混合中心矩。

所以，数学期望、方程、协方差都是矩，是特殊的矩。

有了矩的概念之后，还需要知道矩母函数（Moment-Generating Function，MGF）的定义，后面在解释中央极限定理的证明时，还会遇到它。

在概率论中，随机变量的矩母函数是描述其概率分布的一种可选方式。随机变量X的矩母函数定义为

前提是这个期望值存在。而且事实上，矩母函数确实并非一直都存在。

根据上面的定义，还可知道，如果X服从离散分布，其概率质量函数为p（x），则

如果X服从连续分布，其概率密度函数为p（x），则

矩母函数之所以称为矩母函数，就在于通过它的确可以生成随机变量的各阶矩。根据麦克劳林公式，有

因此有

对于上式逐次求导并计算t=0点的值就会得到

最后，作为一个例子，我们来讨论正态分布的矩母函数。令Z为标准正态随机变量，则有

因此，标准正态随机变量的矩母函数为。对于一般的正态随机变量，只需做线性变换X=μ+σZ，其中μ和σ分别是Z的期望和标准差。此时可得

1.2.4　协方差与协方差矩阵

前面谈到，方差是用来度量随机变量和其数学期望之间偏离程度的量。随机变量与其数学期望之间的偏离其实就是误差。所以方差也可以认为是描述一个随机变量内部误差的统计量。与此相对应地，协方差（Covariance）是一种用来度量两个随机变量之总体误差的统计量。

更为正式的表述应该为：设（X，Y）是二维随机变量，则称E｛［X-E（X）］［Y-E（Y）］｝为随机变量X与Y的协方差，记为cov（X，Y），即

cov（X，Y）=E｛［X-E（X）］［Y-E（Y）］｝

协方差表示的是两个变量的总体的误差。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

与协方差息息相关的另外一个概念是相关系数（或称标准协方差），它的定义为：设（X，Y）是二维随机变量，若cov（X，Y），D（X），D（Y）都存在，且D（X）＞0，D（Y）＞0，则称ρ_XY为随机变量X与Y的相关系数，即

还可以证明-1≤ρ_XY≤1。

如果协方差的结果为正值，则说明两者是正相关的，结果为负值就说明负相关的，如果结果为0，也就是统计上说的“相互独立”，即两者不相关。另外，从协方差的定义上我们也可以看出一些显而易见的性质，如

cov（X，X）=D（X）
cov（X，Y）=cov（Y，X）

显然第一个性质其实就表明，方差是协方差的一种特殊情况，即当两个变量是相同的情况。

两个随机变量之间的关系可以用一个协方差来表示。对于由n个随机变量组成的一个向量，我们想知道其中每对随机变量之间的关系，就会涉及多个协方差。协方差多了就自然会想到用矩阵形式来表示，也就是协方差矩阵。

设n维随机变量（X₁，…，X_n）的二阶中心矩存在，记为

c_ij=cov（X_i，Y_j）=E｛［X_i-E（X_i）］［Y_j-E（Y_j）］｝，i，j=1，2，…，n

则称矩阵

为n维随机变量（X₁，…，X_n）的协方差矩阵。