1.5 经验分布函数_统计学习理论与方法：R语言版-QQ阅读男生历史网

书名：统计学习理论与方法：R语言版
作者名：左飞
本章字数：850字
更新时间：2021-04-01 19:25:34

1.5　经验分布函数

设（X₁，X₂，…，X_n）是总体X的一个样本。如果是关于样本（X₁，X₂，…，X_n）的函数并满足如下条件：它总是取样本观察值（x₁，x₂，…，x_n）按从小到大排序后第i个值为自己的观测值。那么就称，，…为顺序统计量。顺序统计量可以简记为

特别地

称和分别为样本的最小值和最大值。并称为样本的极差。

此外，还可以定义

为样本的中位数。

基于顺序统计量，我们就可以来讨论经验分布函数（Empirical Distribution Functions，EDF）当概念了。设x₁，x₂，…，x_n是总体X的一组容量为n的样本观测值，将它们按从小到大的顺序重新排列为，，…，对于任意实数x，定义函数

则称F_n（x）为总体X的经验分布函数。它还可以简记为，其中^∗｛x₁，x₂，…，x_n｝表示x₁，x₂，…，x_n中不大于x的个数。

另外一种常见的表示形式为

其中，I是指示函数（indicator function），即

因此，求经验分布函数F_n（x）在一点x处的值，只要求出随机变量X的n个观测值x₁，x₂，…，x_n中小于或等于x的个数，再除以观测次数n即可。由此可见，F_n（x）就是在n次重复独立实验中事件｛X≤x｝出现的频率。

图1-9　经验分布函数的图形

经验分布函数F_n（x）的图形（如图1-9所示）是一条呈跳跃上升的阶梯形曲线。如果样本观测值x₁，x₂，…，x_n中没有重复的数值，则每一跳跃为1/n，若有重复l次的值，则按1/n的l倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F（x）的图形。若把经验分布函数的图形连成折线，那么它实际就是累积频率直方图的上边。这和概率分布函数的性质是一致的。

根据大数定理可知，当试验次数增大时，事件的频率稳定于概率。那么，当试验次数增大时，表示事件｛X≤x｝出现频率的经验分布函数是否接近于事件｛X≤x｝出现概率的总体分布函数呢？这个问题可由格利文科定理（Glivenko Theorem）来回答。

格利文科定理：设总体X的分布函数为F（x），经验分布函数为F_n（x），则有

该定理揭示了总体X的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时，从样本算得的经验分布函数F_n（x）与总体分布函数F（x）相差的最大值也可以足够小，这就是用样本来推断总体的数学依据。