第8章 二项型和三项型指数曲线模型的智能选择

8.1 问题与数据

【例8-1】 内容同例7-1资料。假设该多室模型药物的隔室模型未知,试拟合其“药 时”曲线回归方程。

8.2 分析与解答

由于药物的隔室模型未知,故考虑对该资料同时拟合二项型指数曲线模型和三项型指数曲线模型,然后进行拟合效果的比较,从中选出拟合该资料最合适的模型。SAS程序如下,程序名设为nr8 1.sas。

    data nr8_1;
      input x y@ @ ;
      cards;
       0.1   4.7   0.3  13.2
       0.5  20.8   1.0  36.3
       2.5  61.4   5.0  68.1
       7.5  61.1  10.0  52.1
      15.0  37.3  20.0  27.5
      25.0  21.1  30.0  16.9
      40.0  11.4  50.0   8.2
      60.0   5.9
      ;
    run;
    % autoselect(nr8_1);

【程序说明】 程序中调用了自编的多项型指数曲线拟合的专用宏程序autoselect,使用时,给出宏参数的取值并替换程序左侧cards语句之后的数据即可,操作起来简单方便。

【SAS输出结果及其解释】

本程序运行后,输出结果如下:

该资料拟合二项型指数曲线所得的回归方程为:

y = -96.0614*exp(-0.6106*x) +94.8257*exp(-0.0584*x)

残差平方和为39.9495

该资料拟合三项型指数曲线所得的回归方程为:

y = -124.6229*exp(-0.4793*x) +89.4276*exp(-0.1197*x)+35.1908*exp(-0.0298*x)

残差平方和为0.0262

曲线间拟合效果比较的结果为:

F = 6857.0553435 P = 4.773959E -15

由于二项型指数曲线回归方程拟合的残差平方和大于三项型指数曲线回归方程,且二者拟合效果比较的P值小于0.05,故该资料拟合三项型指数曲线效果较好。

可见,采用本思路拟合该资料效果最好的是三项型指数曲线模型,其曲线回归方程为:

y = -124.6229e-0.4793x +89.4276e-0.1197x +35.1908e-0.0298x

拟合资料的残差平方和为0.0262,拟合效果非常好。

8.3 适用情形

在进行新的试验时,有时会因为缺乏相应的专业知识、相关的预试验支撑和相应的文献依据,导致研究者无法确定适用于此试验数据的确切模型。如隔室模型未知时,对“药 时”曲线进行拟合,往往只知道可以采用多项型指数曲线模型来拟合,但究竟是二项型指数曲线模型合适还是三项型指数曲线模型合适,就难以下定论了。

类似情形较为常见,此时,合适的做法是分别采用二项型指数曲线模型和三项型指数曲线模型来拟合数据,然后比较两种模型的拟合效果。若三项型指数曲线模型对资料的拟合效果较好,且其拟合效果与二项型指数曲线模型的拟合效果相比,差异有统计学意义,则选用三项型指数曲线模型;其他情形,则选用二项型指数曲线模型。

8.4 分析步骤

8.4.1 分析策略

由于具体的模型无法确定,所以需要同时采用二项型指数曲线模型和三项型指数曲线模型来拟合数据。两种模型单独拟合的思路分别与6.4.1小节和7.4.1小节相同。在两种模型得出两个“最优”的曲线回归方程以后,再比较它们对数据的拟合效果(具体参考式(5-9)),从“拟合优度”和“结构精简度”两个方面权衡选择其中一个作为最终的模型。上述策略的框图如图8-1所示。

图8-1 隔室模型未知时多项型指数曲线模型的分析策略框图

8.4.2 实施步骤

首先,以专业知识为依据,当判定某资料可能属于多项型指数曲线范畴时,再采用以下步骤同时实施二项型和三项型指数曲线拟合,并自动化比较,从中择优。

第1步,针对实际数据,建立相应的SAS数据集。以y表示结果变量,以x表示原因变量。

第2步,借助SAS宏实现散点的全面组合,以进行二项型指数曲线模型的拟合,并从中选出拟合效果最好的二项型指数曲线模型。在此宏内,需要计算不同散点组合情形下模型中参数的初始值和NLIN过程得到的最优解。

第3步,借助SAS宏实现散点的全面组合,以进行三项型指数曲线模型的拟合,并从中选出拟合效果最好的三项型指数曲线模型。在此宏内,需要计算不同散点组合情形下模型中参数的初始值和NLIN过程得到的最优解。

第4步,采用F检验,比较第2步和第3步得到的两个“最优”曲线模型的拟合效果,从中选择拟合优度明显好的那个模型作为最终的模型;若拟合优度接近,则选择结构更精简的那个模型作为最终的模型。

第2步和第3步中的难点及解决方法参见6.4.2小节和7.4.2小节。第4步中的难点在于实现两个模型的自动比较,可借助call symput语句将第2步和第3步中的最优模型拟合数据的残差平方和赋给宏变量,然后在data步中构建F检验的表达式,计算出F值,再使用probf函数计算F统计量对应的P值。根据残差平方和及P值的大小,以条件语句来控制最终的输出结果即可。

参考文献

[1] 薛仲三. 医学统计方法和原理(内部资料). 北京:军事医学科学院,1984:276-287.

[2] 梁文权. 生物药剂学与药物动力学(第2版). 北京:人民卫生出版社,2006:164-240.

[3] SAS Institute Inc. SAS/STAT 9.2 User's Guide. Cary,NC:SAS Institute Inc.,2008:4261-4336.