模块一 试验设计与统计分析发展概况

学习目标

1.了解试验设计与统计分析发展概况。

2.了解试验设计与统计分析的目的与意义。

3.掌握食品科学与生物工程试验的特点和要求。

4.掌握试验设计与统计分析的概念。

任务描述

1.通过对试验设计与统计分析发展历史的认知,理解其作为一门交叉学科,已成为广大技术人员与科学工作者必备的基本理论知识。

2.通过学习试验设计与统计分析的概念,培养学生在实践中运用有关原理和方法,正确无误地设计试验,并对获取的数据资料进行正确的统计分析,从而得出可靠的结论,进而正确地指导实践。

3.通过学习食品科学与生物工程试验的特点和要求,了解在进行科学试验研究时进行试验设计与统计分析的目的和意义。

项目一 试验设计的发展历程

试验设计源于农业试验,是数理统计学的一个分支,是科学试验和统计分析方法相互交叉形成的一门学科。试验设计是20世纪20年代,由英国生物统计学家费舍尔(Ronald Aylmer Fisher,1890—1962)所创立的。起因是他在进行农业田间试验时,发现环境条件难以控制,导致随机误差不可避免。他重新对试验方案作出了更合理的安排,使得试验数据有合适的数学模型以减轻随机误差的影响,从而提高试验的精度与可靠性。1923年,他与肯齐合作第一次发表了试验设计的实例与设计的基本思想,并于1935年出版了名著《试验设计》(The Design of Experi-ment)一书,标志着“试验设计”的诞生,并将其应用于农业、生物学、遗传学等领域,取得了巨大的成功,大大地推动了这些学科的发展。费舍尔在试验设计和统计分析方面做了一系列的先驱工作,开创了一门新的应用技术学科,从此试验设计成为统计科学的一个分支。因此,费舍尔被称为试验设计的奠基人。

其后又有多位学者进行了大量的开拓性工作,产生了很多新的试验设计方法。试验设计自20世纪20年代问世至今,其发展大致经历了三个阶段:早期的单因素和多因素方差分析,传统的正交试验法和近代的调优设计法。

20世纪50年代,日本统计学家田口玄一(G. Taguchi)创立了正交试验设计,使得试验设计的应用更加广泛,并在工业生产的过程中得到了大力的推广和应用。有人夸张地说,日本在第二次世界大战后工业和经济的飞速发展,“试验设计”占有很大的功劳。田口博士曾经说过,不懂试验设计的工程师只能算半个工程师。在日本,“正交试验设计技术”被誉为国宝级的统计学设计方法。

我国于20世纪50年代前后开始研究“试验设计”这门科学,1948年范福仁先生在国内出版了《田间试验设计与分析》一书。在正交试验设计领域,国内学者在正交试验设计的观点、理论和方法上都有新的创见,编制了一套适用的正交表,简化了试验程序和试验结果的分析方法,创立了简单易学、行之有效的正交试验设计法。1978年,王元教授和方开泰教授创立了均匀设计方法,该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息,并已经应用在了国内外的多个行业,取得了很多成果。著名数学家华罗庚教授也在国内积极倡导和普及“优选法”,并成功用于五粮液的生产,从而使试验设计的概念得到更大的普及。

到目前为止,本学科经过了90多年的研究和实践,已成为广大技术人员与科学工作者必备的基本理论知识。20世纪30年代,英国的纺织业开始使用试验设计方法。第二次世界大战期间,美国的军工企业也开始使用试验设计方法。“二战”以后,美国和欧洲的机械、化工和电子等众多行业纷纷使用试验设计方法,试验设计已经成为理、工、农、医等各个领域、各类试验通用的技术和方法。实践表明,该学科与工农业生产的实际相结合,产生了巨大的社会效益和经济效益。

近年来,随着计算机技术的发展和进步,出现了各种针对试验设计和试验数据处理的软件,如SAS(statistical analysis system),SPSS(statistical package for the social science),Matlab Origin和Excel等,它们使试验数据的分析计算不再繁杂,试验设计和统计分析工作变得简单易行,极大地促进了本学科的快速发展和普及。

项目二 统计分析的发展历程

由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,距今有5000多年的漫长岁月。但是,能使人类的统计实践上升到理论并予以概括总结的程度,即开始成为一门科学系统的统计学,却是近代的事情,距今只有300余年的历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。

古典记录统计学的代表人物有拉普拉斯(Laplace)和高斯(Gauss)。

拉普拉斯的主要贡献:

(1)深入了“概率论”的研究。

(2)推广了“概率论”在统计中的应用。

(3)明确了“统计学”的大数法则。

(4)进行了“大样本”的统计。

高斯的主要贡献:

(1)建立了最小二乘法。

(2)发现高斯分布。

近代描述统计学的代表人物有高尔顿(Galton)和皮尔森(Plzen)。

高尔顿的主要贡献:

(1)开创了生物统计学。

(2)提出了“平均数离差法则”。

(3)论述“相关”的统计意义并提出了“回归”的概念。

皮尔森的主要贡献:

(1)变异数据的处理,首创了频率分布表和频率分布直方图。

(2)分布曲线的选配,利用相对“斜率”的方法得到了12种分布函数型,包括正态分布、矩形分布和U型分布等。

(3)卡方检验的提出。

(4)回归与相关的发展等。

现代推断统计学的代表人物有哥赛特(Gossett)和R.费雪(R.Fisher)。哥赛特在1908年首次在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章提供了“t检验”的基础,为此,许多科学家把1908年看作是统计推断理论的里程碑,哥赛特也被推崇为统计学的先驱者。R.费雪提出了方法论、假设无限总体、抽样分布、方差分析、随机化原则等。这位多产研究者的成果特别适用于农业与生物学领域,并已经渗透到其他领域,他提炼出来的推断统计学已被广大研究者所接受。因此,美国统计学家约翰逊(Johnson)于1959年出版《现代统计出版方法:描述和推断》一书中指出:“从1920年起到今天的这段时间,称之为统计学的费雪时代是恰当的。”因此,R.费雪在统计发展史上的地位是显赫的。

项目三 试验设计与统计分析的概念

试验设计与统计分析是以概率论、数理统计及线性代数为理论基础,结合一定的专业知识和实践经验,经济地、科学地安排试验和分析处理试验结果的一门应用科学。试验设计和统计分析互为前提和条件。研究者只有在掌握了专业知识的情况下,并在实践中运用统计分析原理和方法,才能正确无误地设计试验。只有在试验设计正确的基础上,通过对试验所获取的数据资料进行正确的统计分析,才有可能揭示事物的本质特性及内在联系,得出可靠的结论,进而正确地指导实践。因此,正确地进行试验设计并科学合理地整理分析所收集的数据资料是本门课程的基本任务。

一、试验设计

试验设计(design of experiment,简称DOE),也称为实验设计,是以概率论和数理统计为理论基础,经济地、科学地制定试验方案的一项技术。试验设计的目的是为了认识试验条件与试验结果之间的规律性。研究者在进行试验研究工作前应用生物统计原理,制定试验方案,选择试验样品,合理分组,可以使人们利用较少的人力、物力和时间,获得多而可靠的信息资料,得出科学的结论。通过对数据资料进行正确的整理分析可以揭示事物的本质特性及内在联系,进而使我们得以能动地认识世界和改造世界。生物统计与试验设计是不可分割的两部分,试验设计需要以统计的原理和方法为基础,而正确设计试验又为统计方法提供了丰富可靠的信息,两者紧密结合推断出较为客观的结论。试验设计分为广义的试验设计和狭义的试验设计。

1.广义的试验设计

广义的试验设计是指整个试验研究课题的设计,亦即整个试验计划的拟订。进行任何一项科学试验,在试验前必须制定一个科学、全面的试验计划书,以便使该项研究工作能够有计划、有目的地顺利开展,从而保证试验任务的完成。虽然科研项目的种类、大小有所不同,但试验计划的内容一般可概括为以下几个方面:课题名称、试验目的,研究依据、内容及预期达到的经济技术指标,拟采取的试验设计方法及试验方案,试验结果的分析、研究成果的经济或社会效益估算,研究所需要的条件,试验记录的项目与要求,已具备的基础条件和研究进度安排,参加研究人员的分工,试验的时间、地点和工作人员,成果鉴定及发表学术论文。

2.狭义的试验设计

生物统计中的试验设计主要指狭义的试验设计。狭义的试验设计主要是指试验单位(试验处理的独立载体)的选取、重复数的确定、试验单位的分组和试验处理的安排。正确的试验设计能控制和降低试验误差,消除系统误差,提高试验的精确性和正确性,为统计分析获得的处理效应和试验误差的无偏估计以及揭示所研究事物的内在规律提供必要而充分的数据资料。食品科学与生物工程试验研究中常用的试验设计方法有完全随机设计、随机区组设计、正交设计、均匀设计、回归设计和混料设计等。

二、统计分析

统计分析(statistical analysis)指通过对研究对象的规模、速度、范围、程度等数据资料进行数理统计和分析,在定量与定性上运用数学方式建立数学模型,从而认识和揭示事物间的相互关系、变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法。它是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到对研究对象更为深刻的认识。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。

统计分析方法是目前广泛使用的现代科学方法,是一种科学、精确和客观的测评方法。运用统计方法、定量与定性的结合是统计分析的重要特征。因为世间任何事物都有质和量两个方面,认识事物的本质时必须掌握事物的量的规律。随着统计方法的普及,不仅统计工作者可以搞统计分析,各行各业的工作者都可以运用统计方法进行统计分析。提供高质量、准确而又及时的统计数据和高层次、有一定深度、广度的统计分析报告是统计分析的要求。这已成为自然科学和社会科学研究中不可缺少的研究法。

统计分析可以分为5个步骤:

(1)描述要分析的数据性质。

(2)研究基础群体的数据关系。

(3)创建一个模型,总结数据与基础群体的联系。

(4)证明(或否定)该模型的有效性。

(5)采用预测分析来预测将来的趋势。

统计分析的具体方法有很多,重要而常用的方法有差异显著性检验,亦即假设检验。通过抽样调查或控制试验获得的是具有变异的资料。产生变异的原因是什么?是由于企图比较的处理间(如不同原料、不同工艺、不同配比)有实质性差异,还是由于无法控制的偶然因素所致?显著性检验的目的就在于承认并尽量排除偶然因素的干扰,以一定的置信度将处理间是否存在本质差异揭示出来。常用的显著性检验方法有t检验、μ检验、F检验和χ2检验等。还有一类统计分析方法叫非参数检验法,这类分析方法不考虑资料的分布类型,也不需事先对有关总体参数进行估计。当通常的检验方法对某些试验或调查资料无能为力时,这类方法则正好发挥作用。具体内容在本书其他章节再进行详述。

项目四 试验设计与数据处理的意义

从研究的程序上讲,食品科学与生物工程技术的研究和其他学科一样,在明确了研究的目的、依据、内容、必要性和可行性的基础上,实际上就是一个试验方法的设计,观测数据的收集、整理、分析,研究结果的表达和进一步指导实践的过程。

食品科学与生物工程技术的研究具有复杂性和特殊性,具有的主要特点如下所述。

(1)原料的广泛性 如植物性原料、动物性原料和微生物性原料等。植物性原料又可分为粮食、果品、蔬菜、野生植物等。动物性原料又可分为畜禽、水产、野生动物、特种水产养殖等。

(2)生产工艺的多样性 由于加工的原料可以分为几十类、上千个品种,因而体现了加工工艺的多样性。如有的产品加工要求保持原料原有的色泽和风味,而有的产品又要求原来的色泽和风味等。

(3)学科的交叉性 涵盖了储藏加工、生物科学、农业工程、轻工业、化学工业、材料学、计算机应用、系统工程、生物酶技术、基因工程等学科的交叉。

(4)加工质量控制的重要性 对加工过程中各个工序的控制,以保证加工过程的安全和产品加工质量的稳定。对各种在市场流通的产品的质量监督和检验,以保证各种产品的质量稳定和防止假冒伪劣产品,维护消费者的合法权益。对食品的安全进行监督保证,以防止食品在加工过程中化学物质超标或不合理使用,或者某些对人体健康有害的物质超过规定的标准。

鉴于以上特点,在进行科学试验研究时,就必须特别注重对试验的合理设计和试验过程的正确运行,因为有些参数只有通过试验才能确定,有时还需找出参数的最佳组合,以保证获得较好的工作性能。如在研究某种酸奶粉时,要确定适宜的发酵温度,就必须通过试验来解决。先把菌粉添加量分成3个挡,如按质量分数添加0.002%、0.004%和0.006%,用每个梯度逐个进行试验,找出最优的添加量。但要找出菌粉添加量和发酵温度的相互作用时,每个参数取3挡,需做32=9次试验,才能确定两个参数各取什么数值组合起来才能使产品最优。若再找出菌粉添加量、发酵温度和发酵时间3个参数的相互作用时,每个参数取3挡,需做33=27次试验,才能确定。若再找出菌粉添加量、发酵温度、发酵时间和蔗糖添加量4个参数的相互作用时,每参数取3挡,需做34=81次试验才能确定。由此可见,随着试验参数和所取挡数的增加,试验次数就急剧增加,这样会消耗大量的人力、物力和财力。

因此,进行试验设计的意义有如下几个方面。

(1)科学合理的试验可以减少试验次数,缩短试验周期,节约人力、物力和财力,提高经济效益,对多因素、多水平尤其有效。

(2)可以分析交互作用的大小。

(3)可以快速找到较优设计参数与生产工艺条件。

合理的试验设计只是试验成功的充分条件,随着试验进行,必然会得到大量的试验数据,如果没有对试验数据进行合理地分析和处理,就不可能对所研究的问题有一个明确的认识,也不可能从试验数据中寻找到规律性的信息,达到指导生产和科研的目的。所以试验设计都是与一定的统计分析相对应的,两者是相辅相成、互相依赖、缺一不可的。统计分析在科学试验中的作用主要体现在如下几个方面。

(1)通过误差分析,可以评判试验数据的可靠性。

(2)确定影响试验结果的主次因素,从而可以抓住主要矛盾,提高试验效率。

(3)确定试验因素与试验结果之间存在的近似函数关系,并对试验结果进行预测和优化。

(4)获得试验因素对试验结果的影响规律,为控制试验提供思路。

(5)确定最优试验方案或配方的确定。

练习题

1.试验设计在我国是如何建立和发展的?

2.统计分析的发展概貌是什么?

3.试验设计的概念?

4.统计分析的概念?

5.食品科学与生物工程技术的研究特点是什么?

6.试验设计与统计分析在科学研究中的目的与意义?