2.1 神经网络

大多数情况下神经网络能在外界信息的基础上改变内部结构,是一种自适应系统[1]。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。

神经网络以其自组织性、自学习性、并行性、容错性、高度非线性、高度鲁棒性、对任意函数的任意精度逼近能力,一直是监督学习领域研究、开发和应用最为活跃的分支之一。此外,神经网络模型可以根据样本信息自适应调整自身结构,也可用于提升半监督学习方法的自适应调节能力,以降低其对先验知识的依赖程度[2]。本节将对神经网络的基本理论进行阐述,介绍其发展历程,最后对其优缺点进行总结。

2.1.1 神经网络概念和基本结构

神经网络(Neural Network,NN)是一种模仿生物神经网络的结构和功能的数学模型或计算模型,由大量的节点(或称“神经元”或“单元”)及其之间的相互连接构成。每个节点代表一种特定的输出函数,称为激励函数(Activation Function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称为权重(Weight),这相当于神经网络的记忆[3]。网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

神经网络的构筑理念是受到生物神经网络功能的运作启发而产生的。神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说,通过统计学的方法,神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。

2.1.2 神经网络的发展

神经网络早期的研究工作应追溯至20世纪40年代。下面以时间顺序,以著名的人物或某一方面突出的研究成果为线索,对神经网络的发展进行概述。

1943年,心理学家Mcculloch和数理逻辑学家Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今,并且直接影响着这一领域研究的进展。因而,他们两人可以被称为神经网络研究的先驱。

20世纪40年代后期,心理学家Hebb在神经可塑性机制的基础上提出了一种学习假说,即现在的Hebbian学习[3]。Hebbian学习被认为是一个典型的无监督学习规则,其后期的改进算法都是原始学习算法的增强。1954年,Farley和Clark在MIT首次使用计算机建立了Hebbian网络模型。其他的神经网络在1956年由Rochester、Holland、Habit和Duda等建立。

20世纪50年代末,Rosenblatt设计出了“感知机”,它是一种多层的神经网络。这项工作首次把神经网络的研究从理论探讨付诸工程实践。当时,世界上许多实验室仿效制作感知机,分别应用于文字识别、声音识别、声呐信号识别以及学习记忆问题的研究。然而,这次神经网络的研究高潮未能持续很久,很多研究学者陆续放弃了这方面的研究工作,这是因为当时数字计算机的发展处于全盛时期,研究人员误以为数字计算机可以解决人工智能、模式识别、专家系统等方面的一切问题,使感知机的工作得不到重视;其次,当时的电子技术工艺水平比较落后,主要的元件是电子管或晶体管,利用它们制作的神经网络体积庞大,价格昂贵,要制作成规模上与真实的神经网络相似是完全不可能的。此外,在1968年一本名为《感知机》的著作指出,线性感知机功能是有限的[4],它不能解决如“异或”这样的基本问题,而且多层网络还不能找到有效的训练方法,这些论点促使大批研究人员对于神经网络的前景失去信心。20世纪60年代末期,神经网络的研究进入了低潮。

另外,在20世纪60年代初期,Widrow[1]提出了自适应线性元件网络,这是一种连续取值的线性加权求和阈值网络。后来,在此基础上发展了非线性多层自适应网络。当时,这些工作虽未标出神经网络的名称,而实际上仍是一种神经网络模型。

随着人们对感知机兴趣的衰退,神经网络的研究沉寂了相当长的时间。1975年Werbos发明了关键性的反向传播(Backpropagation)算法[5,6],有效地解决了异或问题。同时,20世纪80年代初期,模拟与数字混合的超大规模集成电路制作技术提高到新的水平,完全付诸实用化,计算机的运算效率得到了极大提高,此外,数字计算机的发展在若干应用领域遇到困难。这一背景预示,向神经网络寻求出路的时机已经成熟。美国的物理学家Hopfield于1982年和1984年在美国科学院院刊上发表了两篇关于神经网络研究的论文,引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。当时在连接主义(Connectionism)名下的并行分布计算开始流行。1986年,Rumelhart和McClelland出版了一本完整论述在计算机上使用连接主义模拟神经计算的专著[7]。随即,一大批学者和研究人员展开了进一步的工作,形成了20世纪80年代中期以来神经网络的研究热潮。

1987年成立了国际神经网络学会,同年又在美国的圣地亚哥召开了第一届国际人工神经网络会议。从这次会议以后,神经网络技术研究呈现出蓬勃发展的势头,理论研究进一步深化,应用范围也不断扩大,神经网络研究又重新兴起。20世纪90年代,机器学习领域发展出的支持向量机、线性分类器等也可看作是一种广义的神经网络。2000年以后问世的深度学习(Deep Learning)引发了神经网络研究的新热潮[8]

2.1.3 神经网络的基本模型和特点

根据结构,人工神经网络可以分为前馈网络和反馈(递归)网络,如图2.1和图2.2所示。

图2.1 多层前馈网络示意图

图2.2 单层反馈网络示意图

前馈网络如图2.1所示,同层的神经元不发生联系,不同层次的神经元,能从一层连接至下一层,因此信号是单向传播的。图中,实线表明信号的正向流通,虚线通常表示误差的反向传播。BP网络就是典型的前馈神经网络。反馈网络如图2.2所示,从图中可以看出网络中多个神经元构成了互联神经网络,信号的传递方向既可以是正向传播,也可以是反向传播。

神经网络的学习过程是根据不同网络对应的学习规则,调整神经元之间的连接权。其中Delta规则是较为常用的神经网络学习规则。

在遥感图像分类问题中,人工神经网络由于其特别的网络模型结构,使得它具有某些优越的性能[9],主要包括以下内容:

1)高度并行性。由于人工神经网络具有与人脑极为相似的结构,即单层或者多层神经元相互连接,这使得网络具有良好的并行性。

2)高度非线性。人工神经网络中的神经元具有两种状态,即激活和抑制。因此在数学上表现出非线性。具有阈值的神经元能够组成性能更好的网络。网络的容错性和存储容量均有所提高。

3)有较好的自组织、自学习和自适应能力。人工神经网络对外表现在能够适应多种不同类型的问题空间,也可以很好地对噪声和信息缺失加以抑制,减轻它们最优解的影响,对内表现在具有较好容错性,可以通过自组织与自适应来消除坏神经元的影响。

然而,人工神经网络也因其结构和学习规则而在遥感图像分类问题上有一些缺陷,主要包括以下几点:

1)训练速度慢。人工神经网络通常是使用迭代的方法对网络进行学习,如要得到较高的遥感图像分类精度会使得网络结构变得复杂,学习过程变长,训练速度变慢。

2)学习训练需要经验指导。人工神经网络的网络设计没有严格确定的方法,对于不同的遥感图像,为获得较好的效果,往往需要凭借经验进行多次试验才能找到较为理想的网络结构。

3)网络参数调整困难。目前没有通用的有效理论对网络的参数进行优化,为了获得较好的分类效果不得不人为地调整参数。

正因为传统的神经网络学习算法具有一定的缺陷,人们在不断对其进行优化改进,以满足实际的应用要求。