概论
1、模式与模式识别
模式可以看做是对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在确定性或随机性规律的对象、过程或事件的集合。也有人把模式称为模式类。模式识别也被称作模式分类。
模式识别就是对模式的区分和认识,把对象根据其特征归到若干个类别中适当的一类。
作为一门学科,模式识别所研究的重点并不是人类进行模式识别的神经生理学或生物学原理,而是研究如何通过一系列数学方法让机器(计算机)来实现类似于人的模式识别能力。
一些基本术语:
- 样本(sample):所研究对象的一个个体。
- 样本集(sample set):若干个样本的集合。
- 类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。习惯上,我们用 w1、w2 等来表示类别,在两类分类问题中也有时用 {-1,1} 或者 {0,1} 等来表示。
- 特征(feature):指用于表征样本的观测,通常是数值表示的某些量化特征,有时也被称为属性(attribute)。如果存在多个特征,则它们就组成了特征向量。样本的特征构成了样本的特征空间,空间的维度就是特征的个数,而每一个样本就是特征空间中的一个点。
- 已知样本(known sample):指事先知道类别标号的样本。
- 未知样本(unkown sample):指类别标号未知但特征已知的样本。
所谓的模式识别的问题就是用计算的方法根据样本的特性将样本划分到一定的类别中去。
2、模式识别的主要方法
解决模式识别问题的方法可以归纳为基于知识的方法和基于数据的方法两大类。
2.1、基于知识的方法
所谓的基于知识的方法,主要是以专家系统为代表的方法,一般归在人工智能的范畴中,其基本思想是,根据人们已知的(从专家那里收集整理的)关于研究对象的知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,对未知样本通过这些知识推理决策其类别。
句法模式识别也可以看作是一种特殊的基于知识的模式识别方法。它的基本思想是,把对象分解描述成一系列基本单元,每一个基本单元表达成一定的符号,而构成对象的单元之间的关系描述成单元符号之间句法关系,利用形式语言、句法分析的原理来实现对样本的分类。
2.2、基于数据的方法
在确定了描述样本所采用的特征后,这些方法并不是依靠人们对所研究的对象的认识来建立分类系统,而是收集一定数量的已知样本,用这些作为训练集(training set)来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类。这种模式识别方法可以看做是基于数据的机器学习(machine learning)的一种特殊情况,学习的目标是离散的分类,这也是机器学习中研究最多的一个方向。
机器学习的基本思想:
G 表示从对象观测特征的过程,特征用向量 x 表示,y 表示我们关心的对象的性质,在模式识别中就是分类。S 表示决定 x 和 y 之间关系的系统,它存在但我们不知道其内部机理(如果知道就可采用基于知识的方法)。我们可以得到一定数量的已知样本,即一定数量的 x 和对应的 y 的数据对 {(x,y)}。基于数据的模式识别就是利用这样的训练样本来训练学习机器 LM,也就是建立实现从特定向量 x 判断类别 y’ 的一个数学模型,用来对未知样本计算(预测)其类别。
基于数据的方法是模式识别最主要的方法,其任务可描述为:在类别标号 y 与特征向量 x 存在一定的未知依赖关系、但已知的信息只有一组训练数据对 {(x,y)} 的情况下,求解定义在 x 上的某一函数 y’ = f(x),对未知样本的类别进行预测。这一函数叫做分类器(classifier)。这种根据样本建立分类器的过程也称作一种学习的过程。
近二十年来发展起来的模式识别新成员方法中,最有代表性的就是:人工神经网络、支持向量机为代表的统计学习理论与核函数方法。
如果分类和特征之间的关系可以完全确切地描述出来,那么采用基于知识的方法可能会更有效;而如果二者的关系完全随机,即不存在规律性的联系,那么应用模式识别也无法得到有意义的结果。
3、监督模式识别与非监督模式识别
-
监督模式识别
在上面的介绍中,我们有一个基本假设,就是我们在要解决的模式识别问题中,我们已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建立分类器的问题属于监督学习问题,称作监督模式识别,因为我们有训练样本作为学习过程的 “导师”。
-
非监督模式识别
更常见的还是另一种情况,在面对一堆未知的对象时,我们自然要试图通过考察这些对象之间的相似性来把它们区分开来。这种类别发现的问题也是一种模式识别的问题,只是我们事先并不知道要划分的是什么类型,更没有类别已知的样本来作训练,很多情况下我们甚至不知道有多少类别。我们要做的是根据样本特征聚成几个类,使属于同一个类的样本在一定意义上是相似的,而不同类之间的样本则有较大差异。这种学习过程称作非监督模式识别,在统计中更通常称为聚类(clustering),所得到的类别也称作聚类(clusters)。
非监督模式识别的一个特点:由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法和不同的假设可能会导致不同的结果,要评价哪种结果更可取或者更符合实际情况,除了一些衡量聚类性质的一般标准外,往往还需要对照该项研究的意图和在聚类结果基础上后续的研究来确定。另一方面,用一种方法在一个样本集上完成了聚类分析,得到了若干个聚类,这种聚类结果只是数学上的一种划分,对应用的实际问题是否有意义、有什么意义,需要结合更多的专业知识进行解释。
4、模式识别系统的典型构成
一个模式识别系统通常包括原始数据的获取与预处理、特征提取与选择、分类或聚类、后处理四个主要部分。面对实际问题时,我们把应用监督模式识别和非监督模式识别的过程分别归纳为以下五个基本步骤:
- 处理监督模式识别问题的一般步骤:
- 分析问题:分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。
- 原始特征获取:得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。
- 特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。
- 分类器设计:选择一定的分类器方法,用已知的样本进行分类器训练。
- 分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。
- 处理非监督模式识别的一般步骤:
- 分析问题:分析研究目标能够通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。
- 原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。
- 特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取与选择。
- 聚类分析:选择一定的非监督模式识别方法,用样本进行聚类分析。
- 结果解释:考察聚类结果的性能,分析所得到的聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。
从上面可以看出,特征提取与选择、分类器设计与聚类分析,以及分类器和聚类结果的性能评价方法等是各种模式识别系统中具有共性的步骤,是整个系统的核心,也是模式识别学科研究的主要内容。
特征提取与选择、分类器设计与聚类分析,以及分类器和聚类结果的性能评价方法**等是各种模式识别系统中具有共性的步骤,是整个系统的核心,也是模式识别学科研究的主要内容。