Active Learning through label error statistical methods

基于概率误差统计方法的主动学习

算法实例框架
概率利普西茨假设

基于概率误差统计方法的主动学习

基于聚类的主动学习将数据分为多个块，并查询最关键实例的标签。主动学习者必须决定如何选择这些关键实例以及如何拆分聚类块。在本文中，我们提出了理论和实用的统计方法来分析标签错误与邻居半径之间的关系，并设计新的拆分和选择解决这两个问题的策略。首先，我们基于单个实例和实例对定义标签错误的统计函数。其次，我们建立实用的统计模型，计算经验标签错误，并指导区块分割过程。第三，使用这些实用模型，我们开发了用于选择关键实例的中心和边缘实例选择策略。第四，我们设计了一种通过标签错误统计方法（ALSE）进行主动学习的新算法。使用来自各个领域的20个数据集（其中包括大量的UCI数据集）进行了学习实验。

算法实例框架

Active Learning through label error statistical methods
先通过一个算法实例来快速讲解一下其间过程。第1部分是输入，其中包含两种类型的数据集： Iris（DB <1.2）和Sonar（DB> 1.2）。

第2部分是理论和实际的标签错误统计方法。理论标签错误统计方法提供了单实例标签错误统计函数 $e_s（λ_s）$ 和实例对统计函数 $e_p（λ_p）$ 。实用的标签错误统计模型提供了使用统计方法获得的两个经验标签错误函数 $ϕ（λ_s)$ 和 $ϕ（λ_p）$ 。

第3部分是使用Iris数据集进行迭代查询，拆分和预测的示例。通过聚类获得三种不同大小的聚类子块。三个簇的直径分别为 $λ'$ ， $λ''$ 和λ’’’。对于块1， $\phi(λ'）<ε$ ，我们选择代表性的实例5、23、41。由于 $l（5）= l（23）= l（41）= 1$ ，所以块1是纯净的，我们将预测所有剩余的块实例。对于块2， $ϕ（λ''）<ε$ ，在判断块2不纯的同时，我们需要对块进行拆分。对于块3， $ϕ（λ'''）>ε$ ，我们将直接分割该块。通过这种方式，ALSE算法会迭代查询，拆分和预测，直到所有实例都获得标签为止。其中，图3.1先利用聚类算法聚合数据，聚类算法采用的是密度峰值聚类算法(clustering by fast search and find of density peaks)，有兴趣的同学可以自行查阅，再次不在过多赘述。

第4部分是输出。

概率利普西茨假设

在许多机器学习的算法中，将“两两点之间离得越近的实例点标签越相似，离得越远的实例点标签越不相似。”的聚类假设当成是一种固有的性质。Urner等人[1]提出了概率利普西茨(PL)来量化这种性质。令S为一些独立同分布的未标记样本，由概率分布P生成。

定义1：(PL-Unary)当存在函数 $\phi$ 时，根据Urner给出的定义(称为PL-Unary)标签函数 $l$ 满足PL假设，使得：
Active Learning through label error statistical methods
PL假设表明两个很接近的实例具有不同标签的概率是有界的且很小。这可以看作是标准利普西茨条件的松弛。
定义2：(PL-Conditional)当存在函数 $\phi$ 时，标签函数 $l$ 为PL条件，使得：
Active Learning through label error statistical methods