论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models

论文原文
 论文下载
论文被引：43
论文年份：2014

这篇文章第4部分介绍了不同规格数据量、样本多少对实验结果的影响等详细信息，对训练自己的数据，怎么构建数据集有参考作用，个人感觉是一年比较不错的文章。

The Benefits of Personalized Smartphone-Based Activity Recognition Models

ABSTRACT

Activity recognition allows ubiquitous mobile devices like smartphones to be context-aware and also enables new applications, such as mobile health applications that track a user’s activities over time. However, it is difficult for smartphone-based activity recognition models to perform well, since only a single body location is instrumented. Most research focuses on universal/impersonal activity recognition models, where the model is trained using data from a panel of representative users. In this paper we compare the performance of these impersonal models with those of personal models, which are trained using labeled data from the intended user, and hybrid models, which combine aspects of both types of models. Our analysis indicates that personal training data is required for high accuracybut that only a very small amount of training data is necessary. This conclusion led us to implement a self-training capability into our Actitracker smartphone-based activity recognition system[1], and we believe personal models can also benet other activity recognition systems as well.

活动识别使无处不在的移动设备（例如智能手机）能够感知上下文，并且还启用新的应用程序，例如随时间跟踪用户活动的移动健康应用程序。 但是，基于智能手机的活动识别模型很难很好地执行，因为只能检测到一个人体位置。大多数研究集中在通用/非个人活动识别模型上，其中使用来自代表性用户小组的数据对模型进行训练。在本文中，我们将这些非个人模型的性能与个人模型（使用来自目标用户的标记数据进行训练）和混合模型（将两种类型的模型相结合）进行了比较。 我们的分析表明，需要高精度的个人培训数据，但仅需要非常少量的培训数据。 这一结论使我们能够在基于Actitracker智能手机的活动识别系统中实现自我训练功能[1]，并且我们相信个人模型也可以对其他活动识别系统有所帮助。

1 Introduction.

移动设备上的活动识别（AR）是一个快速发展的领域。 设备识别其用户活动的能力很重要，因为它可以启用上下文感知的应用程序和行为。通过活动识别，还可以开发可跟踪用户活动的移动健康应用程序，例如我们的Actitracker应用程序[1]，该应用程序可以帮助解决因不活动而引起的许多健康问题，包括儿童肥胖[11]。本文描述的工作依赖于Android智能手机，但是这些智能手机中存在的三轴加速度计与其他智能手机和移动设备中的三轴加速度计非常相似。

在本文中，我们采用一种简单的方法来实现AR。 我们会在用户走路，慢跑，爬楼梯，坐着，站立和躺下时从他们收集加速度计数据，然后将每10秒钟的数据汇总到一个带有标签的示例中。然后，我们通过将常见的分类算法应用于生成的训练示例来推导AR模型。本文的工作包括来自59个测试主题的数据[24]，以及来自HASC 2010和2011数据集的414个主题的数据[9]。

关于AR的工作很多，[4、12、13、23]，而基于智能手机的AR [5、10、15、28]的工作却规模较小，但仍在增长。虽然有些作品使用了个人模型[19，28]，这些模型是专门使用来自目标用户的带标签的训练数据构建的，但大多数工作都集中在非个人模型[5，8，16，20]上，这些模型是使用来自目标用户的数据构建的不是模型的预期用户的用户面板。尽管较新的工作[16]旨在针对个人量身定制非人格模型，但很少有工作在合理规模的人群中比较个人和非人格模型，也没有工作仔细分析过这类模型的相对性能。在本文中，我们对这些模型的相对性能进行了全面分析，并将其视为我们的主要贡献之一。我们得出的结论是，即使使用很少量的个人培训数据构建，个人AR模型也非常有效，并且大大优于非个人模型。

个性化AR模型对于基于智能手机的AR非常可行，因为智能手机通常由单个用户使用，并且所需的培训数据很少。因此，我们提倡开发个人AR模型。实际上，我们已经将生成此类模型的能力整合到了我们的公共AR应用程序Actitracker [1]中。这个应用程式可让使用者快速进行自我训练，然后以自动产生的个人模型取代预设的非个人模型。

2 The Activity Recognition Task.

3 Experiment Methodology.

在本节中，我们描述了生成AR模型的方法。 我们讨论了数据收集程序，将加速度计数据转换为示例的方法以及模型归纳过程。 我们还将描述用于生成和评估个人和非个人模型的方法，以及结合了这两个模型的元素的混合模型。

3.1 Data Collection.

我们收集了59位用户的口袋中装有基于Android的智能手机，同时执行上述六项日常活动，从而收集了数据。我们的研究团队成员指示参与者执行各种活动，并将活动标签输入到我们的数据收集应用程序中。传感器数据存储在手机上，也传输到我们的服务器。 在本研究中，我们使用20Hz的采样率。我们在研究中使用了15种不同的Android智能手机型号，它们的所有加速度计似乎都产生了相似的结果。

此外，我们分析了来自HASC 2010和2011数据集的数据[9]。 为了对这些数据应用相同的方法，我们仅从位于口袋或腰部的传感器中选择了加速度计数据，并将读数从100Hz下采样至20Hz。 最终的子集包括414人，他们执行4种活动（站立，步行，跑步和跳跃）。这两个数据集的结果分别表示，因为它们代表不同的活动，并用不同的硬件/软件记录。

3.2 Data Transformation.

**我们的分类算法不能直接处理时间序列数据，因此我们首先按照我们先前的工作[15]中描述的过程将原始加速度计数据转换为示例。每个示例总结了10秒的数据，**一个足以捕捉到几次周期性运动重复的间隔，并根据经验显示效果良好。每个示例均包含43种功能，这些功能是6种基本统计信息的变体。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models
**表1显示了我们的数据在每个活动中转换后的示例的数量和分布。**步行是最常见的活动。慢跑和爬楼梯所花费的时间是有限的，因为这些活动非常艰苦；我们限制了在静态活动上所花费的时间，因为我们发现它们很容易学习。相比之下，转换后的HASC集包含来自414个用户的10,718个示例，分布如下：行走-59.9％，奔跑-13.0％，站立-15.1％，跳过-13.0％。与我们的数据相比，这是一组不同的活动，并且类别更小，并且类别分布更加不对称。

3.3 Model Induction and Experiments.

我们的AR模型是使用以下WEKA [25]分类算法从标记的示例中得出的：决策树（J48和Random Forest，RF），基于实例的学习（IBk），神经网络（多层Perceptron，NN），规则归纳（J-Rip），朴素贝叶斯（NB）和Logistic回归（LR）。 WEKA的默认设置用于所有学习方法，除了NB（启用内核估计）和IBk（设置k = 3（IB3），因此我们使用3个最近的邻居）以外的所有学习方法。

我们归纳出三种类型的模型：非个人模型，个人模型和混合模型。每个模型都解决了一个稍有不同的学习问题，并就如何应用该模型做出了不同的假设。模型的类型会影响我们如何将数据划分为训练和测试数据。不同的模型定义如下：

定义3.1。 非个人模型使用来自一组用户的训练数据，这些用户随后将不再使用该模型（因此，训练和测试集没有普通用户）。 这些模型将被应用到新用户，而无需额外的标记训练数据或模型再生。
定义3.2。 个人模型仅使用模型所针对的用户的训练数据。这些模型需要训练阶段，以从每个用户收集标记的数据。 培训和测试数据来自同一用户，但包含不同的示例。
定义3.3。 混合模型是非个人模型和个人模型的混合体。训练集具有来自测试对象和其他用户的数据，但是测试集的示例是不同的。

非个人模型的优势在于，它们可以为所有用户建立一次，并且可以包含来自许多用户的数据以进行培训。尽管从技术上讲，这些模型仅应用于培训集中的用户，但可以将它们视为通用模型。个人模型的优势在于，它们可以匹配目标用户的特质，但要求每个用户提供训练数据，从而限制了可用数据量。混合模型还需要为每个用户提供训练数据和模型生成，但由于它利用了来自其他用户的其他训练数据，因此其性能有可能优于个人模型。

与每个模型相关的实验在设置方式上有所不同。对于非人格模型，将来自58个用户的数据放入训练集中，并将来自1个用户的数据放入测试集中。此过程重复了59次，这使我们能够生成可靠的性能指标并基于每个用户表征性能。对于个人模型，将10倍交叉验证应用于每个用户的数据，从而评估590（59*10）个个人模型。由于每个用户的数据量非常有限（平均160个示例），因此必须进行10倍交叉验证。这两种类型的模型的混淆矩阵是通过对所有59次运行中每个像元的计数求和而创建的。混合模型的设置要简单得多：我们将所有用户数据放入单个文件中，然后应用10倍交叉验证。因此，混合训练和测试集具有重叠的用户集。

为了生成个人模型和混合模型的学习曲线，我们为每个用户生成k倍（其中k是用户已完成的示例总数除以训练集中所需的示例总数）。这需要生成数以万计的模型。合并每个用户的所有折叠的结果，然后平均所有用户的结果。为了生成非个人模型的学习曲线，生成每种可能的组合都是不切实际的。相反，我们随机选择了所需数量的用户，然后从每个选定的用户中随机选择了所需数量的示例，以构建训练集。重复该过程50次，并将结果取平均值。我们提供给HASC数据集的结果是使用相同的方法得出的。

4 Results.

在本节中，我们介绍了对两个数据集（我们和HASC）的分析结果。我们主要关注数据的结果，因为它表示一组更复杂的活动，并且因为它包含有关参与者的更详细的信息。在一些关键的地方，例如我们评估用户数量增加的影响的地方，我们将提供有关HASC数据的更详细的发现。

表2中显示了与我们的数据集上的个人模型，混合模型和非个人模型相关的预测准确性。这些结果非常清楚地表明，对于每种分类算法，个人模型表现最佳，混合模型表现次佳，而混合模型表现最佳。非人格模型表现最差。此外，个人模型始终具有很高的准确性，并且其性能要比非个人模型好得多。尽管这一结果似乎很容易证明是正确的，但由于人们彼此之间的移动互不相同，但由于个人模型是从少得多的数据中训练出来的，因此结果远非显而易见。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models
混合模型的性能通常比非个人模型更接近个人模型。考虑到个人模型的表现，这有点令人惊讶。这意味着即使只有一小部分数据（平均1 = 59）是个人数据，混合模型也可以有效地使用数据集中的个人数据。这意味着分类算法可以有效地从大量用户中识别特定用户的移动模式。回想起来，这并不令人惊讶，因为我们最近的工作表明，从加速度计数据中得出的生物特征识别模型可以以接近完美的准确性从一组用户中识别出一个用户[14]。因为混合模型的性能比个人模型差，但是仍然需要从目标用户那里获取标记的训练数据，所以似乎没有理由使用混合模型。唯一的例外可能是当个人数据量极少时，从而增加了相对常见的非个人数据的重要性。但是，正如我们在本节后面所看到的，即使个人数据很少，个人模型也要比非个人模型好。这一结果令我们感到惊讶，但真正的惊喜在于即使很小的数量，有效的个人数据也是如此。

本文的主要重点是三种类型的AR模型的比较性能，但是我们的结果也表明，鉴于我们对问题的阐述，哪种分类方法可能最适合AR（请参见表2中带下划线的值）。对于个人模型，尽管RF和IB3的表现也很出色，但是NN的表现最好。对于混合模型，IB3表现最好，但RF表现出色；对于非个人模型，RF效果最好。对这三种模型进行平均，RF表现最佳。 出于篇幅考虑，我们的许多详细结果仅集中于RF，IB3和NN（表现最佳的三种）。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models
表2中的个人结果反映了我们在HASC数据上的结果（结果未显示）。 使用RF，个人准确性为97.2％。但是，非个人准确性比我们的数据集更高，为85％。在本节中，我们将更彻底地研究这种差异的原因。

4.1 Accuracy by Activity.

表3显示了使用三种表现最佳的分类算法和基准策略，针对每个活动的个人和非个人模型的AR性能。 基准策略始终会预测指定的活动，或者在评估总体绩效时会预测最常见的活动。基线使我们可以考虑分类失衡。个人模型在每项活动中的表现都优于非个人模型，尽管非个人模型仍胜过基线。

表4提供了与随机森林学习者相关的个人和个人模型的混淆矩阵。这些结果表明，对于非人格模型和个人模型，大多数错误都是由于走楼梯而坐着躺着所致。

步行和楼梯之间的混乱可能是由于脚步之间的时间相似，并且由于人们在执行这些活动时表现出的差异而加剧了（慢步可能不会出现此问题，因为脚步之间的时间更短，加速度值也更极端。）。很容易看出为什么躺下和坐着会感到困惑，因为这两种固定活动的口袋方向都相似。尽管表4b中的个人模型结果表明，这些活动仍然是最令人困惑的，但此类错误的发生率却降低了10倍以上。这表明有可能了解以下方面的用户专长：这两组活动以及所有人的差异都不相同。这是使用个人模型的关键论点，也许是本文最重要的结论。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models

坐着和躺着之间的混淆不是HASC数据集的一个因素，因为站立是唯一的固定活动。这极大地促进了HASC集合上非人格模型的性能提高；缺少最难识别的班级。因此，与HASC集相比，我们更专注于自己的，更具挑战性的数据集。

4.2 Accuracy by User.

到目前为止提供的结果是所有用户的平均值。但是，了解用户之间的AR性能如何变化很有帮助。图2为个人模型提供了此信息，并显示了这些模型对于几乎所有用户而言始终如一地表现良好。表现较差的次要异常值主要是由于这些用户数据中的类不平衡程度很高。例如，具有第二高错误率的用户具有59个步行数据示例，但对于其他每个活动仅具有5到8个示例。精度最差的用户具有相似的等级分布，并且还导致腿部受伤。因此，个人模型确实发生的一些问题似乎是由于分类失衡的严重程度或伤害造成的。

**图3显示了非个人模型的性能分布。仍然有一些用户的分类精度在95-100％范围内，但是精度差异很大，并且有些用户的分类精度极低。**我们的详细分析表明，在使用个人模型时，这些表现非常差的用户大多数都表现良好。这些结果进一步支持了以下观点：许多用户与其他用户不同，这使非个人模型产生了混淆，而个人模型可以学习这些用户特定差异，从而始终获得良好的结果。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models
作为我们数据收集协议的一部分，我们收集有关每个用户的身体特征（身高，体重，性别，鞋子大小等）的信息。我们分析了这些信息，以确定对于个性化模型而言，具有特殊或极端特征的人是否特别难以预测，但部分由于用户数量有限，我们只能发现提示性模式。例如，在使用非个人RF模型最难预测的10位用户中，有3位是研究中最老的用户。将来，我们计划从更多的用户那里收集数据，以便我们可以更好地评估这些因素的影响。

4.3 Augmented Impersonal Models.

为了更好地理解这些特征与模型性能之间的关系，我们多次重复了非人格模型的实验，每次都通过附加的个人信息属性（即身高，体重，鞋码和性别）。与标记的训练数据相比，此类信息所需的精力更少，因此，存在建立更具针对性的非人身模型的可能性，该模型可能具有个人模型的某些优点，但没有成本。此外，我们根据转换后的加速度计数据的相似性来匹配用户，并使用来自最相似用户的数据构建了另一组模型。这些是先前研究中使用的协议的替代版本[16]。

如果先前的工作通过将非个人模型限制在相似的用户上而显示出改进，则这种改进是有限的，并且仅使模型的每项活动的准确性达到与表3中我们的非个人模型相似的比率[16]。因为我们的用户已经非常相似（主要是大学生），而其他研究的主题不太统一，所以在我们的数据集上这些技术没有提高准确性也就不足为奇了。这表明未经标记个人数据训练的模型的性能较差是差异的结果，这些差异不能完全由用户人口统计学的差异来解释，也不能通过未标记数据的相似性来弥补。我们得出的结论是，简单的人口统计信息，甚至是未标记的数据，都无法替代该用户标记的加速度计数据，该数据可能会编码与受试者的运动有关的特质。

4.4 Accuracy by Quantity of Training Data.

在本文的上下文中，学习曲线可能特别有见地，因为变化数量的训练数据可能会不同地影响模型类型，并且获取标记的个人数据可能会非常昂贵。我们首先分析如图5和6所示的个人模型和混合模型的学习曲线。这些图表明，个人模型和混合模型可以迅速提高其性能。 图5显示，只有20秒（2个示例）的个人数据，所有这三个分类者明显胜过非个人模型。

此外，我们的结果表明，在用户进行每项活动的标记数据2分钟（仅12个示例）后，RF模型的准确率达到了98.7％。有了3分钟的数据，这一比率增加到99.2％，而在5分钟的时间内，达到99.6％。但是，这里的关键要点是，为了胜过使用更多数据建立的非个人模型，每个活动仅需要少量的个人数据。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models

为了为混合模型生成相同的曲线，我们以非个人模型训练集为基础，并添加了用于生成图5的个人模型训练集的数据。所得的训练集包括所有可用的非个人数据和个人数在x轴上指定的数据。图6展示了混合模型的相似但不那么生动的模式，就像我们在个人模型中看到的那样。每项活动都有10秒的标记个人数据，我们的三种混合模型中有两种优于个人模型，而所有模型都优于非个人模型。从20到30秒甚至更长时间，个人模型的性能将大大超过混合模型。非人格模型还需要考虑其他因素：我们可以改变每个用户的数据量和训练集中的用户数量。图4显示了这两个因素，并以3维的分类精度进行了绘制。表面被着色以使其精度尺寸更清晰。

尽管涉及到三个方面，但图4允许我们做出一些重要的观察，尽管其中一些可能很难一眼就能看出。 **与个人模型和混合模型一样，包含来自每个用户的两分钟以上的训练数据，其准确性几乎没有改善。**但是，当培训集中的用户很少时，每位用户包含更多数据（最多2分钟）会大大提高性能。随着训练集中用户数量的增加，来自每个用户的附加数据的价值会降低。在培训集中有58位用户时，每个活动每个用户使用10秒或5分钟的数据之间几乎没有区别。如此，提高非个人模型准确性的最佳方法是增加训练集中的用户数量，而不是增加每个用户的数据量，这是另一个重要的教训。这种权衡是戏剧性的：即使第一个数据集的总数据不足一半，由5个用户每个活动10秒钟的数据生成的模型也要优于2个用户每个活动60秒钟的数据生成的模型。图4还向我们展示了准确性还没有达到平稳状态，因此拥有来自58个以上用户的数据将提高准确性。

为了更好地理解这种趋势，我们为HASC数据集生成了相同的曲线，该曲线的用户数是后者的7倍。该集合的三维图表具有与图4相同的形状，但由于活动集合更简单和类不容忍度更高，因此略有上移。为了便于比较，我们在图7中同时显示了HASC曲线和HASC曲线。除210以外，其他用户的非人称模型准确性的提高可忽略不计。
论文阅读WISDM-03：The Benefits of Personalized Smartphone-Based Activity Recognition Models
我们还发现，随着我们增加数据集中的用户数量，两个数据集上的相同算法之间的性能差距将减小。仅一个用户时，差距为10分（46％至56％），而55个用户时，差距仅为5分（73％至78％）。此外，我们将对数函数f（x）= 6:53 ln（x）+47：75，R2 = 0:97，用于我们数据集上非个人模型的准确性，因此我们可以将其与 HASC为更多的用户设置。每组的tted曲线在图7中显示为较细的平滑线。基于此功能，将用户数从58增加到200将使平均准确度达到82％，而将HASC设置为200个用户的准确度仅为83％。当然，这些预测可能不会成立。

在任何情况下，很明显，个人甚至混合模型将大大优于非个人模型，同时使用的数据要少得多。我们预计没有用户会允许非个人模型胜过我们的个人模型，该模型基于大约24分钟的数据（分为六个活动）。我们的主要发现之一是，即使使用同质群体数据的非人身模型也受到步态模式多样性的限制，而步态模式的建立很容易克服这一障碍。

5 Related Work.

以前有过与AR的个人，非个人和混合模型相关的工作，尽管实际上在所有情况下，工作都没有将这些主题作为主要重点。几项AR研究仅分析非人格模型，结果有限[5，8，20]。使用智能手机的其他AR系统已经实现了相对较高的准确性，但仅使用了个人模型[5、19、28]。一篇论文描述了可以逐步训练以适应用户步态变化的个人模型[2]。但是，他们的结果与我们的非个人模型的结果相似，表明特征选择和算法选择仍然是AR的重要组成部分。

大多数其他基于智能手机的系统仅评估混合模型[3、7、15、27]，而许多其他研究[6、10]并未在其方法论中提供足够的信息来确定模型类型。我们认为这是有问题的，因为不同模型类型之间在性能和应用程序方面存在巨大差异。在一项对帕金森氏病患者的研究中，研究人员得出结论，对健康人进行训练的模型对帕金森氏病患者的表现较差[27]。但是，他们的方法表明，他们在评估健康受试者的准确性时使用混合模型，而在帕金森氏病患者中评估其准确性时使用非个人模型。我们的工作表明，他们的结果差异可能至少部分是由于模型类型的混合，而不是由于帕金森氏病患者和健康人之间的差异。

关于AR模型的不同类型的比较分析很少。两项研究确实比较了个人模型和非个人模型，但是都使用了ve加速度计，因此任何结论都不一定适用于基于智能手机的系统。这些研究的第一个结论是，由于额外的训练数据，非人格模型总是优于个人模型。它进一步表明，当使非个人和私人训练集大小相等时，个人模型仅略胜于非个人模型[4]。我们的结果显然与该结果矛盾很大（但对于基于智能手机的系统而言）。在第二项研究中，个人模型的表现优于非个人模型，但实际上并没有对此进行分析或讨论，因为这不是本文的重点[23]。

我们已经讨论过的一篇论文[16]认识到某些非个人模型的性能较差，并开发了通过有选择地对相似用户进行培训来提高其准确性的方法。但是，我们的结果表明，超出某个特定点（即他们[16]所达到的点以及我们从一组相似用户开始的点），用户相似性无法弥补步态差异。此外，我们对各种模型类型的学习曲线的分析表明，很少量的个人数据大大优于这些最佳情况的非人格模型，并且非个人模型的数据也无法与个人模型竞争。因此，本文是关于模型类型对AR |影响的最全面的研究，尤其是与单加速度计，基于智能手机的系统有关的研究。此外，我们还评估了混合模型，并在研究中包括了比以前的研究更多的用户，以及更多的活动，这些活动难以区分，从而带来更可靠，更通用的结果。

许多研究使用非常有限的数据集，通常少于5个用户[17，28]或10个用户[2，7，10]。使问题更加复杂的是，使用最广泛的AR数据集COSAR和OPPORTUNITY分别仅拥有4个和12个用户的数据[21，22]。较大的数据集（例如HASC 2010和2011）包含简化的活动集和较少的数据量。 这促使我们发布了我们的AR数据集[24]。

6 Conclusion and Future Work.

在本文中，我们描述和评估了仅使用智能手机实现活动识别的数据挖掘方法。我们证明，即使构建个性化模型，即使仅使用少量的用户特定训练数据，也可以实现近乎完美的结果。我们进一步证明，即使在最佳环境下，非人格模型在类似用户上接受训练，其性能也比个人模型差很多。对数据的分析表明，非个人模型无法有效地区分某些活动，而个人模型可以有效地学习混淆非个人模型的用户特定差异。 我们还表明，尽管非个人模型的不良性能是由某些特质用户（由于无法准确预测其活动）造成的，但问题是普遍存在的，并不局限于少数问题用户。尽管通过将培训人数增加到约210人，非人格模型的准确性似乎还有一定的提高空间，相关工作[16]显示，选择相似的用户子集也可以提高非个人模型的准确性。在某种程度上，很明显，个人模型能够在仅使用非常少量的个人数据的情况下大大胜过非个人模型。我们还表明，如果确实想提高非个人模型的性能，那么获得更多用户要比获得每个用户更多数据要好得多。

在本文中，我们还评估了混合模型的性能，并表明它们的性能通常不如个人模型，但始终优于使用相似用户构建的最佳情况非个人模型。 鉴于混合模型需要用户特定的训练数据，并且具有相同数据量的个人模型通常表现更好，因此使用个人模型会更好。 一个例外是极端的情况，其中我们仅从用户那里获得10秒钟的数据，但是这种情况不太可能，因为任何已经在收集个人数据的人都可以很容易地从健康人那里收集10秒钟以上的数据。因此，我们得出结论，混合模型永远不会实际胜过个人模型。

这项研究对个人，非个人和混合AR模型的相对性能进行了最彻底的分析，我们认为这是本文的主要贡献（以及上面列出的各种经验教训）。这也是首次详细研究训练集大小对AR性能的影响，因为它随唯一用户数和每位用户数据量的变化而变化。这项工作应该极大地影响设计未来的AR系统以及依赖它们的更高级别的活动和上下文表示系统。

我们的主要成就之一是通过我们的可下载应用程序Actitracker [1]，使智能手机用户和研究人员都可以进行AR研究。我们的增强现实系统跟踪用户的活动，并通过安全的帐户和Web界面提供报告。此移动健康应用程序可帮助人们确保他们和他们的孩子足够活跃，以保持良好的健康状况，并避免与不运动有关的许多健康状况。由于这项研究的结果，我们在系统中加入了一种自我训练模式，因此可以快速生成个人标记的活动数据，以达到良好的预测效果。此数据将上传到我们的服务器，该服务器会自动生成个性化的AR模型，然后替换该用户的非个人模型。

将来，我们计划以多种方式扩展活动识别工作。我们将继续收集数据，并将增加更多用户。我们还计划在建立用户模型后数周和数月从用户那里收集标记的数据，以评估时间和不同的衣服和鞋类对活动识别的影响。我们还将介绍其他活动，并利用其他传感器，尤其是陀螺仪，陀螺仪已成为大多数智能手机的标准配置。