如何在 scikit-learn 中处理带有名称的数据？答案

【问题标题】：How to handle data with names in scikit-learn?如何在 scikit-learn 中处理带有名称的数据？
【发布时间】：2015-07-16 07:09:02
【问题描述】：

我将尝试使用聚类算法来聚类文件属性（例如访问时间）。

scikit 是否支持命名数据的聚类，即聚类算法运行后如何检索文件名？

有没有办法将元数据与训练数据一起存储，例如文件名？该元数据应该能够在特征缩放、人工特征引入等过程中保留下来。

【问题讨论】：

为什么不同时准备两个：1. 文件名列表，2. 对应特征的数组（和矩阵）。在聚类之后（在 2.），您可以使用索引来提取名称（从 1.）
我认为最基本的方法就是自己跟踪行索引和文件名之间的映射。本质上，您只需要存储一个文件名数组，它们的索引就是 sklearn 所看到的；聚类后，您可以通过索引该数组来取回文件名。仍然好奇是否有人知道 sklearn 中更直接的解决方案。

标签： python python-2.7 scikit-learn

【解决方案1】：

目前无法将名称或属性附加到 scikit-learn 中的行。这很快就会改变（https://github.com/scikit-learn/scikit-learn/issues/4497）。但就目前而言，自己跟踪这一点真的很容易。数据点的顺序和你得到的簇标签的顺序是一样的，所以第一个簇标签对应第一个文件名等

【讨论】：