【发布时间】:2015-07-16 07:09:02
【问题描述】:
我将尝试使用聚类算法来聚类文件属性(例如访问时间)。
scikit 是否支持命名数据的聚类,即聚类算法运行后如何检索文件名?
有没有办法将元数据与训练数据一起存储,例如文件名?该元数据应该能够在特征缩放、人工特征引入等过程中保留下来。
【问题讨论】:
-
为什么不同时准备两个:1. 文件名列表,2. 对应特征的数组(和矩阵)。在聚类之后(在 2.),您可以使用索引来提取名称(从 1.)
-
我认为最基本的方法就是自己跟踪行索引和文件名之间的映射。本质上,您只需要存储一个文件名数组,它们的索引就是 sklearn 所看到的;聚类后,您可以通过索引该数组来取回文件名。仍然好奇是否有人知道 sklearn 中更直接的解决方案。
标签: python python-2.7 scikit-learn