【问题标题】:How to handle data with names in scikit-learn?如何在 scikit-learn 中处理带有名称的数据?
【发布时间】:2015-07-16 07:09:02
【问题描述】:

我将尝试使用聚类算法来聚类文件属性(例如访问时间)。

scikit 是否支持命名数据的聚类,即聚类算法运行后如何检索文件名?

有没有办法将元数据与训练数据一起存储,例如文件名?该元数据应该能够在特征缩放、人工特征引入等过程中保留下来。

【问题讨论】:

  • 为什么不同时准备两个:1. 文件名列表,2. 对应特征的数组(和矩阵)。在聚类之后(在 2.),您可以使用索引来提取名称(从 1.)
  • 我认为最基本的方法就是自己跟踪行索引和文件名之间的映射。本质上,您只需要存储一个文件名数组,它们的索引就是 sklearn 所看到的;聚类后​​,您可以通过索引该数组来取回文件名。仍然好奇是否有人知道 sklearn 中更直接的解决方案。

标签: python python-2.7 scikit-learn


【解决方案1】:

目前无法将名称或属性附加到 scikit-learn 中的行。这很快就会改变(https://github.com/scikit-learn/scikit-learn/issues/4497)。但就目前而言,自己跟踪这一点真的很容易。数据点的顺序和你得到的簇标签的顺序是一样的,所以第一个簇标签对应第一个文件名等

【讨论】:

    猜你喜欢
    • 2017-03-10
    • 2012-07-26
    • 2018-07-07
    • 2012-10-15
    • 2020-03-26
    • 2013-03-18
    • 2017-06-17
    • 2014-03-31
    • 2012-07-11
    相关资源
    最近更新 更多