【问题标题】:Convert nominal to numeric data?将名义数据转换为数字数据?
【发布时间】:2017-06-21 15:21:18
【问题描述】:

我正在尝试在我的数据集上运行聚类算法。我的数据集是一组数据包(源 IP、目标、端口、类标签)。我想将这些数据从名义数据转换为数值数据。转换这些数据的正确技术是什么?

【问题讨论】:

    标签: dataset cluster-analysis numeric


    【解决方案1】:

    通常的方法是执行一次热编码。虽然这显然是以数字方式对数据进行编码,但它带来了几个问题。

    1. 增加的维度。这通常会导致可扩展性和区分问题(点之间的距离变得过于相似)
    2. 归一化和加权问题。典型的标准化策略(例如最小-最大缩放和标准化)无法按预期工作'
    3. 相关属性
    4. 新属性值的处理
    5. 变量将是离散的。许多算法(例如 k-means)需要 连续 属性才能正常工作。
    6. 解释问题。例如。聚类中心通常不会以有意义的方式映射回原始空间。

    【讨论】:

      猜你喜欢
      • 2021-08-04
      • 2021-03-13
      • 1970-01-01
      • 2023-03-03
      • 2021-08-04
      • 1970-01-01
      • 1970-01-01
      • 2015-08-16
      • 2014-05-11
      相关资源
      最近更新 更多