【问题标题】:Frequency or count for PCAPCA 的频率或计数
【发布时间】:2012-11-14 23:47:26
【问题描述】:

我有许多观察结果,这些观察结果是对给定用户发生的特定事件的计数。例如

        login_count logout_count
user1            5            2
user2           20           10
user3           34            5

我想将这些变量与其他一些变量一起提供给 PCA,只是想知道我是否应该直接使用计数(并缩放列)或使用百分比(并在之后缩放列)例如

       login_count logout_count
user1         0.71         0.28
user2         0.66         0.33
user3         0.87         0.13

哪一种更适合表示数据?

谢谢

【问题讨论】:

    标签: machine-learning pca


    【解决方案1】:

    取决于您要从数据中提取的信息。

    如果相关性login=p*logout 那么我会选择第一个。 另一个有点奇怪,因为你应该在 100% 的时间里登录(你怎么知道它是 user1?),而注销可能是 28%。此外,您还拥有 1-login_procent_i=logout_procent_i 依赖项,它将在预处理前后为您提供完美的相关性。

    【讨论】:

      猜你喜欢
      • 2021-07-29
      • 2021-04-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-11-04
      • 2021-04-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多