【问题标题】:how to convert IPs to vector values如何将 IP 转换为向量值
【发布时间】:2019-10-21 18:12:38
【问题描述】:

我有一个数据集

在机器学习中,我们使用 Tf-Idf 从文本数据中生成向量

但我无法在 Tf-idf 中传递此值

这是数据

   remote_ip            datetime1              user_name
   192.168.1.19     2020-01-01 11:00:03          RON
   192.168.1.14     2020-01-01 11:00:04          JOHN
   192.168.1.195    2020-01-01 11:00:05          SAM
   192.168.1.120    2020-01-01 11:00:06          PILL
   192.168.1.119    2020-01-01 11:00:07          ARR
   192.168.1.119    2020-01-01 11:00:08          ARR

这就是我想做的事情

我手动设置了所有这些值(向量类型值)(这样你就会明白我想要什么)

 remote_ip    datetime1         user_name
-0.7843         -0.1231          -0.5232
 0.2313         -0.4232          -0.5833
 0.3451         -0.1243          -0.5239
-0.5618         -0.1234          -0.6735
-0.2134         -0.1235          -0.5236
-0.2134         -0.5236          -0.5238

第一次询问错误所以请忽略错误(可能有一些格式错误等等)

我们将不胜感激

谢谢

【问题讨论】:

  • 嗨!我认为如果您对日期使用日期时间功能(例如星期几、月份中的某天等等)并通过“.”将 IP 拆分为 4 个功能会更好
  • @AnnaIliukovich-Strakovskaia 谢谢,但我使用的方法,我正在寻找不同的方法
  • @furas 我解决了错误,它返回数组数组,但我不想要它
  • 什么数组?总是有问题地显示它-我们无法在您的脑海中阅读。并显示预期结果。
  • 并始终将完整的错误消息(完整的 Traceback)放在问题中(作为文本,而不是屏幕截图)。还有其他有用的信息。

标签: python pandas numpy scikit-learn tf-idf


【解决方案1】:
  • 您应该将日期转换为引用(年、月、日、小时、分钟、秒)的列
  • 用户名的标签编码
  • 将 IP 转换为 4 列。

在这种情况下您不需要使用 tf-idf,因为所有值都是数字并且对建模有效

【讨论】:

    猜你喜欢
    • 2012-01-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-19
    相关资源
    最近更新 更多