【发布时间】:2019-10-21 18:12:38
【问题描述】:
我有一个数据集
在机器学习中,我们使用 Tf-Idf 从文本数据中生成向量
但我无法在 Tf-idf 中传递此值
这是数据
remote_ip datetime1 user_name
192.168.1.19 2020-01-01 11:00:03 RON
192.168.1.14 2020-01-01 11:00:04 JOHN
192.168.1.195 2020-01-01 11:00:05 SAM
192.168.1.120 2020-01-01 11:00:06 PILL
192.168.1.119 2020-01-01 11:00:07 ARR
192.168.1.119 2020-01-01 11:00:08 ARR
这就是我想做的事情
我手动设置了所有这些值(向量类型值)(这样你就会明白我想要什么)
remote_ip datetime1 user_name
-0.7843 -0.1231 -0.5232
0.2313 -0.4232 -0.5833
0.3451 -0.1243 -0.5239
-0.5618 -0.1234 -0.6735
-0.2134 -0.1235 -0.5236
-0.2134 -0.5236 -0.5238
第一次询问错误所以请忽略错误(可能有一些格式错误等等)
我们将不胜感激
谢谢
【问题讨论】:
-
嗨!我认为如果您对日期使用日期时间功能(例如星期几、月份中的某天等等)并通过“.”将 IP 拆分为 4 个功能会更好
-
@AnnaIliukovich-Strakovskaia 谢谢,但我使用的方法,我正在寻找不同的方法
-
@furas 我解决了错误,它返回数组数组,但我不想要它
-
什么数组?总是有问题地显示它-我们无法在您的脑海中阅读。并显示预期结果。
-
并始终将完整的错误消息(完整的 Traceback)放在问题中(作为文本,而不是屏幕截图)。还有其他有用的信息。
标签: python pandas numpy scikit-learn tf-idf