【发布时间】:2016-03-27 05:59:39
【问题描述】:
我的数据中有这样的行:
0,tcp,http,SF,181,5450,0,0,0.5,normal.
我想使用决策树算法进行训练。我无法创建 LabeledPoints,所以我想尝试对字符串使用 HashingTF,但我无法处理它。 “正常”是我的目标标签。如何创建 LabeledPoint RDD 数据以在 pyspark 中使用?此外,LabeledPoint 的标签需要双精度,我应该为标签创建一些双精度值还是应该对其进行哈希处理?
【问题讨论】:
标签: python apache-spark pyspark rdd