【发布时间】:2016-03-01 00:50:52
【问题描述】:
我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的feature extraction section 之后,我有点不清楚应该如何散列这些特性。一个示例记录是:
{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}
我尝试了几种散列技术(例如 MurmurHash),但它们似乎都得到了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功地散列标记的特征?
【问题讨论】:
-
为什么需要哈希?
-
看起来你需要的比散列更 one-hot。
标签: apache-spark machine-learning pyspark data-science apache-spark-ml