Spark 线性回归特征哈希答案

【问题标题】：Spark Linear Regression Feature HashesSpark 线性回归特征哈希
【发布时间】：2016-03-01 00:50:52
【问题描述】：

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的feature extraction section 之后，我有点不清楚应该如何散列这些特性。一个示例记录是：

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我尝试了几种散列技术（例如 MurmurHash），但它们似乎都得到了垃圾权重（例如 NAN、PositiveInfinity 等）或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功地散列标记的特征？

【问题讨论】：

【解决方案1】：

对国家/地区执行散列可能会将不相关的观察结果混为一谈。您也许可以在设备上使用 simhash 并在 country - 上使用精确比较（不区分大小写）。跨两个变量的散列方法可能适用于聚类，但不太可能适用于回归。

为每个国家/地区创建单独的曲线，您可能会尝试将 simhash 应用于移动设备。

【讨论】：