【问题标题】:Spark Linear Regression Feature HashesSpark 线性回归特征哈希
【发布时间】:2016-03-01 00:50:52
【问题描述】:

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的feature extraction section 之后,我有点不清楚应该如何散列这些特性。一个示例记录是:

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我尝试了几种散列技术(例如 MurmurHash),但它们似乎都得到了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功地散列标记的特征?

【问题讨论】:

  • 为什么需要哈希?
  • 看起来你需要的比散列更 one-hot。

标签: apache-spark machine-learning pyspark data-science apache-spark-ml


【解决方案1】:

对国家/地区执行散列可能会将不相关的观察结果混为一谈。您也许可以在设备上使用 simhash 并在 country - 上使用精确比较(不区分大小写)。跨两个变量的散列方法可能适用于聚类,但不太可能适用于回归。

为每个国家/地区创建单独的曲线,您可能会尝试将 simhash 应用于移动设备。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-10-15
    • 2014-04-08
    • 2018-01-02
    • 1970-01-01
    • 2021-05-14
    • 2021-04-16
    • 2020-05-19
    • 2017-10-24
    相关资源
    最近更新 更多