【问题标题】:Turn many features in a data frame with spark ML使用 spark ML 转换数据框中的许多特征
【发布时间】:2017-12-15 03:32:23
【问题描述】:

我正在关注本教程https://mapr.com/blog/churn-prediction-sparkml/ 我意识到 csv 结构必须像这样手工编写:

val schema = StructType(Array(
    StructField("state", StringType, true),
    StructField("len", IntegerType, true),
    StructField("acode", StringType, true),
    StructField("intlplan", StringType, true),
    StructField("vplan", StringType, true),
    StructField("numvmail", DoubleType, true),
    StructField("tdmins", DoubleType, true),
    StructField("tdcalls", DoubleType, true),
    StructField("tdcharge", DoubleType, true),
    StructField("temins", DoubleType, true),
    StructField("tecalls", DoubleType, true),
    StructField("techarge", DoubleType, true),
    StructField("tnmins", DoubleType, true),
    StructField("tncalls", DoubleType, true),
    StructField("tncharge", DoubleType, true),
    StructField("timins", DoubleType, true),
    StructField("ticalls", DoubleType, true),
    StructField("ticharge", DoubleType, true),
    StructField("numcs", DoubleType, true),
    StructField("churn", StringType, true)

但是我有一个包含 335 个特征的数据集,所以我不想把它们都写出来……有没有一种简单的方法来检索它们并相应地定义架构?

【问题讨论】:

    标签: scala machine-learning apache-spark-mllib


    【解决方案1】:

    我在这里找到了解决方案:https://dzone.com/articles/using-apache-spark-dataframes-for-processing-of-ta 这比我想象的要容易

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-05-17
      • 1970-01-01
      • 2021-03-07
      • 1970-01-01
      • 1970-01-01
      • 2022-01-05
      • 1970-01-01
      相关资源
      最近更新 更多