【问题标题】:Convert Dataframe with Vector column to Dataset - which type to be used in the case class将带有 Vector 列的 Dataframe 转换为 Dataset - 在案例类中使用哪种类型
【发布时间】:2021-06-13 20:04:55
【问题描述】:

我有一个带有 矢量类型列的数据框,这是 onehot 编码器的结果。我们将列命名为 Vector

使用案例类示例(向量:WhichType),我想将数据框映射到数据集:

val ds = dataframe.as[Example]

问题是:case类中的属性'vector'应该有哪一种类型。

我收到一条错误消息:

需要一个数组字段但得到了 structtype:tinyint,size:int,indices:array;

【问题讨论】:

    标签: scala apache-spark apache-spark-ml


    【解决方案1】:

    如果您使用的是 Spark ML,那么您可以使用下面导入的 Vector 类型:

    import org.apache.spark.ml.linalg.Vector
    
    case class Example(vector: Vector)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-14
      • 1970-01-01
      • 2016-08-28
      • 1970-01-01
      • 1970-01-01
      • 2015-03-25
      相关资源
      最近更新 更多