【发布时间】:2017-12-24 17:11:44
【问题描述】:
我正在尝试创建一个 pyspark 管道来运行分类模型。我的数据集有一列是一个字符串。所以我在管道中应用模型之前使用'StringIndexer'将其转换为数字。
我的管道仅包含 2 个阶段 StringIndexer 和 ClassificationModel
StringIndexer 正在创建一个带有索引的新列,但旧列也被保留。我想在管道中引入一个新的变压器来删除一个“字符串”列。这可能吗?
还有其他方法可以删除 StringIndexer 中的实际列吗?
谢谢
【问题讨论】:
标签: python apache-spark machine-learning pyspark spark-dataframe