【发布时间】:2015-11-18 16:44:24
【问题描述】:
我有一个带有大量可解析元数据的 DF,作为 Dataframe 中的单个字符串列,我们称之为 DFA,使用 ColmnA。
我想通过一个函数 ClassXYZ = Func1(ColmnA) 将这一列 ColmnA 分成多个列。此函数返回一个类 ClassXYZ,其中包含多个变量,现在每个变量都必须映射到新的 Column,例如 ColmnA1、ColmnA2 等。
我将如何通过仅调用此 Func1 一次来使用这些附加列从 1 个 Dataframe 到另一个 Dataframe 进行这种转换,而不必重复它来创建所有列。
如果我每次都调用这个巨大的函数来添加一个新列,这很容易解决,但我希望避免这种情况。
请提供工作代码或伪代码。
谢谢
桑杰
【问题讨论】:
标签: scala apache-spark dataframe apache-spark-sql user-defined-functions