【发布时间】:2021-02-24 21:40:50
【问题描述】:
我正在过滤一列以符合某些验证,我可以使用 Spark 内置函数进行过滤, 但是我需要用正确的消息记录无效数据(我正在使用 LazyLogging),有什么方法可以在不使用自定义 UDF 的情况下做到这一点,这样我就可以保持 Spark 优化?
例如过滤少于 20 个字符的名称:
df.filter(length($"name") <= lit(20))
在这种情况下,如何在没有自定义 UDF 的情况下记录超过 20 个字符的名称?
【问题讨论】:
标签: apache-spark spark-structured-streaming