【发布时间】:2016-12-02 20:18:39
【问题描述】:
我只想解决以下问题:我想过滤掉数据帧的所有元组,其中一列中包含的字符串不包含在黑名单中,黑名单作为(可能为空的)字符串数组给出。
例如:如果黑名单包含“四十二”和“二十三”,则从数据框中过滤掉相应列包含“四十二”或“二十三”的所有行。
如果blacklist不为空(例如Array(“四十二”)),则以下代码将成功执行,否则失败(Array.empty [String]):
//HELPERs
val containsStringUDF = udf(containsString(_: mutable.WrappedArray[String], _: String))
def containsString(array: mutable.WrappedArray[String], value: String) = {array.contains(value)}
def arrayCol[T](arr: Array[T]) = {array(arr map lit: _*)}
df.filter(!containsStringUDF(arrayCol[String](blacklist),$"theStringColumn"))
错误信息是:
org.apache.spark.sql.AnalysisException: cannot resolve 'UDF(array(), theStringColumn)' due to data type mismatch: argument 1 requires array<string> type, however, 'array()' is of array<null> type
看起来,空数组似乎是无类型的。有什么好的方法来解决这个问题吗?
【问题讨论】:
-
所以黑名单是一个数组?实际上,我不太确定您要做什么
-
是的,以利亚。它包含我不希望在“theStringColumn”列中出现的字符串。
-
你能举个例子吗? (输入、黑名单和预期输出)
-
当然,我加了一个例子。
标签: arrays apache-spark