如何使用 if 在 scala 中的 map 函数中进行过滤？答案

【问题标题】：How to use if to filter in a map function in scala?如何使用 if 在 scala 中的 map 函数中进行过滤？
【发布时间】：2015-02-04 01:02:45
【问题描述】：

我有一个从sc.newAPIHadoopFile 生成的 hadoopFiles 对象。

scala> hadoopFiles
res1: org.apache.spark.rdd.RDD[(org.apache.hadoop.io.LongWritable, org.apache.hadoop.io.Text)] = UnionRDD[64] at union at <console>:24

我打算遍历hadoopFiles中的所有行并对其进行操作和过滤，其中应用if检查并将引发异常：

scala> val rowRDD = hadoopFiles.map(line =>
     |           line._2.toString.split("\\^") map {
     |             field => {
     |               var pair = field.split("=", 2)
     |               if(pair.length == 2)
     |                 (pair(0) -> pair(1))
     |             }
     |           } toMap
     |         ).map(kvs => Row(kvs("uuid"), kvs("ip"), kvs("plt").trim))
<console>:33: error: Cannot prove that Any <:< (T, U).
                 } toMap
                   ^

但是，如果我删除 if(pair.length == 2) 部分，它会正常工作：

scala>     val rowRDD = hadoopFiles.map(line =>
     |           line._2.toString.split("\\^") map {
     |             field => {
     |               var pair = field.split("=", 2)
     |               (pair(0) -> pair(1))
     |             }
     |           } toMap
     |         ).map(kvs => Row(kvs("uuid"), kvs("ip"), kvs("plt").trim))
warning: there was one feature warning; re-run with -feature for details
rowRDD: org.apache.spark.rdd.RDD[org.apache.spark.sql.catalyst.expressions.Row] = MappedRDD[66] at map at <console>:33

谁能告诉我这种现象的原因，并告诉我应用if语句的正确方法。非常感谢！

P.S.我们可以用这个简化的例子来测试：

"1=a^2=b^3".split("\\^") map {
            field => {
              var pair = field.split("=", 2)
              if(pair.length == 2)
                pair(0) -> pair(1)
              else
                return
            }
          } toMap

【问题讨论】：

如果pair.length != 2.你也为这种情况提供了一些东西。
把它过滤掉。我只寻找完全由两部分组成的键值对。 @SarveshKumarSingh

标签： scala collections apache-spark flatmap

【解决方案1】：

要映射集合并只保留部分映射元素，您可以使用flatMap。 flatMap 接受一个返回集合的函数，例如例如Option。现在if 表达式需要有一个else 部分返回一个空的Option，即None。

scala> val rowRDD = hadoopFiles.map(line =>
     |           line._2.toString.split("\\^") flatMap {
     |             field => {
     |               var pair = field.split("=", 2)
     |               if (pair.length == 2)
     |                 Some(pair(0) -> pair(1))
     |               else
     |                 None
     |             }
     |           } toMap
     |         ).map(kvs => Row(kvs("uuid"), kvs("ip"), kvs("plt").trim))

【讨论】：

也就是说，如果我的行看起来像'1=a^2=b^3'，上面的flatMap函数只会返回(1->a)和(2->b) ?我是 scala 和 Spark 的新手，Some 和 None 关键字在这里与flatMap 交互有什么作用？为什么不用map 函数？
好吧，它又抛出一个错误：error: value flatmap is not a member of Array[String]
Some 和 None 不是关键字。它们是Option 的子类，Option 是一个可以有零个元素（None）或一个元素（Some）的容器。
当修改为flatMap时，这正是我所期望的。感谢您的详细解释：]

【解决方案2】：

你可以使用collect:

val res = "1=a^2=b^3".split("\\^") collect {
  _.split("=", 2) match {
    case Array(a, b) => a -> b
  }
} toMap

println(res) // Map(1 -> a, 2 -> b)

在您的特定情况下会发生以下情况：

case class Row(uuid: String, ip: String, plt: String)
val hadoopFiles = List(("", "uuid=a^ip=b^plt"))

val rowRDD = hadoopFiles.map(line =>
  line._2.toString.split("\\^") map {
    field =>
      {
        var pair = field.split("=", 2)
        val res = if (pair.length == 2)
          (pair(0) -> pair(1))
        res  // res: Any (common super class for (String, String)
             // which is Tuple2 and Unit (result for case when 
             // pair.length != 2)
      }
  } /* <<< returns Array[Any] */ /*toMap*/ ) 
  //.map(kvs => Row(kvs("uuid"), kvs("ip"), kvs("plt").trim))

内部map的结果是Any，map产生Array[Any]。如果您查看toMap 定义，您会看到：

  def toMap[T, U](implicit ev: A <:< (T, U)): immutable.Map[T, U] = {
    val b = immutable.Map.newBuilder[T, U]
    for (x <- self)
      b += x // <<< implicit conversion from each `x` of class `A` in `self`
             // to (T, U) because we have `implicit ev: A <:< (T, U)`
    b.result()
  }

对于您的Array[Any]，在当前上下文中没有从Any 到(T, U) 的隐式转换。因此，您的代码失败。如果添加 else 替代方案：

  val rowRDD = hadoopFiles.map(line =>
    (line._2.toString.split("\\^") map {
      field =>
        {
          var pair = field.split("=", 2)
          val res = if (pair.length == 2)
            (pair(0) -> pair(1))
          else ("" -> "") // dummy, just for demo
          res // res: (String, String)
        }
    } toMap) withDefaultValue ("") 
           /*withDefaultValue just to avoid Exception for this demo*/ )
    .map(kvs => Row(kvs("uuid"), kvs("ip"), kvs("plt").trim))

  println(rowRDD) // List(Row(a,b,))

这里您的结果将是 Array[(String, String)] 并且存在从 (String, String) 到 (T, U) 的隐式转换。所以代码编译并工作。

【讨论】：