【发布时间】:2016-10-03 16:32:01
【问题描述】:
我正在尝试学习如何了解 Spark 内部正在发生的事情,这是我目前的困惑。我正在尝试将 Oracle 表中的前 200 行读入 Spark:
val jdbcDF = spark.read.format("jdbc").options(
Map("url" -> "jdbc:oracle:thin:...",
"dbtable" -> "schema.table",
"fetchSize" -> "5000",
"partitionColumn" -> "my_row_id",
"numPartitions" -> "16",
"lowerBound" -> "0",
"upperBound" -> "9999999"
)).load()
jdbcDF.limit(200).count()
我希望这会相当快。对具有 500K 行的表的类似操作在合理的时间内完成。在这种特殊情况下,表要大得多(数亿行),但我认为 limit(200) 会使其更快吗?我该如何弄清楚它把时间花在了哪里?
【问题讨论】:
标签: apache-spark apache-spark-sql