【发布时间】:2016-12-05 11:31:32
【问题描述】:
在 spark shell 上,我使用以下代码从 csv 文件中读取数据
val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session
df.show()
假设这显示 10 行。如果我通过编辑在 csv 中添加新行,是否会再次调用 df.show() 显示新行?如果是这样,这是否意味着数据框在每个操作上都从外部源(在本例中为 csv 文件)读取?
请注意,我没有缓存数据帧,也没有使用 spark 会话重新创建数据帧
【问题讨论】:
标签: caching apache-spark spark-csv