【问题标题】:Sparklyr, spark_read_csv, do we have to reimport data everytime?Sparklyr、spark_read_csv,是不是每次都要重新导入数据?
【发布时间】:2019-03-11 03:12:01
【问题描述】:

我正在使用 sparklyr 读取本地计算机上的数据。

我做了什么

spark_install()


config <- spark_config()
spark_dir = "C:/spark"

config$`sparklyr.shell.driver-java-options` <- paste0("-Djava.io.tmpdir=", spark_dir)
config$`sparklyr.shell.driver-memory` <- "4G"
config$`sparklyr.shell.executor-memory` <- "4G"
config$`spark.yarn.executor.memoryOverhead` <- "1g"

sc = spark_connect(master = "local", config = config)

my_data = spark_read_csv(sc, name = "my_data", path = "my_data.csv", memory = FALSE)

完成后,在文件夹C:/Spark中找到了一个名为 liblz4-java8352426675436067796.so

这是什么文件?

如果我断开 Spark 连接,这个文件仍然存在。下次如果我想再次使用my_data.csv,是否需要重新运行spark_read_csv? 读取数据需要很长时间。

或者有什么方法可以直接使用这个文件liblz4-java8352426675436067796.so

【问题讨论】:

    标签: r apache-spark sparklyr


    【解决方案1】:

    完成后,在文件夹 C:/Spark 中找到了一个名为 liblz4-java8352426675436067796.so 的文件

    这是什么文件?

    该文件是liblz4 的Java 绑定共享库。它与您的数据无关。

    如果我断开 Spark 连接,这个文件仍然存在。下次如果我想再次处理 my_data.csv,我需要重新运行 spark_read_csv 吗?

    是的,您必须重新导入数据。spark_read_csv 仅创建临时绑定,这些绑定不能超过对应的 SparkSession

    如果你想保留数据,你应该使用 Hive Metastore 创建一个持久表。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-08
      • 1970-01-01
      相关资源
      最近更新 更多