【发布时间】:2017-07-13 15:57:14
【问题描述】:
我使用 spark shell 将 spark 数据帧存储为 orc 文件,如下所示:
jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned")
我发现数据现在存在于 windows\system32\applicationsPartitioned 中
如何正确删除 orc 文件? 我可以自己关闭 spark 并删除目录,但是是否有一些元数据存储在这个目录的某个地方?
【问题讨论】:
-
您是否以管理员身份运行
cmd? -
是的,如果我不这样做,那么 spark-shell 会出现很多错误
-
在调用
spark-shell之前更改目录。它默认为 C:\Windows\System32\,不建议从那里写入/删除内容。你永远不知道它什么时候会破坏一些东西。毕竟是 Windows。 -
谢谢,这也很有帮助。我是新来的火花,仍在一步一步地弄清楚。我现在创建了一个 cmd.exe 的快捷方式,它将以管理员身份运行 + 自动切换目录并启动 spark-shell。这样就不会忘记了。
标签: apache-spark orc