【发布时间】:2023-04-10 23:08:01
【问题描述】:
我真的需要你的帮助,我希望当我说我不打算调试我的代码时我的语气不会太苛刻。我希望和/或认为除了我的代码之外,我可能不希望 spark 发生其他事情。
首先,让我给你一些历史和时间线,以便我可以透视它(或者你可以跳到下面的问题;))。
我在 2015 年 10 月使用 spark 1.5.1 在 python 上开发了一段使用 mllib 的代码,并且它有效。一直使用这个包,直到 2016 年 8 月。无论出于何种原因,我的代码不再工作,即使我使用的输入文件与 2015 年 10 月至 2016 年 8 月之间使用的输入文件相同。我的修复是升级到 spark 2.0。 0。使用相同的输入文件运行相同的代码,它又开始工作了。 [现在] 两个月后我需要刷新一下,你猜怎么着,它又不工作了。我回到了我在 spark 1.5.1 上使用过的相同输入文件,当它在 2.0.0 中成功运行时,它仍然无法正常工作。
所以,我的问题是...... spark 是否在后台进行一些我不知道且应该知道的更新或某些事情?如果是,我该如何关闭它或者我可以关闭它?如果这种行为不是预期的(我认为不是),为什么会发生这种情况?
提前感谢您的帮助。
【问题讨论】:
-
最可能的解释:您的代码或配置不正确,导致它不确定地失败。投票结束,因为没有两者,我们所能做的就是猜测。
-
如果我进行了更改会有意义,但如果我没有对其进行任何更改则没有意义。如果我使用与以前相同的输入和代码,为什么几个月后它会崩溃?顺便说一句 - 我同意在很大程度上没有调试的情况下会猜测,但想了解其他人是否正在经历这种情况。
标签: python apache-spark pyspark apache-spark-mllib