【问题标题】:Spark's takeSample() results in two stagesSpark 的 takeSample() 结果分为两个阶段
【发布时间】:2015-08-27 11:49:45
【问题描述】:

我在 Spark 1.3.1 中观察到了有趣的行为,其原因尚不清楚。

sc.textFile("...").takeSample(...) 这样简单的事情总是会分为两个阶段:

【问题讨论】:

    标签: apache-spark sample


    【解决方案1】:

    我能够重现这一点,关键是关注details 扩展。第一个和第二个在takeSample 中的呼叫具有不同的行号。第一个是Line 428,它是对count 的调用,因此它会自行触发。第二个是Line 447,它是对sample 本身的调用。这可能会令人困惑并且可能会被修复,但我认为它不会是一个高优先级。

    【讨论】:

    • 谢谢,有道理。查看takeSample 的代码,很可能会看到更多阶段——在某些条件下还可以触发其他操作。
    猜你喜欢
    • 2016-12-23
    • 2013-01-19
    • 2019-05-30
    • 1970-01-01
    • 2016-09-28
    • 1970-01-01
    • 2022-11-14
    • 1970-01-01
    相关资源
    最近更新 更多