【发布时间】:2015-10-28 18:42:11
【问题描述】:
给定以下 sn-p:
val data = sc.parallelize(0 until 10000)
val local = data.collect
println(s"local.size")
Zeppelin 将local 的整个值打印到笔记本屏幕上。如何改变这种行为?
【问题讨论】:
标签: scala apache-spark apache-zeppelin
给定以下 sn-p:
val data = sc.parallelize(0 until 10000)
val local = data.collect
println(s"local.size")
Zeppelin 将local 的整个值打印到笔记本屏幕上。如何改变这种行为?
【问题讨论】:
标签: scala apache-spark apache-zeppelin
您也可以尝试在代码周围添加大括号。
{val data = sc.parallelize(0 until 10000)
val local = data.collect
println(s"local.size")}
【讨论】:
从 0.6.0 开始,Zeppelin 在 spark 的解释器配置中提供了一个布尔标志 zeppelin.spark.printREPLOutput(可通过 GUI 访问),默认设置为 true。
如果您将其值设置为false,那么您将获得仅输出显式打印语句的所需行为。
【讨论】:
zeppelin 开发人员终于意识到了这一点。但我总体上对zeppelin 的可用性不满意并切换到jupyter
FWIW,这似乎是新行为。 直到最近我们一直在使用 Livy 0.4,它只输出最终语句的内容(而不是回显整个脚本的输出)。
当我们升级到 Livy 0.5 时,行为改变为输出整个脚本。
虽然拆分段落和隐藏输出确实有效,但这似乎对 Zeppelin 的可用性造成了不必要的开销。 例如,如果您需要刷新输出,那么您必须记住运行两段(即设置输出的一段和包含实际 println 的一段)。
恕我直言,这种方法还存在其他可用性问题,再次恕我直言,Zeppelin 的使用不太直观。
有人记录了这张 JIRA 票以解决“问题”,请投票: LIVY-507
【讨论】:
Zeppelin 和 spark-shell REPL 总是打印整个解释器输出。
如果您真的只想打印 local.size 字符串 - 最好的方法是将 println "local.size" 语句放在单独的段落中。
然后您可以使用右上角的小“书”图标隐藏上一段的所有输出。
【讨论】:
./bin/spark-shell 这是我得到的输出scala>val local = data.collect local: Array[Int] = Array(0, 1, 2, 3, ...
为了避免这种情况,我要做的是定义一个顶级函数,然后调用它:
def run() : Unit = {
val data = sc.parallelize(0 until 10000)
val local = data.collect
println(local.size)
}
run();
【讨论】:
我使用的一个简单技巧是定义
def !() ="_ __ ___ ___________________________________________________"
并用作
$bang
高于或接近我要检查的代码 它有效
res544: String = _ __ ___ ___________________________________________________
然后我就离开那里注释掉;)
//希望对你有帮助
【讨论】: