使用 pyspark 和 scala 在 Jupyter 中自动完成答案

【问题标题】：autocompletion in Jupyter with pyspark & scala使用 pyspark 和 scala 在 Jupyter 中自动完成
【发布时间】：2016-09-22 01:06:24
【问题描述】：

我非常羡慕 Jupyter 笔记本中的 DataBricks 自动完成功能，但我无法让它在我的本地安装中运行。

我找到了 %config IPCompleter.greedy=True 的文档这适用于 python，但不适用于 pyspark 或 spark-shell(scala)。有谁知道如何进行这项工作？

顺便说一句：我正在 ubuntu 16.04 64 位上使用 Spark 2.0.0 和 Spark 2.11。此外，toree 与 Spark 2.0 和 Spark2.11 一起工作，我编译了 toree-assembly-0.2.0.dev1-incubating-SNAPSHOT 那是在hyoon下的我的binstar里。 https://anaconda.org/hyoon/toree

【问题讨论】：

据我所知，这些自动完成功能都没有那么好用。我通常在 Intellij idea 中编写和测试我的代码，然后将我的代码移动到笔记本中进行演示或绘图。我想要一个更好的方法，但它可能充其量是 databricks 所做的，也不是那么好。
我同时使用 Intellij n ensime，两者差不多（至少在 Emacs 中）。我希望将来 jupyter 可以与 ensime 集成，这应该照顾 scala 方面。 spark-notebook 和 zeppline 似乎都比 jupyter 更具实验性。我有编译或实现方面。
我很久以前就测试过 ensime+emacs。我发现intellij总体上更好，而且速度更快但仍然很慢。不过我真的很喜欢。对于喜欢 emacs 的人（我就是），ensime+emacs 是天赐良机！
您知道 emacs 代表“中年计算机科学专家的独家编辑”。 ;）对？是的，即使在我的 3+ghz Haswell 机器上，我也无法放下它。从 S+ 和 python 时代就一直坚持下去。

标签： scala apache-spark pyspark jupyter

【解决方案1】：

似乎从 Spark 2.2 开始就解决了这个问题。请务必正确设置环境变量。现在一切正常。

下面是重要的！

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$SPARK_HOME/python/lib/py4j-0.10.1-src.zip:$PYTHONPATH

【讨论】：