【问题标题】:Can I use Papermill and Scrapbook with AWS EMR Notebooks?我可以将 Papermill 和 Scrapbook 与 AWS EMR Notebooks 一起使用吗?
【发布时间】:2020-01-24 18:45:01
【问题描述】:
我有几个笔记本,它们由使用造纸厂的“司机”笔记本运行。这些笔记本使用剪贴簿库将信息传达给驾驶员。然后驱动程序将此信息作为参数传递给其他笔记本。我想使用 EMR Notebooks 来优化这个“笔记本管道”的执行效率。 AWS EMR Notebooks 是否支持剪贴簿和造纸厂,还是我需要重构我的笔记本?
【问题讨论】:
标签:
python
amazon-web-services
jupyter-notebook
amazon-emr
papermill
【解决方案1】:
到目前为止,没有。你不能直接这样做。
您可以做的(我们正在做的)如下:
- 使用
hadoop 用户在您的 EMR 主节点上创建一个 python 环境
- 在您的环境中安装 sparkmagic 并按照 sparkmagic 的 README.md 文件中的说明配置所有内核
- 将您的笔记本复制到主节点/直接从 s3 位置使用它
-
安装 papermill 并使用 papermill 运行:
papermill s3://path/to/notebook/input.ipynb s3://path/to/notebook/output.ipynb -p param=1