参考资源
数据
数据来源
数据标注
数据存储
数据处理
开发平台
开发:一台 4 核图灵架构的计算机。
训练 / 评估:使用相同的 4 核 GPU 计算机。在运行许多实验时,可以购买共享服务器或使用云实例。
土豪配置:
开发:为每位机器学习科学家购买一台 4 核图灵架构计算机,或者让他们使用 V100 实例。
训练 / 评估:在正确配置和处理故障的情况下使用云实例。
开发工具
Vim
Emacs
VS Code:内置 Git 暂存和显示文件差异、Lint 代码扫描、通过 SSH 远程打开项目。
Jupyter Notebooks:Python代码开发和阅读工具,作为项目的起点很好,但它难以实现规模化。
Streamlit:具有小程序的交互式数据科学工具。
资源管理
为程序分配免费资源:
资源管理选项:
旧式集群作业调度程序(如,Slurm 工作负载管理器)
Docker + Kubernetes
Kubeflow
Polyaxon(付费功能)
调试实验
开发、训练和评估策略:永远从简单开始。在小批量上训练一个小型模型,只有在它能起作用的情况下,才扩展到更大的数据和模型,并进行超参数调优。
实验管理工具:
Tensorb