【发布时间】:2019-03-20 04:42:26
【问题描述】:
我必须生产一个 PyTorch BERT 问答模型。 CPU 推理对我来说非常慢,因为模型需要评估 30 个样本的每个查询。在这 30 个样本的结果中,我选择得分最高的答案。 GPU 对我来说太昂贵了,无法用于推理。
我可以为此利用多处理/并行 CPU 推理吗? 如果是,这样做的最佳做法是什么? 如果否,是否有一个云选项只针对我进行的 GPU 查询而不是持续运行 GPU 实例向我收费?
【问题讨论】:
标签: python multiprocessing pytorch