【发布时间】:2021-10-21 06:20:30
【问题描述】:
在 GPU 需求和 GPU 内存使用方面,与从头开始训练一个 Transformer(BERT、GPT-2)相比,微调一个预训练的 Transformer 模型是一个“更容易”的任务吗?
为了进一步澄清,我已经阅读了如何训练大多数 Transformer 模型,其中一个需要多 GPU 训练。但是,是否可以在单 GPU 上微调其中一些模型? 为什么会这样?
是不是因为我们可以用更小的batch,微调的时间不如从头训练?
【问题讨论】:
标签: machine-learning tensorflow2.0 huggingface-transformers fine-tune