深度学习 NLP：“高效”的类似 BERT 的实现？答案

【问题标题】：Deep Learning NLP: "Efficient" BERT-like Implementations?深度学习 NLP：“高效”的类似 BERT 的实现？
【发布时间】：2020-08-31 12:21:42
【问题描述】：

我在一个传统的公司环境中工作，我只有 16 核 64GB 虚拟机可用于 NLP 项目。我有一个多标签 NLP 文本分类问题，我真的很想利用 BERT、RoBERTa、ALBERT 等深度表示学习模型。

我有大约 200,000 个文档需要标记，并且我已经注释了大约 2,000 个文档，用作训练/测试/微调的基本事实。我还有大量与领域相关的文档可用于预训练。我很可能需要从头开始进行预训练，因为这是在临床领域。如果预训练模型有机会使用 Hugging Face 等进行微调，我也对他们持开放态度。

人们会建议以哪些模型及其与 PyTorch 或 Keras 兼容的实现作为起点？或者这是我现有的计算资源无法计算的？

【问题讨论】：

【解决方案1】：

如果您想使用当前设置，运行变压器模型将没有问题。您可以通过减小批处理大小来减少内存使用，但代价是运行速度较慢。

或者，在免费的 Google Colab 上测试您的算法。然后开设一个 GCP 帐户，google 将提供 300 美元的免费积分。使用它来创建一个 GPU 云实例，然后在那里运行您的算法。

您可能想使用来自HuggingFace Transformers 的 Albert 或 Distilbert。 Albert 和 Distilbert 都进行了计算和内存优化。 HuggingFace 有很多很好的例子。

您希望避免从头开始进行语言模型训练的经验法则。如果可能，微调语言模型或更好地跳过它并直接训练分类器。此外，HuggingFace 和其他人拥有 MedicalBert、ScienceBert 和其他专业的预训练模型。

【讨论】：