为 BERT 建模创建输入数据 - 多类文本分类答案

【问题标题】：Creating input data for BERT modelling - multiclass text classification为 BERT 建模创建输入数据 - 多类文本分类
【发布时间】：2020-07-22 05:11:52
【问题描述】：

我正在尝试构建一个 keras 模型来对 45 个不同类别的文本进行分类。我对按照谷歌的 BERT 模型的要求为输入准备我的数据有点困惑。

一些博客文章将数据插入为带有 input_ids、segment ids 和 mask ids 的 tf 数据集，如 this guide，但有些只使用 input_ids 和掩码，如 in this guide.

同样在第二个指南中，它指出段掩码和注意掩码输入是可选的。

谁能解释一下多类分类任务是否需要这两个？

如果有帮助，我的数据的每一行都可以由大小合理的段落中的任意数量的句子组成。我希望能够将每个段落/输入分类为单个标签。

我似乎找不到很多关于将 BERT 与 Keras (Tensorflow 2) 结合使用来解决多类问题的指南/博客，实际上其中很多都是针对多标签问题的。

【问题讨论】：

【解决方案1】：

我想现在回答为时已晚，但我也有同样的问题。我查看了 huggingface 代码，发现如果 attention_mask 和 segment_type id 为 None 则默认情况下它会注意所有标记，并且所有段的 id 为 0。

如果你想查看，可以找到代码here

让我知道这是否澄清了它，或者你认为不是。

【讨论】：