【发布时间】:2020-07-22 05:11:52
【问题描述】:
我正在尝试构建一个 keras 模型来对 45 个不同类别的文本进行分类。我对按照谷歌的 BERT 模型的要求为输入准备我的数据有点困惑。
一些博客文章将数据插入为带有 input_ids、segment ids 和 mask ids 的 tf 数据集,如 this guide,但有些只使用 input_ids 和掩码,如 in this guide.
同样在第二个指南中,它指出段掩码和注意掩码输入是可选的。
谁能解释一下多类分类任务是否需要这两个?
如果有帮助,我的数据的每一行都可以由大小合理的段落中的任意数量的句子组成。我希望能够将每个段落/输入分类为单个标签。
我似乎找不到很多关于将 BERT 与 Keras (Tensorflow 2) 结合使用来解决多类问题的指南/博客,实际上其中很多都是针对多标签问题的。
【问题讨论】:
标签: python-3.x tensorflow keras multiclass-classification