如何将新标记添加到使用句子的 T5 标记器答案

【问题标题】：How to add new token to T5 tokenizer which uses sentencepieace如何将新标记添加到使用句子的 T5 标记器
【发布时间】：2021-07-15 12:11:30
【问题描述】：

我在以下链接中训练了基于tensorflow 的t5 转换器：

这是一个示例（输入、输出）：

输入：

b'[atomic]:<subject>PersonX plays a ___ in the war</subject><relation>oReact</relation>'

输出：

<object>none</object>

但是，对于我得到的预测：

 ⁇ object>none ⁇ /object>

将<替换为??，我应该怎么做才能解决这个问题？

更新：我发现奇怪的是< t5 tokenizer 的词汇表中没有了sentencepiece，我只是不知道如何添加它

【问题讨论】：

【解决方案1】：

据我所知，您可以使用 Tokenizer.add_tokens() 添加新令牌。更多细节可以在拥抱脸here

【讨论】：