【问题标题】:How to add new token to T5 tokenizer which uses sentencepieace如何将新标记添加到使用句子的 T5 标记器
【发布时间】:2021-07-15 12:11:30
【问题描述】:

我在以下链接中训练了基于tensorflowt5 转换器:

https://github.com/google-research/text-to-text-transfer-transformer

这是一个示例(输入、输出):

输入:

b'[atomic]:<subject>PersonX plays a ___ in the war</subject><relation>oReact</relation>'

输出:

<object>none</object>

但是,对于我得到的预测:

 ⁇ object>none ⁇ /object>

&lt;替换为??,我应该怎么做才能解决这个问题?

更新:我发现奇怪的是&lt; t5 tokenizer 的词汇表中没有了sentencepiece,我只是不知道如何添加它

【问题讨论】:

  • 用正则表达式怎么样?
  • @M.Innat 我发现&lt; 没有t5 tokenzier 的词汇,我只是不知道如何添加它
  • Any 好。
  • @M.Innat 谢谢,不过,我现在补充说我不使用Huggingface,而是直接使用T5,它使用sentencepiece
  • 我明白了。我认为你也应该用更相关的词来更新你的标题。

标签: python tensorflow nlp sentencepiece


【解决方案1】:

据我所知,您可以使用 Tokenizer.add_tokens() 添加新令牌。更多细节可以在拥抱脸here

【讨论】:

    猜你喜欢
    • 2019-04-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-05-16
    • 2011-09-14
    • 1970-01-01
    • 2018-06-16
    相关资源
    最近更新 更多