如何将 Keras Tokenizer 用于字符？答案

【问题标题】：How to use Keras Tokenizer for Characters?如何将 Keras Tokenizer 用于字符？
【发布时间】：2020-05-04 17:39:57
【问题描述】：

对于序列标注任务，我的训练数据和标签如下所示：

train_data=[['p','l','a','y','s']

train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]

如何使用标记器并为我的数据中的每个序列生成表示。传统的分词器会忽略 <p> 等标签。它只创建标准字符的词汇表。

【问题讨论】：

【解决方案1】：

如果我没有正确回答您的问题，这应该可以解决问题。如果我弄错了，请告诉我，以便我可以相应地编辑答案

from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)

texts 是实际文本所在的位置。

你可以检查词汇使用

tk.word_index

【讨论】：

感谢您的回答，但在这种情况下，它会为生成不同的索引。我想要的是“
”应该只有一个索引，依此类推。
您能否详细说明您实际尝试做的事情？您要解决的问题是什么？我不确定你为什么要标记标签。如果您可以在实际答案中而不是在 cmets 中做到这一点，那就更好了。我会相应地更新答案