【发布时间】:2020-05-04 17:39:57
【问题描述】:
对于序列标注任务,我的训练数据和标签如下所示:
train_data=[['p','l','a','y','s']
train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]
如何使用标记器并为我的数据中的每个序列生成表示。传统的分词器会忽略 <p> 等标签。它只创建标准字符的词汇表。
【问题讨论】:
对于序列标注任务,我的训练数据和标签如下所示:
train_data=[['p','l','a','y','s']
train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]
如何使用标记器并为我的数据中的每个序列生成表示。传统的分词器会忽略 <p> 等标签。它只创建标准字符的词汇表。
【问题讨论】:
如果我没有正确回答您的问题,这应该可以解决问题。如果我弄错了,请告诉我,以便我可以相应地编辑答案
from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)
texts 是实际文本所在的位置。
你可以检查词汇使用
tk.word_index
【讨论】:
”应该只有一个索引,依此类推。