【问题标题】:How to use Keras Tokenizer for Characters?如何将 Keras Tokenizer 用于字符?
【发布时间】:2020-05-04 17:39:57
【问题描述】:

对于序列标注任务,我的训练数据和标签如下所示:

train_data=[['p','l','a','y','s']

train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]

如何使用标记器并为我的数据中的每个序列生成表示。传统的分词器会忽略 &lt;p&gt; 等标签。它只创建标准字符的词汇表。

【问题讨论】:

    标签: keras tokenize


    【解决方案1】:

    如果我没有正确回答您的问题,这应该可以解决问题。如果我弄错了,请告诉我,以便我可以相应地编辑答案

    from keras.preprocessing.text import Tokenizer
    tk = Tokenizer(num_words=None, char_level=True)
    tk.fit_on_texts(texts)
    

    texts 是实际文本所在的位置。

    你可以检查词汇使用

    tk.word_index
    

    【讨论】:

    • 感谢您的回答,但在这种情况下,它会为 生成不同的索引。我想要的是“

      ”应该只有一个索引,依此类推。

    • 您能否详细说明您实际尝试做的事情?您要解决的问题是什么?我不确定你为什么要标记标签。如果您可以在实际答案中而不是在 cmets 中做到这一点,那就更好了。我会相应地更新答案
    猜你喜欢
    • 1970-01-01
    • 2020-08-28
    • 2018-02-20
    • 2019-02-12
    • 2018-02-22
    • 1970-01-01
    • 1970-01-01
    • 2021-01-17
    • 2019-02-23
    相关资源
    最近更新 更多