【发布时间】:2019-05-13 14:25:58
【问题描述】:
我想使用带有印度尼西亚语的 keras 将文本转换为序列。但 keras 分词器只检测已知单词。
如何在keras中添加已知单词?或任何解决方案让我将文本转换为序列?
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))
如果我使用印度尼西亚语,“seq”变量会产生空数组,如果我使用英文单词,它会完美地工作。如何将 keras 用于不同的语言?或者无论如何要向 keras 添加一些已知的单词?
谢谢
【问题讨论】:
-
无法重现您的示例。你能包括你用来适合标记器的文本吗? (连接['TITLE'].values)。对于分词器来说,语言应该无关紧要。
标签: python keras nlp data-science tokenize