keras.tokenizer.texts_to_sequences 和词嵌入有什么区别答案

【问题标题】：What is the difference between keras.tokenize.text_to_sequences and word embeddingskeras.tokenizer.texts_to_sequences 和词嵌入有什么区别
【发布时间】：2019-10-21 07:36:40
【问题描述】：

tokenize.fit_on_text、tokenize.text_to_sequence 和 word embeddings 之间的区别？

尝试在各种平台上搜索，但没有得到合适的答案。

【问题讨论】：

标签： keras tensorflow2.0 tokenize word-embedding tensorflow2.x

【解决方案1】：

词嵌入是一种表示词的方式，使得具有相同/相似含义的词具有相似的表示。学习词嵌入的两种常用算法是 Word2Vec 和 GloVe。

请注意，在针对特定 NLP 问题训练神经网络进行文本处理时，也可以从头开始学习词嵌入。你也可以使用迁移学习；在这种情况下，这意味着将学习到的单词表示从大量数据集中转移到您的问题上。

至于标记器（我假设我们所说的是 Keras），取自文档：

tokenize.fit_on_text() --> 根据词频创建词汇索引。例如，如果你有一句“我的狗和你的狗不一样，我的狗更漂亮”，word_index["dog"] = 0，word_index["is"] = 1（狗出现 3 次，is 出现 2 次）
tokenize.text_to_sequence() --> 将每个文本转换为整数序列。基本上，如果你有一个句子，它会为你句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()（返回字典）来验证分配给您的单词的整数。

【讨论】：