keras Tokenizer 的 num_words 参数是如何工作的？答案

【问题标题】：How does the num_words parameter of keras Tokenizer work?keras Tokenizer 的 num_words 参数是如何工作的？
【发布时间】：2020-03-28 12:23:23
【问题描述】：

当使用 Tokenizer 类在 keras 中对文本序列进行标记时，我们可以指定参数“num_words”以仅考虑数据集中的 [top] n 个单词。我的疑问是

指向任何好的资源或示例解释将非常有用。

【问题讨论】：

1.是频率的意思。 2. 它是基于整个文档计算的。阅读this 书。
@Vlad，感谢您的回复，如果它的频率不会像“the”、“in”等停用词，将被视为更大的百分比。我们不会错过最少出现并提供更多含义的独特单词吗？我正在关注同一本书，但可以理解这一点。
不是我，是@Vlad

【解决方案1】：

这里的 [top] 表示单词在整个数据集上的频率。它根据每个单词的降频考虑 (num_words) 个单词的数量。我的疑问是，很明显停用词会比其他词出现更多次，因此大多数停用词会出现在最前面的 (num_words) 个单词中，但为了解决这个问题，我们首先删除停用词，然后应用标记化。

【讨论】：