【发布时间】:2020-03-28 12:23:23
【问题描述】:
当使用 Tokenizer 类在 keras 中对文本序列进行标记时,我们可以指定参数“num_words”以仅考虑数据集中的 [top] n 个单词。我的疑问是
- [top] 值是什么意思?它是指单词的频率还是任何其他值,例如 tf-idf?
- [top] 值是在每个文档级别计算还是通过考虑整个数据集计算?
指向任何好的资源或示例解释将非常有用。
【问题讨论】:
-
1.是频率的意思。 2. 它是基于整个文档计算的。阅读this 书。
-
@Vlad,感谢您的回复,如果它的频率不会像“the”、“in”等停用词,将被视为更大的百分比。我们不会错过最少出现并提供更多含义的独特单词吗?我正在关注同一本书,但可以理解这一点。
-
不是我,是@Vlad
标签: machine-learning keras nlp text-processing