【问题标题】:How does the num_words parameter of keras Tokenizer work?keras Tokenizer 的 num_words 参数是如何工作的?
【发布时间】:2020-03-28 12:23:23
【问题描述】:

当使用 Tokenizer 类在 keras 中对文本序列进行标记时,我们可以指定参数“num_words”以仅考虑数据集中的 [top] n 个单词。我的疑问是

  1. [top] 值是什么意思?它是指单词的频率还是任何其他值,例如 tf-idf?
  2. [top] 值是在每个文档级别计算还是通过考虑整个数据集计算?

指向任何好的资源或示例解释将非常有用。

【问题讨论】:

  • 1.是频率的意思。 2. 它是基于整个文档计算的。阅读this 书。
  • @Vlad,感谢您的回复,如果它的频率不会像“the”、“in”等停用词,将被视为更大的百分比。我们不会错过最少出现并提供更多含义的独特单词吗?我正在关注同一本书,但可以理解这一点。
  • 不是我,是@Vlad

标签: machine-learning keras nlp text-processing


【解决方案1】:

这里的 [top] 表示单词在整个数据集上的频率。它根据每个单词的降频考虑 (num_words) 个单词的数量。我的疑问是,很明显停用词会比其他词出现更多次,因此大多数停用词会出现在最前面的 (num_words) 个单词中,但为了解决这个问题,我们首先删除停用词,然后应用标记化。

【讨论】:

    猜你喜欢
    • 2020-08-28
    • 2018-02-22
    • 2021-01-17
    • 2021-04-07
    • 1970-01-01
    • 2020-01-15
    • 1970-01-01
    • 1970-01-01
    • 2018-05-14
    相关资源
    最近更新 更多