【问题标题】:Google Ngram Viewer - English One MillionGoogle Ngram 查看器 - 英语一百万
【发布时间】:2018-02-16 16:20:42
【问题描述】:

我正在 PyTorch 中训练一个语言模型,我需要最常用的一百万个英语单词作为字典。

据我了解,Google Ngram English One Million (1-grams) 可能适合此任务,但在下载此数据集的每一部分 (0-9) 并在它们上使用 tail 以检查它们是否我的猜测是,我发现这个数据集的任何部分都不包含 F 字母之外的单词。

据我所知,任何版本 1 文件的 ngram 都按字母顺序和时间顺序排序,我担心最常见的一百万个单词是否有可能不超过 F?

或者我错过了这个数据集的重点,它不是最常见的一百万字?

【问题讨论】:

    标签: dictionary nlp words n-gram pytorch


    【解决方案1】:

    尝试shuf <file> 进行随机排序,您将看到数据涵盖所有字母。您在文件末尾看到的不是f,而是连字

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-10-08
      • 1970-01-01
      • 1970-01-01
      • 2011-02-11
      • 2012-04-19
      • 2021-04-06
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多