Google Ngram 查看器 - 英语一百万答案

【问题标题】：Google Ngram Viewer - English One MillionGoogle Ngram 查看器 - 英语一百万
【发布时间】：2018-02-16 16:20:42
【问题描述】：

我正在 PyTorch 中训练一个语言模型，我需要最常用的一百万个英语单词作为字典。

据我了解，Google Ngram English One Million (1-grams) 可能适合此任务，但在下载此数据集的每一部分 (0-9) 并在它们上使用 tail 以检查它们是否我的猜测是，我发现这个数据集的任何部分都不包含 F 字母之外的单词。

据我所知，任何版本 1 文件的 ngram 都按字母顺序和时间顺序排序，我担心最常见的一百万个单词是否有可能不超过 F？

或者我错过了这个数据集的重点，它不是最常见的一百万字？

【问题讨论】：

【解决方案1】：

尝试shuf <file> 进行随机排序，您将看到数据涵盖所有字母。您在文件末尾看到的不是f，而是连字ﬂ。

【讨论】：