在非英语数据集上训练 Fastext答案

【问题标题】：Train Fastext on non-english data set在非英语数据集上训练 Fastext
【发布时间】：2019-06-19 14:40:33
【问题描述】：

我进入了一个新项目，我希望将单词表示为向量，我阅读了有关 Fasttext 库的信息，并看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近度

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是，我能否在非英语数据和类似新闻网站的文章上训练一个 Fasttext 模型，以针对特定类型（如政治和时下话题等）取得更好的结果。

提前致谢！

【问题讨论】：

【解决方案1】：

我可以在非英语数据集上训练它吗？

当然可以。 Fasttext 在其webiste 处提供了 157 种不同语言的可用预训练模型列表，您也可以下载它们。

为 10 GB 文本训练模型需要多长时间？

这取决于您的系统和实施。例如，在具有 16Gb 内存的 Mac-pro 上，使用 facebook 实现大约需要 8-10 小时。

够大吗？

如果 10Gb 是清理和预处理后的文件大小，是的，这很公平。

有更好的解决方案吗？

更好的解决方案是什么意思？如果我处于你的位置，我会先尝试预先训练的模型。

【讨论】：