【问题标题】:Train Fastext on non-english data set在非英语数据集上训练 Fastext
【发布时间】:2019-06-19 14:40:33
【问题描述】:

我进入了一个新项目,我希望将单词表示为向量,我阅读了有关 Fasttext 库的信息,并看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近度

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是,我能否在非英语数据和类似新闻网站的文章上训练一个 Fasttext 模型,以针对特定类型(如政治和时下话题等)取得更好的结果。

  1. 我可以在非英语数据集上训练它吗?
  2. 为 10 GB 文本训练模型需要多长时间?够大吗?
  3. 有更好的解决方案吗?

提前致谢!

【问题讨论】:

    标签: nlp fasttext


    【解决方案1】:

    我可以在非英语数据集上训练它吗?

    当然可以。 Fasttext 在其webiste 处提供了 157 种不同语言的可用预训练模型列表,您也可以下载它们。

    为 10 GB 文本训练模型需要多长时间?

    这取决于您的系统和实施。例如,在具有 16Gb 内存的 Mac-pro 上,使用 facebook 实现大约需要 8-10 小时。

    够大吗?

    如果 10Gb 是清理和预处理后的文件大小,是的,这很公平。

    有更好的解决方案吗?

    更好的解决方案是什么意思?如果我处于你的位置,我会先尝试预先训练的模型。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-08-14
      • 2020-06-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-05-21
      • 2017-07-07
      相关资源
      最近更新 更多