【发布时间】:2018-03-18 16:27:28
【问题描述】:
目前我有 1.2tb 的文本数据来构建 gensim 的 word2vec 模型。几乎需要 15 到 20 天才能完成。
我想为 5tb 的文本数据构建模型,那么创建模型可能需要几个月的时间。我需要最小化这个执行时间。有什么方法可以使用多个大系统来创建模型?
请提出任何可以帮助我减少执行时间的方法。
仅供参考,我的所有数据都在 S3 中,我使用 smart_open 模块流式传输数据。
【问题讨论】:
-
你可以用 tensorflow 做到这一点
-
我建议您尝试在数据的样本子集上进行训练。一个众所周知的事实是,在所有机器学习任务中,都存在这样一个点,即任何数量的额外数据都对学习毫无帮助。
标签: nlp deep-learning distributed-computing gensim word2vec