【发布时间】:2019-06-19 14:40:33
【问题描述】:
我进入了一个新项目,我希望将单词表示为向量,我阅读了有关 Fasttext 库的信息,并看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近度
我想知道的是,我能否在非英语数据和类似新闻网站的文章上训练一个 Fasttext 模型,以针对特定类型(如政治和时下话题等)取得更好的结果。
- 我可以在非英语数据集上训练它吗?
- 为 10 GB 文本训练模型需要多长时间?够大吗?
- 有更好的解决方案吗?
提前致谢!
【问题讨论】: