【发布时间】:2019-12-15 21:27:14
【问题描述】:
我是 NLP 的新手,我想加载匈牙利语维基百科语料库 (807 MB) 的压缩 XLM 文件。我下载了转储文件并开始使用 Gensim 在 Python 中解析它,但 4 小时后我的笔记本电脑崩溃了,抱怨我的 RAM 用完了。我有一台相当旧的笔记本电脑(4GB RAM),想知道是否有什么办法可以解决这个问题
- (1) 修改我的代码,例如,通过抽取 1/10 的随机样本来减少语料库;
- (2) 或者使用一些云平台来增强我的 CPU 能力。我在this SO post 中读到 AWS 可用于此类用途,但我不确定应该选择哪种服务(Amazon EC2?)。我还检查了 Google Colab,但对它在 Tensorflow 的上下文中列出了硬件加速选项(GPU 和 CPU)感到困惑,我不确定这是否适合 NLP。我没有找到任何关于那个的帖子。
这是我在从here 下载维基百科转储后尝试的 Jupyter Notebook 代码:
! pip install gensim
from nltk.stem import SnowballStemmer
from gensim.corpora import WikiCorpus
from gensim.models.word2vec import Word2Vec
hun_stem = SnowballStemmer(language='hungarian')
%%time
hun_wiki = WikiCorpus(r'huwiki-latest-pages-articles.xml.bz2')
hun_articles = list(hun_wiki.get_texts())
len(hun_articles)
任何指导将不胜感激。
【问题讨论】:
-
您使用的是 Jupyter Notebook 吗?您是否尝试过在 XML 的子集上运行您的程序,以查看问题是大小问题还是程序设计问题?
-
您能告诉我如何在 XML 的子集上运行代码吗?是的,我正在使用 Jupyter Notebook,我刚刚也将那条信息添加到我的帖子中。
-
这取决于数据的结构,我不熟悉。我刚刚注意到您实际上在帖子中提到了这种可能性,作为解决方案 (1)。