每次运行 Google News Word2Vec 模型是否都会占用存储空间？答案

【问题标题】：Does the Google News Word2Vec model take up storage every time you run it?每次运行 Google News Word2Vec 模型是否都会占用存储空间？
【发布时间】：2019-02-27 17:56:52
【问题描述】：

这似乎是一个奇怪的问题，但我是新手，所以我还是想问一下。

我想对笔记本电脑上的各种不同文件使用此 Google 新闻模型。这意味着我将在不同的 Jupyter 笔记本中一遍又一遍地运行这条线：

model=word2vec.KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin",binary=True)

这会吃吗 1) 存储空间（我注意到我的存储空间无缘无故地呈指数增长） 2) 如果我在运行下一个之前关闭上一个笔记本，内存会比其他情况下更少。

我的存储空间在一天内减少了 50GB，我在这台计算机上做的唯一一件事就是运行 Google 新闻模型（我没有做 most_similar()）。重新启动和关闭笔记本没有帮助，笔记本电脑上没有任何大文件。有什么想法吗？

谢谢。

【问题讨论】：

标签： python nlp gensim word2vec word-embedding

【解决方案1】：

仅加载模型通常不会占用更多磁盘存储空间。（一个例外：如果加载或使用需要 RAM 之外的可寻址内存，您可以开始使用虚拟内存，这可能会根据您的操作系统显示为更少的磁盘空间。但是，对于这些类型的模型，您希望避免依赖任何虚拟内存，作为基本的most_similar() 操作在整个模型中循环，如果它们每次都从磁盘读取，将会非常慢。）

加载模型将使用内存，然后在第一次执行most_similar() 时更多。（这需要单位归一化的向量，这些向量在需要的第 1 次计算然后被缓存。）

但是终止笔记本应该释放该内存。（请注意，关闭选项卡可能不会完全终止 Jupyter 笔记本。如果笔记本仍在笔记本服务器上运行，即使没有浏览器查看它，它仍会使用/保留内存。）

【讨论】：

嗨，gojomo，感谢您的回答。我刚刚稍微更新了这个问题，但基本上我在一天内丢失了 50GB，并且计算机上没有执行此操作的大文件，并且重新启动不会修复它。有任何想法吗？谢谢
根据什么措施/工具丢失了 50GB 什么？什么操作系统？您是如何关闭/重新启动任何笔记本的？您在哪里寻找大文件？
嗨 gojomo 抱歉回复晚了。当您访问我的计算机时，根据 C 盘中的可用存储空间，我丢失了 50GB 的硬盘空间。我有 Windows 10。我通过简单地关闭 jupyter 来关闭笔记本。我通过在我的 C 盘 (dummies.com/computers/pcs/…) 上搜索 size:gigantic 来查找大文件。
“关闭 jupyter”是什么意思？（这可能是问题的一部分。如果您重新连接到 Jupyter 服务器，您可能会看到多个笔记本仍在运行。但完全重启会解决这个问题。）如果问题是虚拟内存的消耗，它应该显示在任务管理器中.但同样，一个完整的系统重启会有所帮助。可能有一些文件没有通过重新启动释放，或者无法通过您的大文件搜索找到 - 但这些文件不会由 gensim 创建。所以这更像是一个 Windows 操作系统的谜团 - 并且可能是由与您的模型处理代码完全无关的东西引起的。