【问题标题】:Does the Google News Word2Vec model take up storage every time you run it?每次运行 Google News Word2Vec 模型是否都会占用存储空间?
【发布时间】:2019-02-27 17:56:52
【问题描述】:

这似乎是一个奇怪的问题,但我是新手,所以我还是想问一下。

我想对笔记本电脑上的各种不同文件使用此 Google 新闻模型。这意味着我将在不同的 Jupyter 笔记本中一遍又一遍地运行这条线:

model=word2vec.KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin",binary=True)

这会吃吗 1) 存储空间(我注意到我的存储空间无缘无故地呈指数增长) 2) 如果我在运行下一个之前关闭上一个笔记本,内存会比其他情况下更少。

我的存储空间在一天内减少了 50GB,我在这台计算机上做的唯一一件事就是运行 Google 新闻模型(我没有做 most_similar())。重新启动和关闭笔记本没有帮助,笔记本电脑上没有任何大文件。有什么想法吗?

谢谢。

【问题讨论】:

    标签: python nlp gensim word2vec word-embedding


    【解决方案1】:

    仅加载模型通常不会占用更多磁盘存储空间。 (一个例外:如果加载或使用需要 RAM 之外的可寻址内存,您可以开始使用虚拟内存,这可能会根据您的操作系统显示为更少的磁盘空间。但是,对于这些类型的模型,您希望避免依赖任何虚拟内存,作为基本的most_similar() 操作在整个模型中循环,如果它们每次都从磁盘读取,将会非常慢。)

    加载模型将使用内存,然后在第一次执行most_similar() 时更多。 (这需要单位归一化的向量,这些向量在需要的第 1 次计算然后被缓存。)

    但是终止笔记本应该释放该内存。 (请注意,关闭选项卡可能不会完全终止 Jupyter 笔记本。如果笔记本仍在笔记本服务器上运行,即使没有浏览器查看它,它仍会使用/保留内存。)

    【讨论】:

    • 嗨,gojomo,感谢您的回答。我刚刚稍微更新了这个问题,但基本上我在一天内丢失了 50GB,并且计算机上没有执行此操作的大文件,并且重新启动不会修复它。有任何想法吗?谢谢
    • 根据什么措施/工具丢失了 50GB 什么?什么操作系统?您是如何关闭/重新启动任何笔记本的?您在哪里寻找大文件?
    • 嗨 gojomo 抱歉回复晚了。当您访问我的计算机时,根据 C 盘中的可用存储空间,我丢失了 50GB 的硬盘空间。我有 Windows 10。我通过简单地关闭 jupyter 来关闭笔记本。我通过在我的 C 盘 (dummies.com/computers/pcs/…) 上搜索 size:gigantic 来查找大文件。
    • “关闭 jupyter”是什么意思? (这可能是问题的一部分。如果您重新连接到 Jupyter 服务器,您可能会看到多个笔记本仍在运行。但完全重启会解决这个问题。)如果问题是虚拟内存的消耗,它应该显示在任务管理器中.但同样,一个完整的系统重启会有所帮助。可能有一些文件没有通过重新启动释放,或者无法通过您的大文件搜索找到 - 但这些文件不会由 gensim 创建。所以这更像是一个 Windows 操作系统的谜团 - 并且可能是由与您的模型处理代码完全无关的东西引起的。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-11-11
    • 1970-01-01
    • 1970-01-01
    • 2021-02-15
    • 1970-01-01
    • 2018-02-12
    • 1970-01-01
    相关资源
    最近更新 更多