【问题标题】:Uploading Large(8GB) File Issue using Weka使用 Weka 上传大(8GB)文件问题
【发布时间】:2012-04-14 16:56:31
【问题描述】:

我正在尝试将 8GB 文件上传到 weka 以使用 Apriori 算法。服务器配置如下:- 它的 8 处理器服务器在每个物理地址空间 = 40 位和虚拟地址空间 = 48 位中有 4 个内核。它是一个 64 位处理器。

物理内存 =26GB 和 SWAP =27GB

JVM = 64 位。我们使用 XmX 选项为 JVM Heap 分配了 32GB。我们担心的是加载这么大的文件需要很长时间(大约 8 小时),java 正在使用 107% 的 CPU 和 91% 的内存,它没有显示内存不足异常,weka 显示从文件读取。

请帮助我如何处理大文件以及这里到底发生了什么?

问候, 阿尼克特

【问题讨论】:

    标签: dataset weka


    【解决方案1】:

    我无法与 Weka 交谈,我不知道您的数据集,也不知道其中有多少元素。元素的数量就像在 64b JVM 中一样重要,指针很大,而且它们加起来。

    但不要创建大于物理 RAM 的 JVM。 Swap 根本不是 Java 的选项。交换 JVM 是死 JVM。 Swap 用于很少使用的空闲进程。

    还要注意Xmx值和物理堆大小是不一样的,物理大小总是会大于Xmx大小。

    您应该预先分配您的 JVM 堆 (Xms == Xmx) 并尝试各种值,直到您的大部分物理 RAM 被消耗。这将限制完整的 GC 和内存碎片。如果您要分配如此大的总内存空间,它也有助于(一点)在新系统上执行此操作。

    但无论你做什么,都不要让 Java 交换。交换和垃圾收集器不能混用。

    【讨论】:

    • 嘿,谢谢,但是现在我们已经更换了服务器,我们有一个巨大的服务器,有大约 500GB 的 RAM 和 47 个处理器和 48 位物理地址。我们提供了 XmX = 100G 和 Xms = 11G,这是 weka 可以处理的最大值。它没有显示任何内存异常,但自最近 3 小时以来一直在运行。甚至不能检查日志。文件中的记录如下:-这个文件有大约3.22亿。这个文件有大约 6 列,每行只有 25 个字符。 i/o 在这方面有什么作用吗??
    猜你喜欢
    • 2021-01-08
    • 2013-05-07
    • 2012-10-05
    • 2015-01-23
    • 2011-04-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多