【问题标题】:Strange method invocation optimization issue奇怪的方法调用优化问题
【发布时间】:2014-06-18 08:20:50
【问题描述】:

我一直在测试DataInputStream.readByte() 方法运行速度太慢的问题,并发现了一个有趣但难以理解的问题。我正在使用jdk1.7.0_40Windows 7 64 bit

假设我们有一些巨大的字节数组并从中读取数据。让我们比较一下从这个数组中逐字节读取的 4 种方法:

  1. 通过简单循环读取
  2. 通过ByteArrayInputStream阅读 -> DataInputStream
  3. 通过ByteArrayInputStream阅读->我们自己的DataInputStream实现(MyDataInputStream
  4. 通过ByteArrayInputStream 读取并从DataInputStream 复制方法readByte()

我发现了以下结果(经过长时间的测试循环迭代):

  • 循环大约需要。 312446094 纳秒
  • DataInputStream 接受了 apox。 2555898090 纳秒
  • MyDataInputStream 大约花了。 2630664298 纳秒
  • 通过方法readByte()复制耗时309265568 ns

换句话说,我们有奇怪的优化问题:通过对象方法调用的相同操作需要 10 倍的工作时间,然后通过“本机”实现。

问题:为什么?

有关信息:

@Test
public void testBytes1() throws IOException {
    byte[] bytes = new byte[1_000_000_000];
    Random r = new Random();
    for (int i = 0; i < bytes.length; i++)
        bytes[i] = (byte) r.nextInt();

    do {
        System.out.println();

        bytes[r.nextInt(1_000_000_000)] = (byte) r.nextInt();

        testLoop(bytes);
        testDis(bytes);
        testMyDis(bytes);
        testViaMethod(bytes);
    } while (true);
}

private void testDis(byte[] bytes) throws IOException {
    long time1 = System.nanoTime();
    long c = 0;
    try (ByteArrayInputStream bais = new ByteArrayInputStream(bytes);
         DataInputStream dis = new DataInputStream(bais)) {
        for (int i = 0; i < bytes.length; i++) {
            c += dis.readByte();
        }
    }
    long time2 = System.nanoTime();
    System.out.println("Dis: \t\t\t\t" + (time2 - time1) + "\t\t\t\t" + c);
}

private void testMyDis(byte[] bytes) throws IOException {
    long time1 = System.nanoTime();
    long c = 0;
    try (ByteArrayInputStream bais = new ByteArrayInputStream(bytes);
         MyDataInputStream dis = new MyDataInputStream(bais)) {
        for (int i = 0; i < bytes.length; i++) {
            c += dis.readByte();
        }
    }
    long time2 = System.nanoTime();
    System.out.println("My Dis: \t\t\t" + (time2 - time1) + "\t\t\t\t" + c);
}

private void testViaMethod(byte[] bytes) throws IOException {
    long time1 = System.nanoTime();
    long c = 0;
    try (ByteArrayInputStream bais = new ByteArrayInputStream(bytes)
    ) {
        for (int i = 0; i < bytes.length; i++) {
            c += readByte(bais);
        }
    }
    long time2 = System.nanoTime();
    System.out.println("Via method: \t\t" + (time2 - time1) + "\t\t\t\t" + c);
}

private void testLoop(byte[] bytes) {
    long time1 = System.nanoTime();
    long c = 0;
    for (int i = 0; i < bytes.length; i++) {
        c += bytes[i];
    }
    long time2 = System.nanoTime();
    System.out.println("Loop: \t\t\t\t" + (time2 - time1) + "\t\t\t\t" + c);
}

public final byte readByte(InputStream in) throws IOException {
    int ch = in.read();
    if (ch < 0)
        throw new EOFException();
    return (byte)(ch);
}

static class MyDataInputStream implements Closeable {

    InputStream in;

    MyDataInputStream(InputStream in) {
        this.in = in;
    }

    public final byte readByte() throws IOException {
        int ch = in.read();
        if (ch < 0)
            throw new EOFException();
        return (byte)(ch);
    }

    @Override
    public void close() throws IOException {
        in.close();
    }
}

附注为那些对我的结果有疑问的人更新,这是打印输出,使用-XX:+PrintCompilation -verbose:gc -XX:CICompilerCount=1

     37    1             java.lang.String::hashCode (55 bytes)
     41    2             java.lang.String::charAt (29 bytes)
     43    3             java.lang.String::indexOf (70 bytes)
     49    4             java.lang.AbstractStringBuilder::ensureCapacityInternal (16 bytes)
     52    5             java.lang.AbstractStringBuilder::append (29 bytes)
    237    6             java.util.Random::nextInt (7 bytes)
    237    9     n       sun.misc.Unsafe::compareAndSwapLong (native)   
    238    7             java.util.concurrent.atomic.AtomicLong::get (5 bytes)
    238    8             java.util.concurrent.atomic.AtomicLong::compareAndSet (13 bytes)
    239   10             java.util.Random::next (47 bytes)
    239   11 %           fias.TestArrays::testBytes1 @ 15 (77 bytes)
   9645   11 %           fias.TestArrays::testBytes1 @ -2 (77 bytes)   made not entrant

   9646   12 %           fias.TestArrays::testLoop @ 10 (77 bytes)
   9964   12 %           fias.TestArrays::testLoop @ -2 (77 bytes)   made not entrant
Loop:               318726397               -500090432
   9965   13             java.io.DataInputStream::readByte (23 bytes)
   9966   14  s          java.io.ByteArrayInputStream::read (36 bytes)
   9967   15 % !         fias.TestArrays::testDis @ 37 (279 bytes)
Dis:                2684374258              -500090432
  12651   16             fias.TestArrays$MyDataInputStream::readByte (23 bytes)
  12652   17 % !         fias.TestArrays::testMyDis @ 37 (279 bytes)
My Dis:             2675570541              -500090432
  15327   18             fias.TestArrays::readByte (20 bytes)
  15328   19 % !         fias.TestArrays::testViaMethod @ 23 (179 bytes)
Via method:         2367507141              -500090432

  17694   20             fias.TestArrays::testLoop (77 bytes)
  17699   21 %           fias.TestArrays::testLoop @ 10 (77 bytes)
Loop:               374525891               -500090567
  18069   22   !         fias.TestArrays::testDis (279 bytes)
Dis:                2674626125              -500090567
  20745   23   !         fias.TestArrays::testMyDis (279 bytes)
My Dis:             2671418683              -500090567
  23417   24   !         fias.TestArrays::testViaMethod (179 bytes)
Via method:         2359181776              -500090567

Loop:               315081855               -500090663
Dis:                2558738649              -500090663
My Dis:             2627056034              -500090663
Via method:         311692727               -500090663

Loop:               317813286               -500090778
Dis:                2565161726              -500090778
My Dis:             2630665760              -500090778
Via method:         314594434               -500090778

Loop:               313695660               -500090797
Dis:                2568251556              -500090797
My Dis:             2635236578              -500090797
Via method:         311882312               -500090797

Loop:               316781686               -500090929
Dis:                2563535623              -500090929
My Dis:             2638487613              -500090929
Via method:         313170789               -500090929

UPD-2:这是@maaartinus 提供的benchmarkresults

【问题讨论】:

  • 您说:“循环大约需要 312446094 ns”。这个真实的结果不可能像这样精确,只是因为你不知道你的处理器在这个前段期间在这个线程上运行了多少次(50%?,100%?),它可能会改变很多事情。我建议你多次运行这个程序,存储时间,并使用平均值而不是一个特定的执行时间。
  • 您的基准测试不允许适当的预热 + 您有测试框架的开销,这可能会使结果产生偏差。你应该使用a proper benchmarking tool
  • 这些结果是在数十次测试循环迭代后得出的。如果您可以建议更准确的测试 - 请提出建议。
  • @assylias 我已经删除了测试框架,它给出了相同的结果。
  • 我可以通过 Caliper 确认您的结果:benchmarkresults。所以我想,现在有人可能会试图找到一个解释。

标签: java performance optimization


【解决方案1】:

令人惊讶的是,原因是 MyDataInputStream/DataInputStream 上的 try-with-resources 声明

如果我们将初始化移到 try 块中,性能将类似于循环/方法调用

private void testMyDis(byte[] bytes) throws IOException {
    final long time1 = System.nanoTime();
    long c = 0;
    try (ByteArrayInputStream bais = new ByteArrayInputStream(bytes)) {
        final MyDataInputStream dis = new MyDataInputStream(bais);
        for (int i = 0; i < bytes.length; i++) {
            c += dis.readByte();
        }
    }
    final long time2 = System.nanoTime();
    System.out.println("My Dis: \t\t\t" + (time2 - time1) + "\t\t\t\t" + c);
}

我认为 JIT 不能使用那些不必要的资源 Range Check Elimination

【讨论】:

  • 太棒了!我对此表示+1,但仍不清楚DataInputStream:在测试中消除try-with-resources 块不会加快速度。
  • 如果你检查DataInputStream的代码,你会发现InputStream保存在volatile字段中,这可能是差异的原因,但无论如何,没有try-with-resources@987654331 @ 比使用它更快。
【解决方案2】:

答案已在测试中。额外的成本是由于函数调用。通常我们鼓励编写短而干净的函数而不是长函数,并考虑函数调用的成本非常低。但是调用开销还是比直接内存访问要大。

在这种情况下,对于 testloop,我们可以估计内存读取成本约为 3 ns(包括整数运算,例如 i++、c +) 对于其他人,还有 2 个额外的函数调用层。所以每个函数调用约为 15 ns。实际上我们可以说函数调用非常快。

唯一的一点是每个进程中有 2 000 000 000 个函数调用,这确实是一个很大的数字。

还有另一个测试用例来证明函数调用成本:不使用任何流,只需通过额外的函数调用读取字节:

添加以下功能,

public final long getByte( long c, byte value, int dep ) {
    if ( dep > 0 ) {
        return getByte( c, value, dep - 1);
    }
    return c + value;
}

然后在 testLoop 中调用:

c = getByte( c, bytes[i], 2);

那么最终成本增加至同一水平:

循环:4044010718 -499870245

联系电话:5182272442 -499870245

我的迪斯:5228065271 -499870245

联系方式:655108198 -499870245

【讨论】:

  • 您的回答有什么问题:1)在这两种情况下:通过dis.readByte() 和本地对象readByte() 方法调用 - 使用“函数”调用,所以它没有解释不同之处。 2)即使原因与“函数调用”有关,也无法解释为什么JVM只优化本地方法调用。
  • @Andremoniy 在dis.readByte() 的情况下有更多的函数调用。但是您是对的,它们都可以内联,而且确实可以。 OTOH,长方法体可以防止内联或减少循环展开。也就是说,即使有亚历山大的回答,仍然不清楚发生了什么。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-05-02
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-08-17
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多