进行 JNI 调用的定量开销是多少？答案

【问题标题】：What is the quantitative overhead of making a JNI call?进行 JNI 调用的定量开销是多少？
【发布时间】：2012-12-08 00:34:46
【问题描述】：

仅基于性能，大约有多少“简单”的 java 行相当于进行 JNI 调用的性能损失？

或者尝试用更具体的方式表达问题，比如简单的java操作

someIntVar1 = someIntVar2 + someIntVar3;

给定了1 的“CPU 工作”索引，那么进行 JNI 调用的开销的典型（大致）“CPU 工作”索引是多少？

这个问题忽略了等待本机代码执行所花费的时间。用电话术语来说，严格来说是通话的“降旗”部分，而不是“通话率”。

问这个问题的原因是当您知道本机成本（来自直接测试）和给定操作的 java 成本时，有一个“经验法则”来知道何时尝试编写 JNI 调用。它可以帮助您快速避免为 JNI 调用编码而发现调用开销消耗了使用本机代码的任何好处。

编辑：

有些人对 CPU、RAM 等方面的变化感到困惑。这些几乎都与问题无关——我要问的是 java 代码行的相对成本。如果 CPU 和 RAM 很差，那么它们对于 java 和 JNI 来说都是很差的，因此应该平衡环境因素。 JVM 版本也属于“无关”类别。

这个问题不是要求以纳秒为单位的绝对时间，而是要求以“简单 Java 代码行”为单位的球场“工作量”。

【问题讨论】：

你看了吗What makes JNI calls slow?
@AviramSegal 是的，但是没有关于它多少钱它的成本，只有为什么它成本
我认为这个问题应该涉及“哪些因素会导致开销以及多少”，因为我怀疑任何 JNI 调用都有唯一的答案。
您正在调查哪个 JVM？实现之间的差异是巨大的；此外，根据 CPU 和 RAM 的选择，时序差异很大。
@Bohemian：您的假设可能不成立。首先，JNI 调用始终是一个调用；内联 Java 代码不涉及“函数调用开销”，这取决于 CPU 架构（32 位模式下的 x86 与 64 位模式下的 x86 与 ARM 等等）。其次，内存缓存未命中（或匹配）的问题非常重要。最后，您不希望 Sun/Oracle Java 以与 Android (Dalvik) 相同的方式工作

标签： java performance java-native-interface

【解决方案1】：

您应该亲自测试一下“延迟”是什么。延迟在工程中被定义为发送零长度消息所需的时间。在这种情况下，它对应于编写最小的 Java 程序，该程序调用 do_nothing 空 C++ 函数并计算超过 30 次测量的经过时间的平均值和标准差（做几个额外的预热调用）。对于不同的 JDK 版本和平台，您可能会惊讶于不同的平均结果。

只有这样做才能让您最终确定使用 JNI 是否对您的目标环境有意义。

【讨论】：

我基本上是在问是否有人这样做过，他们能否分享他们的发现：/
这无关紧要，我预计由于底层平台和 JDK 版本存在重大差异。这些数字毫无意义。
机器差异（例如 CPU 和 RAM）实际上与这个问题无关。我询问了“java 代码行”的成本。这消除了任何机器问题——如果 java 很慢，JNI 会很慢等等——这就是我问这个问题的原因。出于同样的原因，它也应该消除 JVM 问题
@Bohemian：我认为，如果您在答案中包含 mbench 代码将是公平的；无论如何，谢谢。
@GiovanniAzua：实际上，之前的评论是献给你的；抱歉发错地址了。

【解决方案2】：

快速分析器测试结果：

Java 类：

public class Main {
    private static native int zero();

    private static int testNative() {
        return Main.zero();
    }

    private static int test() {
        return 0;
    }

    public static void main(String[] args) {
        testNative();
        test();
    }

    static {
         System.loadLibrary("foo");
    }
}

C 库：

#include <jni.h>
#include "Main.h"

JNIEXPORT int JNICALL 
Java_Main_zero(JNIEnv *env, jobject obj)
{
    return 0;
}

结果：

系统详情：

java version "1.7.0_09"
OpenJDK Runtime Environment (IcedTea7 2.3.3) (7u9-2.3.3-1)
OpenJDK Server VM (build 23.2-b09, mixed mode)
Linux visor 3.2.0-4-686-pae #1 SMP Debian 3.2.32-1 i686 GNU/Linux

更新：x86（32/64 位）和 ARMv6 的 Caliper 微基准测试如下：

Java 类：

public class Main extends SimpleBenchmark {
    private static native int zero();
    private Random random;
    private int[] primes;

    public int timeJniCall(int reps) {
        int r = 0;
        for (int i = 0; i < reps; i++) r += Main.zero();
        return r;
    }

    public int timeAddIntOperation(int reps) {
        int p = primes[random.nextInt(1) + 54];   // >= 257
        for (int i = 0; i < reps; i++) p += i;
        return p;
    }

    public long timeAddLongOperation(int reps) {
        long p = primes[random.nextInt(3) + 54];  // >= 257
        long inc = primes[random.nextInt(3) + 4]; // >= 11
        for (int i = 0; i < reps; i++) p += inc;
        return p;
    }

    @Override
    protected void setUp() throws Exception {
        random = new Random();
        primes = getPrimes(1000);
    }

    public static void main(String[] args) {
        Runner.main(Main.class, args);        
    }

    public static int[] getPrimes(int limit) {
        // returns array of primes under $limit, off-topic here
    }

    static {
        System.loadLibrary("foo");
    }
}

结果（x86/i7500/Hotspot/Linux）：

Scenario{benchmark=JniCall} 11.34 ns; σ=0.02 ns @ 3 trials
Scenario{benchmark=AddIntOperation} 0.47 ns; σ=0.02 ns @ 10 trials
Scenario{benchmark=AddLongOperation} 0.92 ns; σ=0.02 ns @ 10 trials

       benchmark     ns linear runtime
         JniCall 11.335 ==============================
 AddIntOperation  0.466 =
AddLongOperation  0.921 ==

结果（amd64/phenom 960T/Hostspot/Linux）：

Scenario{benchmark=JniCall} 6.66 ns; σ=0.22 ns @ 10 trials
Scenario{benchmark=AddIntOperation} 0.29 ns; σ=0.00 ns @ 3 trials
Scenario{benchmark=AddLongOperation} 0.26 ns; σ=0.00 ns @ 3 trials

   benchmark    ns linear runtime
         JniCall 6.657 ==============================
 AddIntOperation 0.291 =
AddLongOperation 0.259 =

结果（armv6/BCM2708/Zero/Linux）：

Scenario{benchmark=JniCall} 678.59 ns; σ=1.44 ns @ 3 trials
Scenario{benchmark=AddIntOperation} 183.46 ns; σ=0.54 ns @ 3 trials
Scenario{benchmark=AddLongOperation} 199.36 ns; σ=0.65 ns @ 3 trials

   benchmark  ns linear runtime
         JniCall 679 ==============================
 AddIntOperation 183 ========
AddLongOperation 199 ========

总结一下，似乎 JNI 调用大致相当于典型 (x86) 硬件和 Hotspot VM 上的 10-25 个 java ops。毫不奇怪，在优化程度较低的 Zero VM 下，结果完全不同（3-4 个操作）。

感谢@Giovanni Azua 和@Marko Topolnik 的参与和提示。

【讨论】：

8.5 包括 test 和 testNative :/ 除了你不想给出这样的性能比较结果。首先，您永远不会使用分析器比较 A 的性能是否比 B 快，您需要在发布模式和微基准测试中进行编译。其次，如果没有平均和考虑分散，这个数字没有任何意义，例如8.5，但可变性为 6.8，那么您的平均经过时间假设为 BS。
您即将回答这个问题。试试这个： 1) 确保 JIT 已经编译了测试代码。 2）继续向java版本添加简单算术的简单行，直到两个时间相等，然后发布使两个调用“成本”相同所需的代码量。这就是我寻求的答案
@GiovanniAzua：我不认为这是一个最终答案，而是一个热身:) 感谢您的评论（我真的很感激），它变得有趣了 :)
@Bohemian：预先生成的随机集的 int 加法算作简单算术吗？
@barti_ddu 您不想在其中涉及太多内存，因为这样您就会因缓存未命中而扭曲它（这是一个巨大的差异）。我建议迭代地添加一个大素数int，从随机生成的初始值开始，并以某种方式使用该值（通常从测试方法中返回它）。这不能被优化掉，只能使用堆栈。

【解决方案3】：

所以我刚刚使用带有 Profile Startup 附加组件的 Eclipse Mars IDE、JDK 1.8.0_74 和 VirtualVM profiler 1.3.8 在 64 位 Windows 8.1 上测试了对 C 的 JNI 调用的“延迟”。

设置：（两种方法）
SOMETHING() 传递参数、执行操作并返回参数
NOTHING() 传入相同的参数，对它们不做任何事情，并返回相同的参数。

（每个被调用 270 次）
SOMETHING() 的总运行时间：6523 毫秒
NOTHING() 的总运行时间：0.102ms

因此，在我的情况下，JNI 调用可以忽略不计。

【讨论】：

虽然这不是我要问的，但它仍然是一个有趣且相关的发现。
啊，是的；我正在阅读 Azua 关于“延迟”的答案并最终测试了它:)
我同意你写的，但 0.1 毫秒意味着每秒 10,000 次调用，或 2000 万次循环。这是巨大的。
0.1 ms 是 270 次调用的总时间，即每次调用 NOTHING() 的时间为 0.4 µs。也就是说，每秒 270 万次调用。