【问题标题】:Julia symbolic and numeric performance vs PythonJulia 符号和数值性能与 Python
【发布时间】:2021-04-13 19:17:45
【问题描述】:

我刚刚翻译了一组涉及矩阵的科学计算,其中元素是符号表达式,它们被微分并与各种其他数学表达式组合,然后进行数值积分。为了重现我遇到的性能差距,下面的代码片段构成了一个最小的示例。我知道符号区分然后数字积分没有意义,但同样,关键在于性能差距。需要注意的是,导入库并不需要太多时间,也不能解释性能差距。

朱莉娅代码:

using Symbolics, QuadGK

@variables x

m = [i * 10*x^3 + 1/i * sin(x) + 5*i*x^3 * cos(x) - 8i*x^2 + 2/sin(i*3.0)*x + exp(1/(x+10)) for i in 1:500]

m_d = expand_derivatives.(Differential(x).(m))
m_d_expr = build_function(m, x)
m_d_f = eval(m_d_expr[1])
v = quadgk(m_d_f, 0, 1)
print(v[1])

Python 代码:

import pandas as pd
import numpy as np
from sympy import sin, diff, pi, lambdify, integrate, cos, exp
from sympy.abc import x
from sympy.matrices import Matrix
from scipy.integrate import quad

def integrate_matrix(m, v, a, b):
    mi = np.zeros((m.rows, m.cols))
    for i in range(m.rows):
        for j in range(m.cols):
            f = lambdify(v, m[i, j])
            integral_value = quad(f, a, b)[0]
            mi[i, j] = integral_value
            
    return mi


m = Matrix([i * 10*x**3 + 1/i * sin(x) + 5*i*x**3 * cos(x) - 8*i*x**2 + 2/sin(i*3.0)*x + exp(1/(x+10)) for i in range(1, 501)])

v = integrate_matrix(m, x, 0, 1)
print(v)

我的问题:有没有办法改进 Julia 代码以匹配 Python 代码的性能。每次我试图在 Julia 的表现上给我的码头留下深刻印象时,我都会感到尴尬。我仍然是 Julia 菜鸟,但我真的不知道该怎么办。

大概时间: 蟒蛇:6秒 朱莉娅:30 多秒

Julia 版本 1.6 Python 3.7

注意:由于差距很大,我发布了这个。不,CAS 并没有解释这一切。此外,我们正在做一个符号差异而不是集成,更不用说 sympy 被称为慢。我可以将代码添加到精确的时间,然后呢?我遇到问题的原始科学代码是 6 秒 Python 和 75 秒 Julia。真可惜。

【问题讨论】:

  • 因此,这可能归结为您正在使用的 CAS 库。我怀疑你在 Python 中实际所做的事情是否会产生巨大的影响
  • 最好添加有关您使用的时间和其他性能指标的信息,以表明存在性能差距。以及有关您如何进行基准测试以及您使用的语言和软件包版本的信息。
  • 你是如何测量时间的?我刚刚对 quadgk(m_d_f, 0, 1) 进行了基准测试,这需要 264 毫秒(在我的计算机中使用 @benchmark),而 integrate_matrix(m, x, 0, 1) 1.36 s ± 15.6 毫秒(在 iPython 中使用 %timeit)。看来您观察的时间考虑了编译时间.
  • 我不确定我是否理解您的评论。我看到 Julia 代码在忽略编译时间后运行更快(因此,您先付钱但获得运行速度更快的代码)。
  • 这不是挑剔,更多的是关于你的用例和理解观察到的差异。我也不在辩护,这完全取决于您的用例:如果您需要编译一次并运行多次,那么 Julia 最终会更快。如果您需要运行一次,那么 Python 可能是更好的选择。话虽如此,您可能想探索PackageCompiler.jl 或在 Julia 的演讲中询问您是否仍然不满意。

标签: python performance julia


【解决方案1】:

让整个事情运行得更快是任何理智的人都关心的事情。

据我了解,Julia 关心的是运行速度多次,而只运行一次总是较慢,因为 Julia 代码需要在执行之前进行编译。与 Julia 不同,Python 不进行任何 JIT 编译,并且始终准备好以相同的速度运行。

朱莉娅 1.6

所以,我将您的 Julia 代码粘贴到 code.jl 并在同一会话中多次运行

# New Julia session!
julia> @time include("code.jl")
[long array...]
 24.660636 seconds (42.99 M allocations: 2.607 GiB, 3.82% gc time, 0.02% compilation time)

julia> @time include("code.jl")
[long array...]
  2.761062 seconds (5.61 M allocations: 240.159 MiB, 10.39% gc time, 57.06% compilation time)

julia> @time include("code.jl")
[long array...]
  2.608917 seconds (5.61 M allocations: 240.164 MiB, 4.47% gc time, 61.75% compilation time)

# Restarted Julia
julia> @time include("code.jl")
 25.538249 seconds (42.99 M allocations: 2.607 GiB, 3.76% gc time, 0.02% compilation time)

julia> @time include("code.jl")
  2.740550 seconds (5.61 M allocations: 240.159 MiB, 9.94% gc time, 56.72% compilation time)

因此,第一次运行代码大约需要 25 秒,再次运行大约需要 3 秒 (!),即使这 3 秒中的 50% 用于编译内容。但是,最初的 25 秒中只有 0.02% 用于编译。显然,减速不是由于编译时间?还要注意它在第一次运行时执行了多少内存分配:4300 万次与下一次运行时大约 550 万次(少 7 !)。但无论如何,第一次运行真的很慢,而随后的运行速度却快如闪电。

加载包第一次也很慢:

julia> @time using Symbolics
  3.503349 seconds (6.42 M allocations: 460.519 MiB, 3.53% gc time, 0.13% compilation time)

julia> @time using Symbolics
  0.000241 seconds (136 allocations: 9.641 KiB)
  0.000280 seconds (136 allocations: 9.641 KiB)
  0.000249 seconds (136 allocations: 9.641 KiB)
  0.000251 seconds (136 allocations: 9.641 KiB)
  0.000252 seconds (136 allocations: 9.641 KiB)
  0.000246 seconds (136 allocations: 9.641 KiB)

# I didn't import it before,
# but apparently `Symbolics` did
julia> @time using QuadGK
  0.000276 seconds (137 allocations: 9.688 KiB)
  0.000276 seconds (136 allocations: 9.641 KiB)
  0.000240 seconds (136 allocations: 9.641 KiB)
  0.000251 seconds (136 allocations: 9.641 KiB)

也就是说,仅使用导入运行代码的第一行就花费了 3.5 秒。我想,由于缓存,后续导入显然更快。

列表理解的第一次运行也很慢

julia> @time m = [i * 10*x^3 + 1/i * sin(x) + 5*i*x^3 * cos(x) - 8i*x^2 + 2/sin(i*3.0)*x + exp(1/(x+10)) for i in 1:500];
  2.590259 seconds (4.69 M allocations: 284.672 MiB, 10.86% gc time, 98.69% compilation time)

julia> @time m = [i * 10*x^3 + 1/i * sin(x) + 5*i*x^3 * cos(x) - 8i*x^2 + 2/sin(i*3.0)*x + exp(1/(x+10)) for i in 1:500];
  0.102573 seconds (231.21 k allocations: 12.507 MiB, 72.61% compilation time)
  0.098871 seconds (231.21 k allocations: 12.508 MiB, 72.39% compilation time)
  0.108458 seconds (231.21 k allocations: 12.512 MiB, 7.93% gc time, 67.73% compilation time)
  0.099787 seconds (231.22 k allocations: 12.508 MiB, 72.99% compilation time)
  0.098378 seconds (231.21 k allocations: 12.507 MiB, 73.80% compilation time)

同样,启动缓慢(98.69% 的编译时间),但下一次运行速度更快。


Python 3.9.2

~/t/SO_q $ time python3 thecode.py
________________________________________________________
Executed in    5,88 secs
~/t/SO_q $ time python3 thecode.py
________________________________________________________
Executed in    5,90 secs
Executed in    5,36 secs
Executed in    5,39 secs
Executed in    5,35 secs
Executed in    5,36 secs
Executed in    5,77 secs
Executed in    6,10 secs
Executed in    5,38 secs

因此,Python 代码持续运行大约 6 秒

这比 后续 Julia 代码运行慢 2 倍 !但是,一旦启动 Python 解释器,您就会获得这种速度,而 Julia 将花时间编译代码并做……其他需要 4300 万内存分配的事情。但是 Julia 以糟糕的启动时间换取的是编译代码的性能(在这个例子中,Julia 比 Python 快 2 倍)。


如何让 Julia 更快

  • Build a custom sysimage。这对我来说似乎有点过头了,除非你真的每次都需要重新启动 Julia 来运行你的代码。
  • 只需从同一个 REPL 运行您的代码。最简单的变体是修改代码后include("your_code.jl")。这可能会导致奇怪的错误,因为环境将由以前运行的数据填充。
  • Pluto 中运行代码,这是一个记录 Julia 实时会话的笔记本,但在管理环境方面很聪明

【讨论】:

  • 将巨大的数组打印到屏幕上会增加您的时间,因此@time include("code.jl") 正在计算编译加上运行和打印时间。
  • @ForceBru 感谢您为提供全面答案所做的努力。我想强调我爱 Julia 并相信这种语言是未来。也就是说,构建系统映像超出了忙碌的普通 Joe 愿意做或只是有时间做的事情。使用 REPL 是我尝试使用我无法发布的代码的第一件事,因为它不属于我。你猜怎么着?还是慢得要命。所以冥王星可能不会这样做。
  • 总结:就像第一个情节的情况一样,这种情况,我假设还有许多其他这样的情况,这些问题需要解决而不是隐藏在编译时间之后,没有适当的到纳秒级基准测试或对用户不可行的选项。否则,朱莉娅的收养将花费比预期更长的时间。保存在磁盘上的已编译代码的智能缓存可能是一种选择。 Python 将脚本编译为包含 Python 字节码的 pyc 文件。为什么不遵循类似的策略来提供一个正常工作的系统。
  • 缓慢的启动时间已得到承认,并且在 Julia 社区中得到了积极的工作。另一方面,我认为您可能误解了 cmets 背后的意图。您要求解释性能差异。当我询问有关如何运行测量的详细信息时,不是要“隐藏”编译时间或基准测试细节。它是为了能够对正在发生的事情形成知情的意见。 @ForceBru 采用了它并创建了一种复制方式,但正如你所说,这超出了 Joe 在尝试在线提供帮助时所期望的平均水平。
  • @MohammadSaad 好的,构建了一个自定义系统映像,Julia 的总运行时间为 3 秒,而 Python 为 6 秒。距离宣传的效果还很远。
猜你喜欢
  • 2014-01-04
  • 2017-12-19
  • 1970-01-01
  • 2011-06-10
  • 1970-01-01
  • 2012-06-02
  • 1970-01-01
  • 1970-01-01
  • 2015-06-15
相关资源
最近更新 更多