这是一个简单的区别示例:
C++ 中的i++ 编译为(在 x86-64 机器上)一个简单的 inc REGISTER 指令。需要一小部分周期来执行。
Python 中的i += 1 可以通过dis.dis('i += 1') 使用dis 模块进行反汇编,这告诉我们所涉及的字节码是:
1 0 LOAD_NAME 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_NAME 0 (i)
8 LOAD_CONST 1 (None)
10 RETURN_VALUE
Try it online!
从技术上讲,所有以_NAME 结尾的指令在函数中都变成_FAST(我们反汇编了一个孤立的语句,因此它的行为略有不同),并且LOAD_CONST (None)/RETURN_VALUE 对将不存在真实函数中的表达式(函数必须这样做,但不是针对每个表达式),但足够接近。在实践中,函数中的真正字节码更像是:
1 0 LOAD_FAST 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_FAST 0 (i)
这些指令中的每一个都需要运行 switch 语句或计算出的 goto(取决于 CPython 的编译方式),加载下一条指令并更新代码位置信息(它还涉及重复检查以确保没有其他线程要求the GIL)。 LOAD_FAST 和 LOAD_CONST 指令涉及 C 数组查找和引用计数调整(单独的单个引用计数调整相当于之前的 i++,除了它必须更改内存,而不是寄存器,因此速度较慢)。 STORE_FAST 类似地涉及 C 数组查找、引用计数调整(以减少现有值)以及通常释放内存(如果 decref 删除了对该值的最后一个引用)。
INPLACE_ADD 必须动态查找并调用函数指针来执行加法(它首先通过几层函数间接实现),它本身必须提取每个 Python int 的底层 C 值到做这项工作(如果数字足够大,这涉及到基于数组的数学,这会变得很难看),(通常)创建一个全新的 Python int 对象,并进行更多的引用计数调整。
基本上,为了获得与 C/C++ 在针对寄存器的单个廉价汇编指令中所做的等效,Python 必须执行(估计)六个函数调用(包括通过函数指针的一个),数十个内存查找、十几个引用计数调整等。坦率地说,最令人惊讶的是 Python 只需要比 C++ 长约 24 倍的时间。
我会注意到这里的相对成本对于简单的数学运算是最高的;单个字节码所做的工作越多,解释器开销就越不重要。不幸的是,对于这种情况,您的代码只是简单的数学运算,所以 Python(至少是 CPython)在这里是最糟糕的。
至于加速,主要规则是:
- 编写 Python 代码,而不是 C 代码。当 Python 的
range 可以为您完成这项工作(并节省大量单独的字节码指令)时,您正在手动维护您的计数器。正如我所提到的,这是解释器开销最高的最简单、最便宜的操作,但这些操作通常是您实际上不需要做的事情,因为通常有更好的方法来完成它们(例如 for 循环通过 range 而不是 while 循环手动计数器调整)。
- 对于大规模数学运算,请使用可以批量完成工作的扩展模块,例如
numpy。 single 添加的所有开销都是不好的;只需为 1000 次添加支付一次费用。
- 尝试其他解释器(例如 PyPy)
- 使用 Cython 从您的 Python 代码编译 C++(需要添加适当的
cdef 声明)
- 使用
ctypes 调用现有 C 库,和/或编写原始 Python C 扩展(当 Cython 无法处理您想要的内容时)
除此之外,您只需要接受具有动态类型的解释语言总是会产生编译的静态类型语言所没有的开销。
为了解决第 1 点,您的代码的 Pythonic 版本如下所示:
def main():
sum = 1
for i in range(2, 100000):
for j in range(2, i):
if i%j == 0:
sum += 1
break
print(sum)
if __name__ == "__main__":
main()
您甚至可以将内部循环替换为:
sum += any(i % j == 0 for j in range(2, i))
虽然这不太可能带来任何性能优势,但只是稍微简化了代码。性能优势来自于使用 range,它将递增和测试的所有基本数学运算捆绑到一个专用函数中,显着降低了开销。
为了演示字节码复杂度的差异,考虑一个函数,它只运行一个循环,使用while 和手动计数器或for 和range:
def whileloop(n):
i = 0
while i < n:
i += 1
def forloop(n):
for i in range(n):
pass
反汇编各功能显示:
3 0 LOAD_CONST 1 (0)
2 STORE_FAST 1 (i)
4 4 SETUP_LOOP 20 (to 26)
>> 6 LOAD_FAST 1 (i)
8 LOAD_FAST 0 (n)
10 COMPARE_OP 0 (<)
12 POP_JUMP_IF_FALSE 24
5 14 LOAD_FAST 1 (i)
16 LOAD_CONST 2 (1)
18 INPLACE_ADD
20 STORE_FAST 1 (i)
22 JUMP_ABSOLUTE 6
>> 24 POP_BLOCK
>> 26 LOAD_CONST 0 (None)
28 RETURN_VALUE
对于whileloop 和:
8 0 SETUP_LOOP 16 (to 18)
2 LOAD_GLOBAL 0 (range)
4 LOAD_FAST 0 (n)
6 CALL_FUNCTION 1
8 GET_ITER
>> 10 FOR_ITER 4 (to 16)
12 STORE_FAST 1 (i)
9 14 JUMP_ABSOLUTE 10
>> 16 POP_BLOCK
>> 18 LOAD_CONST 0 (None)
20 RETURN_VALUE
Try it online!
为forloop。 while 的循环体(每次循环执行一次,包括测试终止条件)从 LOAD_FAST 在 SETUP_LOOP 之后运行到 JUMP_ABSOLUTE,每个循环包含 9 条指令;对于for,它从FOR_ITER 运行到JUMP_ABSOLUTE,仅包含三个指令。由于为所有这些指令完成的工作非常简单,因此很容易看出对于使用 while 循环的手动管理计数器而言,循环本身的开销会显着增加。