【问题标题】:python 5x slower than perl mySql querypython 比 perl mySql 查询慢 5 倍
【发布时间】:2015-01-03 05:04:16
【问题描述】:

我正在将代码从 perl 翻译成 python。 即使它的工作原理完全相同,python 中的部分代码也比 perl 慢 5 倍,我不知道为什么。

perl和python都在同一台机器上,mysql数据库也一样。

代码查询数据库以下载表的所有列,然后处理每一行。 有超过 500 万行需要处理,最大的问题是从数据库中检索数据到 python 处理。

这里我附上两个代码示例: 蟒蛇:

import os
import mysql.connector **<--- import mySqlDb**
import time

outDict = dict()
## DB parameters
db = mysql.connector.connect **<----- mySqlDb.connect( ...** 
     (host=dbhost, 
user=username, # your username
passwd=passw, # your password
db=database) # name of the data base
cur = db.cursor(prepared=True)
sql = "select chr,pos,lengthofrepeat,copyNum,region from db.Table_simpleRepeat;"
cur.execute(sql)
print('\t eDiVa public omics start')
s  = time.time()
sz = 1000
rows = cur.fetchall()
for row in rows:
    ## process out dict    
print time.time() - s 
cur.close()
db.close()        

这里是 Perl 等效脚本:

use strict;
use Digest::MD5 qw(md5);
use DBI;
use threads;
use threads::shared;

my $dbh = DBI->connect('dbi:mysql:'.$database.';host='.$dbhost.'',$username,$pass) 
    or die "Connection Error!!\n";    
    my $sql = "select chr,pos,lengthofrepeat,copyNum,region from   db.Table_simpleRepeat\;";
    ## prepare statement and query
    my $stmt = $dbh->prepare($sql);
    $stmt->execute or die "SQL Error!!\n";
    my $c = 0;
    #process query result
    while (my @res = $stmt->fetchrow_array) 
    {
        $edivaStr{ $res[0].";".$res[1] } = $res[4].",".$res[2]; 
        $c +=1;
    }
    print($c."\n");
    ## close DB connection
    $dbh->disconnect();    

这两个脚本的运行时间是:

  • Perl 脚本约 40 秒
  • ~200s 用于 Python 脚本

我无法弄清楚为什么会发生这种情况[我尝试使用 fetchone() 或 fetchmany() 来查看是否存在内存问题,但运行时间最多从 200 秒减少 10%]。

我的主要问题是理解为什么两个功能等效的代码块之间存在如此相关的性能差异。

任何关于如何验证正在发生的事情的想法将不胜感激。

谢谢!

解决方案更新

Peeyush 的评论可能是一个答案,我希望他发布它,因为它可以让我找到解决方案。

问题在于 python 连接器。我刚刚更改了 mySqlDb 模块,它是一个 C 编译模块。这使得 python 代码比 perl 代码稍快。

我用

【问题讨论】:

  • 我在没有内部处理的情况下尝试了同样的代码。运行时间只是减少了 5s 。而处理只是用 out_dict[chr';'pos]= pos,region [所有这些都是数据库行提取的字符串] 填充字典
  • 我对 Python 的了解不够多,无法确定 - 但这是您实例化的服务器端游标吗?如果你把所有东西都拿回来,这似乎是一种浪费。
  • 我真的不知道,我不是 Python 专家。但它可以证明时差是合理的吗?
  • 列是什么类型,得到的值是什么类型? Python 可能会将所有数据库字符串解码为 un​​icode,或者可能会将某些列转换为其他 Python 类型的实例。
  • 我认为这里的问题是 perl mysql 驱动程序是 mysql 客户端库的包装器,而 mysql 连接器纯粹是用 python 编写的,它在 python 本身中实现客户端服务器协议,这很慢。您可以在labs.mysql.com 处检查mysql 连接器python 2.1.0(C 扩展),但由于它在实验室中,因此在生产中使用它并不好。

标签: python mysql perl


【解决方案1】:

cursor.fetchall 表示您一次将所有数据加载到内存中,而不是在需要时慢慢加载。

替换

row = cur.fetchall()
for row in rows:

for row in cur:

【讨论】:

  • 谢谢亚瑟。我应用了该更改,运行时间为 177 秒。它有所帮助,但它并没有向我解释 Perl 替代方案如何快得多。
  • 我不太了解 Perl,但我看到您正在导入线程库,您是否在处理中使用它们?如果您可以同时对多个对象进行处理,您可能可以使用 concurrent.futures 模块来加快处理速度:docs.python.org/3/library/concurrent.futures.html
  • 确实,看起来 OP 根本不使用线程。那里有一些明确的性能问题。使用线程编译的 perl 往往会慢一些,但许多供应商在发布 perl 时启用了该功能,因为它们可以满足尽可能多的人。在不启用线程的情况下编译自己的 perl 可以显着提升。
【解决方案2】:

问题在于 python 连接器。我刚刚为 mySqlDb 模块更改了它,它是一个 C 编译模块。这使得 python 代码比 perl 代码稍快。

我用

【讨论】:

    【解决方案3】:

    我遇到了同样的问题。使用 Python cx_Oracle,这是我的环境性能统计数据 - Python 需要很长时间才能连接到 Oracle DB。

    • 连接数据库,经过:0.38108
    • 运行查询,经过:0.00092
    • 从表中获取文件名,elaps:8e-05
    • 运行查询以读取 BLOB,经过时间:0.00058
    • 解压数据写入文件,elaps:0.00187
    • 关闭数据库连接,经过:0.00009
    • 总的来说,经过:0.38476
    • Perl 中的相同函数,经过时间:0.00213

    【讨论】:

      【解决方案4】:

      如果其他人在使用 Python 和 MySQL 时遇到困难,我认为 Oracle 的 mysql.connector for Python 在执行 UPDATE 和 DELETE 时往往非常慢。我发现 mysql.connector 执行 SELECT 查询非常快,使用 .executemany() 执行 INSERT 也非常快。但是,与我发现的相比,UPDATE 和 DELETE 的速度非常慢。我决定采用的解决方案是将我的数据转移到 PostgreSQL,因为我知道 Postgres 有一个非常好的 Python 库(psycopg2)。无论如何,希望我的反馈对您有所帮助!

      【讨论】:

        【解决方案5】:

        Python for 循环非常慢。您应该寻找一种替代方法来处理您的查询。
        来自 python wiki:https://wiki.python.org/moin/PythonSpeed/PerformanceTips#Loops

        【讨论】:

        • 感谢您的观察,但从数据库加载数据似乎超级慢,主要影响运行时
        • 在某个时间尺度上一切都很慢。如果for 是您的问题,那么您可能还好!
        猜你喜欢
        • 2018-12-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-02-13
        • 2015-05-23
        • 1970-01-01
        • 1970-01-01
        • 2015-06-04
        相关资源
        最近更新 更多