【发布时间】:2015-01-03 05:04:16
【问题描述】:
我正在将代码从 perl 翻译成 python。 即使它的工作原理完全相同,python 中的部分代码也比 perl 慢 5 倍,我不知道为什么。
perl和python都在同一台机器上,mysql数据库也一样。
代码查询数据库以下载表的所有列,然后处理每一行。 有超过 500 万行需要处理,最大的问题是从数据库中检索数据到 python 处理。
这里我附上两个代码示例: 蟒蛇:
import os
import mysql.connector **<--- import mySqlDb**
import time
outDict = dict()
## DB parameters
db = mysql.connector.connect **<----- mySqlDb.connect( ...**
(host=dbhost,
user=username, # your username
passwd=passw, # your password
db=database) # name of the data base
cur = db.cursor(prepared=True)
sql = "select chr,pos,lengthofrepeat,copyNum,region from db.Table_simpleRepeat;"
cur.execute(sql)
print('\t eDiVa public omics start')
s = time.time()
sz = 1000
rows = cur.fetchall()
for row in rows:
## process out dict
print time.time() - s
cur.close()
db.close()
这里是 Perl 等效脚本:
use strict;
use Digest::MD5 qw(md5);
use DBI;
use threads;
use threads::shared;
my $dbh = DBI->connect('dbi:mysql:'.$database.';host='.$dbhost.'',$username,$pass)
or die "Connection Error!!\n";
my $sql = "select chr,pos,lengthofrepeat,copyNum,region from db.Table_simpleRepeat\;";
## prepare statement and query
my $stmt = $dbh->prepare($sql);
$stmt->execute or die "SQL Error!!\n";
my $c = 0;
#process query result
while (my @res = $stmt->fetchrow_array)
{
$edivaStr{ $res[0].";".$res[1] } = $res[4].",".$res[2];
$c +=1;
}
print($c."\n");
## close DB connection
$dbh->disconnect();
这两个脚本的运行时间是:
- Perl 脚本约 40 秒
- ~200s 用于 Python 脚本
我无法弄清楚为什么会发生这种情况[我尝试使用 fetchone() 或 fetchmany() 来查看是否存在内存问题,但运行时间最多从 200 秒减少 10%]。
我的主要问题是理解为什么两个功能等效的代码块之间存在如此相关的性能差异。
任何关于如何验证正在发生的事情的想法将不胜感激。
谢谢!
解决方案更新
Peeyush 的评论可能是一个答案,我希望他发布它,因为它可以让我找到解决方案。
问题在于 python 连接器。我刚刚更改了 mySqlDb 模块,它是一个 C 编译模块。这使得 python 代码比 perl 代码稍快。
我用
【问题讨论】:
-
我在没有内部处理的情况下尝试了同样的代码。运行时间只是减少了 5s 。而处理只是用 out_dict[chr';'pos]= pos,region [所有这些都是数据库行提取的字符串] 填充字典
-
我对 Python 的了解不够多,无法确定 - 但这是您实例化的服务器端游标吗?如果你把所有东西都拿回来,这似乎是一种浪费。
-
我真的不知道,我不是 Python 专家。但它可以证明时差是合理的吗?
-
列是什么类型,得到的值是什么类型? Python 可能会将所有数据库字符串解码为 unicode,或者可能会将某些列转换为其他 Python 类型的实例。
-
我认为这里的问题是 perl mysql 驱动程序是 mysql 客户端库的包装器,而 mysql 连接器纯粹是用 python 编写的,它在 python 本身中实现客户端服务器协议,这很慢。您可以在labs.mysql.com 处检查mysql 连接器python 2.1.0(C 扩展),但由于它在实验室中,因此在生产中使用它并不好。