【问题标题】:SQLAlchemy Large Number Truncation/Rounding Issue in OracleOracle 中的 SQLAlchemy 大数截断/舍入问题
【发布时间】:2019-09-18 01:33:23
【问题描述】:

我管理许多 ETL 作业,其中我与 Facebook graph 和 Google Doubleclick 等 API 建立了联系,这些 API 使用大型数字唯一标识符。我们使用 Oracle 数据库来暂存其中的一些数据,并将其与我们自己的数据相结合。我一直遇到的问题是,当我通过 SQLAlchemy(使用 cx_Oracle)将这些大数字 ID 插入数字列时,有效数字会被截断。

示例: 1234567890726531 变为 1234567890726530

解决方法: 为了解决这个问题,我一直使用 VARCHAR2 数据类型来保存 ID 的文本表示,因为它保留了所有有效数字。

我相信它与这些错误线程有关:

(在我的情况下,我无法复制这些线程中提到的光标代码来测试该解决方案)

Facebook 示例的一些示例代码(或从中提取的相关部分)如下:

[...code that populate the "buffer" list]
schema,table_name = 'some_schema','some_table'
engine = create_engine(enginestr)
metadata = MetaData()
table  = Table(table_name,
                 metadata,
                 schema=schema,
                 autoload=True,
                 autoload_with=self.engine)
buf=[]
for i in buffer:
    d={
        'id':i[1]['id'],
        'id_char':i[1]['id'],
        'name':i[1]['name'],
        'status':i[1]['status'],
        'page_id':i[0]['id']
    }
    buf+=[d]
engine.execute(table.insert(),buf)

缓冲区条目如下所示:

[(<Page> {
      "id": "FacebookPageName"
  }, <LeadgenForm> {
      "id": "123456789012345",
      "leadgen_export_csv_url": "https://www.facebook.com/ads/lead_gen/export_csv/?id=123456789012345&type=form&source_type=graph_api",
      "locale": "en_US",
      "name": "Leadgen Form Name",
      "status": "ACTIVE"
  })]

表格本质上是这样的:

create table some_schema.some_table (
id number primary key,
name varchar2(512 char),
status varchar2(30 char),
updated timestamp with time zone default systimestamp,
id_char varchar2(64 char)
);

上面的代码运行后,这条SQL的结果应该是什么都没有

select to_char(t.id) ,t.id_char from some_schema.some_table t where t.id<>t.id_Char;

但是,它确实会返回结果(为保护隐私而略有改动)

NUMERIC_ID  ID_CHAR
1234567890726530    1234567890726531
1234567890585300    1234567890585296
1234567890103880    1234567890103882
1234567890185790    1234567890185794
1234567890359660    1234567890359664
1234567890793130    1234567890793131
1234567890250270    1234567890250272
1234567890467220    1234567890467223
1234567890905240    1234567890905241
1234567890369260    1234567890369255

此 DML 将其更新为按预期显示,向我展示了问题出在 python 端:

update some_schema.some_table t set t.id = t.id_char where t.id<>t.id_Char;

有没有更好的处理方法:

  • 表反射
  • 数据类型转换
  • 插入
  • 任何东西

这样我的大数值不会被截断?现在使用字符串类型的容器来存储 ID 似乎是可行的,但就每行的存储空间而言并不是最好的,这成为更大数据集的一个问题。

补充信息:

  • Python 版本:3.6.2
  • SQLAlchemy 版本:1.2.0
  • cx-Oracle 版本:6.1

编辑:

在 Anthony Tuininga 的建议下,我尝试通过 cx-Oracle 直接插入记录,并没有导致上述舍入问题。这使我得出结论,我的问题在于我的 SQLAlchemy 实现或 SQLAlchemy 库本身。

buf=[]
columns = ('id','id_char','name','status','page_id')
for i in buffer:
    d=(
        i[1]['id'],
        i[1]['id'],
        i[1]['name'],
        i[1]['status'],
        i[0]['id']
    )
    buf+=[d]

from ouplax.database import KEY
import cx_Oracle
config = {
    'server'     : 'TNSName',
    'username'   : 'username',
    'schema'     : 'some_schema',
    'table_name' : 'some_table',
    'columns'    : ','.join(columns),
    'binds'      : ','.join( [':{}'.format(i) for i in range(1,len(columns)+1)] )
}
k = KEY(server=config['server'],username=config['username'],keyHeader='PYSQL') #Object for storing/retrieving credentials
connection = cx_Oracle.connect(config['username'],k.getpass(),server)
cursor = cx_Oracle.Cursor(connection)
stmt = 'truncate table {schema}.{table_name}'.format(**config)
print(stmt)
cursor.execute(stmt)
stmt = 'insert into {schema}.{table_name} ({columns}) values ({binds})'.format(**config)
print(stmt)
cursor.prepare(stmt)
cursor.executemany(None, buf)
connection.commit()
cursor.close()
connection.close()

【问题讨论】:

  • 您能在您使用的平台上添加信息吗?你正在使用的 Python 版本?您使用的 cx_Oracle 版本?您正在使用的 sqlalchemy 版本?您是否尝试过直接使用 cx_Oracle(不使用 sqlalchemy)来查看这是否特定于 sqlalchemy?
  • cx_Oracle 将 Oracle 支持的任何大小的整数转换为 Oracle 而不被截断应该没有困难。当然,使用浮点数是另一回事。限制为 53 位有效二进制数字。
  • 添加了版本信息。我一直在使用 SQLAlchemy 来抽象与 cx_Oracle 的交互,所以我没有尝试直接使用 cx_Oracle 进行插入;这是个好主意。我会看看我是否可以这样缩小问题的范围
  • 因此,据我所知,这对您来说不是问题,@AnthonyTuinga。上面发布的代码
  • 看起来是这样的。我会记录 sqlalchemy 项目的问题。如果它是一个综合问题,迈克拜耳一定会与我联系! :-)

标签: python sqlalchemy cx-oracle


【解决方案1】:

我自己偶然发现了这个问题,并在 SQLAlchemy repo (link) 中提交了一个错误报告。该问题已在SQLAlchemy 1.2.11 release 中解决:

[oracle] [bug] 根据 cx_Oracle 开发人员的建议,对于 cx_Oracle,整数数据类型现在将绑定到“int”。以前,在 cx_Oracle 6.x 系列中使用 cx_Oracle.NUMBER 会导致精度损失。

【讨论】:

  • 欢迎来到 Stack Overflow!虽然链接是分享知识的好方法,但如果它们在未来被破坏,它们将无法真正回答问题。将回答问题的链接的基本内容添加到您的答案中。如果内容太复杂或太大而无法在此处放置,请描述所提出解决方案的总体思路。请记住始终保留指向原始网站的链接引用。见:How do I write a good answer?
  • @IvanKaloyanov 我想发表评论,但由于声誉不足而无法发表评论。我想我宁愿发布一个答案也不愿什么都不做。
  • @Emilijus 哦耶...我不知道为什么它需要 X 点才能评论这对我来说很奇怪 xaxa
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-10-13
  • 2021-12-06
  • 2015-03-04
相关资源
最近更新 更多