【问题标题】:Bulk Insert(BCP) into SQL server VS Sqoop Export into Sql Server批量插入(BCP)到 SQL Server VS Sqoop 导出到 Sql Server
【发布时间】:2017-11-30 06:19:33
【问题描述】:

为了将数据从 hive/hdfs 导出到 sql server,在速度和性能方面,以下选项中哪一个更好。

1) 使用 Sqoop Export 工具连接到 RDBMS(SQL 服务器)并直接导出数据。

2) 使用 HIVE 使用 INSERT OVERWRITE LOCAL DIRECTORY 命令转储 CSV 文件,然后对这些 CSV 文件执行 BCP(或批量插入查询)以将数据放入 SQL服务器数据库。

或者, 还有其他更好的选择吗?

【问题讨论】:

    标签: sql-server hadoop


    【解决方案1】:

    根据我的经验,我会尽可能使用bcp。据我所知,这是将霰弹枪数据输入数据库的最快方法,并且可以在(有些)细粒度级别上进行配置。

    需要考虑的几件事:

    1. 使用临时表。没有主键,没有索引,只有原始数据。
    2. 加载后有一个“整合”过程来移动数据。
    3. 使用大约5000 的行大小开始,但如果性能是最重要的问题,则进行测试。
    4. 确保延长超时时间。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-07-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多