【发布时间】:2013-06-26 20:29:46
【问题描述】:
我对 Hadoop 很陌生。我正在尝试编写一个从两个不同数据库(例如 MySQL 和 Postgres)读取数据的 map-reduce 作业。我知道我们可以使用 DBInputFormat 并通过指定 JDBC 驱动程序来读取单个数据库,例如 MySQL:
DBConfiguration.configureDB(conf, “com.mysql.jdbc.Driver”, “jdbc:mysql://localhost/mydatabase”);
但是,如果我们想从多个数据库中读取,我们该怎么做呢?换句话说,我们如何在 DBConfiguration 中指定多个 JDBC 驱动程序?
【问题讨论】:
-
非常感谢你们。我知道 Sqoop 和其他将数据导入 HDFS 的技术,但我不想这样做。我宁愿直接从那些 SQL 数据库中读取数据,然后对其进行分析。我不想将任何数据迁移到我的 HDFS 中。有人听说过HIHO吗?你认为在我的情况下使用它是个好主意吗?会不会有效率?
标签: database jdbc hadoop mapreduce