由于之前一直负责大数据项目,之前用Kettle(pdi)7.1把SQL Server的数据导入到HDFS系统中一直失败,期间由于其他项目中断,就没有继续往下研究,最近因为其他项目完结,继续在网上找了很多资料,最后找到解决方案,现在把这个过程整理一下。

软件 版本
HDFS Hadoop 2.7.3
Kettle(pdi) pdi-ce-8.3.0.0-371

一、HDFS配置

源数据端的配置这里就不多说了,感兴趣的朋友可以参见《工具:Kettle使用指南》,这里主要讲解如何导出数据到大数据系统中。

  1. 首先HDFS数据源配置
    大数据:Kettle导入数据到HDFS
    配置好之后,需要点击下边的“测试”按钮。有错误是正常的,主要有两类问题:配置文件和权限的问题。
    配置文件很简单就是把hadoop中的xml配置文件直接拷贝到相应的cdh6.1目录下面,权限文件也就是系统的访问权限,读写文件等,笔者这里用户目录权限问题还是没解决,但是不影响后面的数据导出。
    大数据:Kettle导入数据到HDFS
    大数据:Kettle导入数据到HDFS
  2. 数据导出
    因为是测试,所以笔者创建了一个简单的数据库表如下,总共10条数据,如下。
    大数据:Kettle导入数据到HDFS
    在Kettle上点击“运行转换”按钮,数据导入成功之后的日志如下:
    大数据:Kettle导入数据到HDFS
    大数据:Kettle导入数据到HDFS
    在hdfs目录下查看到的数据如下:
    大数据:Kettle导入数据到HDFS
    至此,传统关系型数据库导入大数据文件HDFS完毕。

【参考文献】
1.kettle 从数据库表将数据写入 hadoop hdfs
2.Kettle — 使用手册

相关文章: