最近想要在windows10上使用kettle做数据ETL,首先安装配置作为新手也是踩坑无数,主要环境版本目前不是本人能够修改的,而kettle这东西对版本对应要求又比较严格,虽然只是连接就已经踩坑无数,主要问题集中在连接hive的时候,下面看图说话:
测试环境版本:
hadoop-2.6.4
apache-hive-0.13.0
启动之后先连个MySQL
- kettle7.1下载地址
下载好软件之后直接进去
\pdi-ce-7.1.0.0-12\pdi-ce-7.1.0.0-12\data-integration双击运行Spoon.bat启动,新建转换返回主对象树视图之后界面如下:建立数据库连接:首先你需要放一个
mysql-connector-java-5.1.6-bin.jar到\pdi-ce-7.1.0.0-12\pdi-ce-7.1.0.0-12\data-integration\lib文件夹下否则会报驱动错误,然后回到界面在右击DB连接,选择数据库mysql,其他照图填
然后是连接hive1
这个过程相对麻烦些,不过也只是对于新手,下面上图举例:- 如图连接
-
这样直接连接绝对死翘翘,会一直提示找不到合适hive-jdbc驱动,需要修改这么几个地方:首先将以下包
一个不少的添加到下面这个目录pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510\lib\client
这里虽然简单但我可是试了三个地方才确认起作用的是这个文件夹下的jar包呢。其次将下面这个文件改变一下参数
pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\plugin.properties
我用的是CDH510所以改为active.hadoop.configuration=cdh510
然后你还需要将开发环境下面的文件夹yarn-site.xml,mapred-site.xml,hive-site .xml,core-site.xml替换掉当前pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510下面的四个原始文件。
至此大功告成,放图:
最后的最后当然是怎么使用了,这里放个链接:
kettle中文网