kettle连接Hive配置（一）

背景

最近需要将mysql的数据库的数据导入到hive里，期间遇到了很多坑，这次来总结一下。

步骤

1.启动hiveServer2

kettle 是通过jdbc 来连接hive的，而jdbc 方式连接hive需要启动hiveServer2（thrift接口程序）,执行如下命令来启动hiveServer2
./hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=[SERVER_IP]

2. 修改plugin.properties 文件

文件位置：KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties
修改active.hadoop.configuration=hdp25（我使用的是apache hadoop,其他版本的hadoop选择相应的版本）

kettle连接Hive配置（一）

3. 下载对应的hive jar包

从服务器下载hive jar文件到之前的hdp25/lib文件夹下，主要注意hive-开头的：

kettle连接Hive配置（一）

4.kettle里创建数据库连接

选择连接类型为hadoop hive2,填写好主机名称、数据库名称，以及之前hiveServer2的端口号，以及用户名和密码,如下：

kettle连接Hive配置（一）