背景

最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。

步骤

1.启动hiveServer2

kettle 是通过jdbc 来连接hive的,而jdbc 方式连接hive需要启动hiveServer2(thrift接口程序),执行如下命令来启动hiveServer2
./hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=[SERVER_IP]

2. 修改plugin.properties 文件

文件位置:KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties
修改active.hadoop.configuration=hdp25(我使用的是apache hadoop,其他版本的hadoop选择相应的版本)

kettle连接Hive配置(一)

kettle连接Hive配置(一)

 

3. 下载对应的hive jar包

从服务器下载hive jar文件到之前的hdp25/lib文件夹下,主要注意hive-开头的:

 kettle连接Hive配置(一)kettle连接Hive配置(一)

4.kettle里创建数据库连接

选择连接类型为hadoop hive2,填写好主机名称、数据库名称,以及之前hiveServer2的端口号,以及用户名和密码,如下:

 kettle连接Hive配置(一)kettle连接Hive配置(一)

 

相关文章: