1.kettle简介

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做,它的数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

2.kettle下载

下面两个案例是使用kettle7.1进行操作,分享一下国内的下载地址:
kettle下载
无需安装,双击根目录下的Spoon.bat文件即可
基于kettle实现数据采集

3.kettle实现不同数据库的数据采集

这个案例是实现oracle数据库的数据采集到mysql里面去
3.1创建对应数据库的DB连接
基于kettle实现数据采集
基于kettle实现数据采集
3.2使用图形工具完成表输入->字段选择->表输出的流线设计
基于kettle实现数据采集
3.3配置表输入信息:用于编写sql获取数据源的数据
基于kettle实现数据采集
3.4配置字段选择信息:用于数据源和目标表字段名不一致的一个转换
基于kettle实现数据采集
3.5配置表输出信息:用于目标表的字段映射
基于kettle实现数据采集
3.6运行这个转换,并查看结果
基于kettle实现数据采集

4.kettle实现接口的数据采集

接口地址(可直接复制):http://api.map.baidu.com/place/v2/suggestion?query=%E8%A7%92%E7%BE%8E&region=%E6%BC%B3%E5%B7%9E%E5%B8%82&output=json&ak=n0lHarpY3QZx6xXXIaWMFLxj
通过访问接口可以得知返回的json数据结构,可考虑做两层json解析来获取对应的字段,当然也可以使用:$…result[*].name的表达式来获取,这里不做演示,有兴趣的同学可以试一下!
基于kettle实现数据采集

4.1配置目标表的DB连接(上面有oracle和mysql的不同示例)
4.2使用图形工具接口采集的流线图
基于kettle实现数据采集
4.3配置生成记录信息:填写对应的url地址和定义url名称,类型
基于kettle实现数据采集
4.4配置HTTP client信息:选择url地址和定义结果字段名
基于kettle实现数据采集
4.5解析接口返回的JSO,这里是做了两层解析,语法为:$…字段名
基于kettle实现数据采集

基于kettle实现数据采集
基于kettle实现数据采集
基于kettle实现数据采集
4.6配置表输出信息
基于kettle实现数据采集
4.7运行这个转换,并查看结果
基于kettle实现数据采集
感谢您的阅读,希望对您有所帮助,不足之处也希望多探讨!

相关文章: