kettle - 爱码网

kettle

ambari

cloudera manager(cdh)

where col1 like 'abc%'

rowfilter适用场景

当从hbase中获取rowkey大于或者小于某个值的时候

rowkey中包含某个字符串的时候

where col1='3'

and col2 >33

or col3 <123

当有多个过滤条件时使用FilterList来组装

先定义各自的filter

然后把多个filter add到filterlist里面

多个fitler之间可以是or和and的关系，使用FilterList.Operator.MUST_PASS_ ALL或FilterList.Operator.MUST_PASS_ ONE

来添加关系组装

kettle发布spark程序到yarn下执行的步骤：

1.windows本地解压spark安装目录

2.windows本地解压hadoop安装目录

3.hadoop的etc/hadoop目录下的配置文件：core-site.xml、mapred-site.xml、yarn-site.xml配置文件要指向我们的linux集群

4.job中选择sparksubmit过程

EntryName：自己去名称

spark submit utility：解压后的spark的bin目录下的spark-submit.cmd

Master URL: yarn-cluster/yarn-client

Class:spark的主程序类名称

ApplicationJar：spark程序打的jar包

Dependencies:参数名称Enviroment：YARN_CONF_DIR