kettle

kettle

kettle

 

kettle

 

 

ambari

cloudera manager(cdh)

 

where col1 like 'abc%'

 

rowfilter适用场景

当从hbase中获取rowkey大于或者小于某个值的时候

rowkey中包含某个字符串的时候

 

where col1='3'

  and col2 >33

  or  col3 <123

当有多个过滤条件时使用FilterList来组装

先定义各自的filter

然后把多个filter add到filterlist里面

多个fitler之间可以是or和and的关系,使用FilterList.Operator.MUST_PASS_ ALL或FilterList.Operator.MUST_PASS_ ONE

来添加关系组装

 

kettle发布spark程序到yarn下执行的步骤:

1.windows本地解压spark安装目录

2.windows本地解压hadoop安装目录

3.hadoop的etc/hadoop目录下的配置文件:core-site.xml、mapred-site.xml、yarn-site.xml配置文件要指向我们的linux集群

4.job中选择sparksubmit过程

  EntryName:自己去名称

  spark submit utility:解压后的spark的bin目录下的spark-submit.cmd

  Master URL: yarn-cluster/yarn-client

  Class:spark的主程序类名称

  ApplicationJar:spark程序打的jar包

 

  Dependencies:参数名称Enviroment:YARN_CONF_DIR

 

相关文章: