PS:将鼠标悬浮于对应图片上查看配置文件路径,全文同
前期准备
- /etc/sudoers配置管理用户root权限
- 关闭防火墙
- /etc/hosts 配置ip与主机名
- 将其余节点的公钥拷贝到仓库文件并授权,scp分发到各节点,配置各节点直接ssh免密登陆
- 安装ntp,同步集群机器时间(或者跑个shell脚本,同步为master时间)
- 下载jdk包并在/etc/profile中配置JAVA变量(本次用的为jdk 1.8.0),设置完后记得
source profile
包下载
下载zookeeper 3.4.12, sqoop 1.4.5,kylin 2.0,Hbase 1.2.7, hive 2.3.4,hadoop 2.7.6,spark 2.1.1(以上版本可搭配使用)
按顺序安装
一.Hadoop
-
修改配置文件
-
编辑slaves,添加datanode结点
-
分发到各节点并配置环境变量
- 初始化:
hdfs namenode –format - 启动:
start-yarn.sh start-dfs.sh - hadoop图形化界面:http://ip:50070/
- 集群管理界面:http://ip:8088/
二.Zookeeper
- 解压、配置环境变量
- 修改配置文件
- 在$dataDir下新建myid文件,文件内容填写1,分发到其他节点时,需要将myid的文件内容更新为unique id,不重复即可
-
bin/zkServer.sh start启动zookeeper
三.Hbase
- 解压
-
将hadoop下的core-site.xml、hdfs-site.xml复制到hbase配置目录下。 - 配置环境变量
- 通过
start-hbase.sh进行启动 - 监控界面:http://ip:16010
四.Hive
- 解压
-
cp hive-default.xml.template hive-site.xml并编辑,插入 - 复制mysql-connector-java-5.1.18-bin.jar到hive/lib
- 配置环境变量
- 在hive/bin 下执行
schematool -dbType mysql -initSchema - 输入Hive启动
五.Sqoop
- 解压
- 移动 mysql-connector-java-5.1.30-bin.jar 到 /usr/lib/sqoop/lib 目录
- 配置环境变量
六.Kylin
- 解压
- 配置环境变量
-
/bin/kylin.sh start直接启动kylin - 访问: http://ip:7070/kylin
- 需要在web进行查询需要在hadoop下修改mpred-site.xml再启动命令
mr-jobhistory-daemon.sh start historyserver
七.Spark
-
配置环境变量
-
Scp将spark分发至其余节点
-
启动HDFS之后,
/sbin/start-all.sh启动
- 在命令行输入
spark-shell启动shell - webUI:http://ip:4040
- webUI:http://ip:8080
Kylin查询案例
curl -X POST --user ADMIN:KYLIN -H “Content-Type: application/json” -d ‘{ “sql”:“select TEST.DISEASE from TEST”, “project”:“test” }’ http://ip:7070/kylin/api/query
启动模式
启动顺序为 zookeeper(每一台)->Hadoop(主节点)->Hbase(主节点)->sqoop 1.4.5 -> hive(主节点)->kylin(主节点)->spark 2.1.1