第 1 步:
使用最新版本安装 SPARK....
$ cd $SPARK_Home; ./sbt/sbt -Phive assembly
$ cd $SPARK_Home; ./sbt/sbt -Phivethriftserver assembly
通过执行此操作,您将下载一些jar文件,默认情况下将添加它,无需添加....
第 2 步:
将 hive-site.xml 从 Hive 集群复制到 $SPARK_HOME/conf/dir 并编辑 XML 文件并将这些属性添加到下面列出的该文件中:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://MYSQL_HOST:3306/hive_{version}</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore/description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>XXXXXXXX</value>
<description>Username to use against metastore database/description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>XXXXXXXX</value>
<description>Password to use against metastore database/description>
</property>
第 3 步:下载 MYSQL JDBC 连接器并将其添加到 SPARK CLASSPATH。
运行此命令 bin/compute-classpath.sh
并为以下脚本添加以下行。
CLASSPATH=”$CLASSPATH:$PATH_TO_mysql-connector-java-5.1.10.jar
如何将数据从 HIVE 检索到 SPARK....
第 1 步:
通过以下命令启动所有守护进程....
start-all.sh
第 2 步:
通过以下命令启动 hive thrift server 2....
hive --service hiveserver2 &
第 3 步:
通过以下命令启动 spark server....
start-spark.sh
最后通过以下命令检查这些是否启动......
RunJar
ResourceManager
Master
NameNode
SecondaryNameNode
Worker
Jps
JobHistoryServer
DataNode
NodeManager
第 4 步:
通过以下命令启动master....
./sbin/start-master.sh
要停止 master 使用下面的命令.....
./sbin/stop-master.sh
第 5 步:
打开一个新终端....
从以下路径开始直线......
hadoop@localhost:/usr/local/hadoop/hive/bin$ beeline
在它要求输入之后...传递下面列出的输入....
!connect jdbc:hive2://localhost:10000 hadoop "" org.apache.hive.jdbc.HiveDriver
然后通过以下命令设置 SPARK....
注意:在 conf 文件中设置这些配置,这样就不需要一直运行了......
set spark.master=spark://localhost:7077;
set hive.execution.engines=spark;
set spark.executor.memory=2g; // set the memory depends on your server
set spark.serializer=org.apache.spark.serializer.kryoSerializer;
set spark.io.compression.codec=org.apache.spark.io.LZFCompressionCodec;
在它要求输入之后...传递您要检索数据的查询...并打开浏览器并通过以下命令检查 URL localhost:8080 您可以看到正在运行的作业和已完成URL 中的作业....