摘要: 数据存储在OSS后,可以有多种方式查询分析OSS数据,如自建Spark/Presto/Impala(阿里云EMR以及Hadoop社区官方已支持OSS), 使用MaxCompute、DataLakeAnalytics等。

基于OSS的数据查询分析

数据存储在OSS后,有多种查询分析的方法,包括阿里云MaxCompute、DataLakeAnalytics产品等Severless查询分析服务,也可以自建Spark、Presto、Imapla应用来分析OSS上的数据。

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

实验步骤(DataLakeAnalytics on OSS)

本次实验,主要介绍实验DataLakeAnalytics如何Severless地查询分析OSS上的数据。

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

服务开通

OSS服务:

1.开通OSS服务https://www.aliyun.com/product/oss

DataLakeAnalytics服务:

1.申请DataLakeAnalytics的试用资格
备注:目前DataLakeAnalytics公测中,需提交公测申请,开通试用。

操作步骤

准备数据

登录控制台, 并创建目录

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

请创建华东1区域的OSS测试Bucket(目前DataLakeAnalytics产品公测区域为华东1)。

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

备注:Bucket名称是全局唯一,如果提示名称已存在,请更换一个Bucket名称。

创建目录(建议目录如下):

创建目录workshop_sh/trade, workshop_sh/user 

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

下载模拟数据(该数据本次实验的模拟数据)

http://testdatasample.oss-cn-hangzhou.aliyuncs.com/workshop_sh/workshop_sh.zip

将下载的将交易记录和开户信息数据,分别上传到trade、user目录

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

登录Data Lake Analytics控制台

点击“登录数据库”,输入开通服务时分配的用户名和密码,登录Data Lake Analytics控制台。

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

公测期间的分配的用户名、密码,开通服务的消息中可以查看

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

创建Schema和Table

创建Schema

输入创建SCHEMA的语句,点击“同步执行”。

CREATE SCHEMA sh_trade

CREATE SCHEMA sh_trade
(注意:同一个阿里云region,schema名全局唯一,建议根据业务定义,已有重名schema,在创建时会提示报错,则请换一个schema名字。)

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

创建表

在“数据库”的下拉框中,选择刚刚创建的schema。
然后在SQL文本框中输入建表语句如下,并点击同步执行。其中,Location替换为您的Bucket和测试数据的路径

1.创建交易记录表:
说明:LOCATION 'oss://Bucket名称/交易记录表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。如:oss://workshopsh20180608100/workshop_sh/user

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

2.创建开户信息表:
说明:LOCATION 'oss://Bucket名称/开户信息表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。 如:oss://workshopsh20180608100/workshop_sh/user

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

3.建表完毕后,刷新页面,在左边导航条中能看到schema下的2张表

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

SQL查询(同步执行)

1.查询交易机构SXS_0010,在0603至0604的100条交易记录

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

显示执行结果

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

2.查询各城市、男性女性人群,购买的基金总额(多表Join查询)

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

SQL查询(异步执行)

异步执行查询,将查询结果,以CSV格式,输出到OSS上

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

点击“执行状态”,可看到该异步查询任务的执行状态

主要分为:“RUNNING”,“SUCCESS”,“FAILURE”。

点击“刷新”,当STATUS变为“SUCCESS”时,可以查看到查询结果输出到OSS的文件路径。

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

查看导出OSS的结果文件

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

实验耗费

OSS存储的费用

原文链接

相关文章: