阿里云openMR的使用

OPEN MR 基本概念

为了帮助用户更加安全、便捷的使用 MaxCompute 的 MR 功能，实现更复杂的计算逻辑。本文档主要讲述 OPEN MR 的开发方法，帮忙用户更好的开发复杂的 MR 模型。OPEN MR 用户只需要关注 Mapper/Reducer 部分的逻辑，作业提交部分逻辑会由平台统一来完成。涉及到一些日常调度涉及到的变量可以在创建 OPEN MR 节点时，在配置中通过参数的方式来指定。ODPS_MR任务类型已经开放，建议优先使用ODPS_MR。

注意：OPEN_MR不支持引用资源表，不支持多个Reduce等

场景和数据说明

本示例将以经典的 WordCount 示例来介绍如何在阿里云大数据平台使用 MaxCompute MapReduce 。 WordCount 示例的详细内容请参见：WordCount 示例。

本文档中所涉及的数据表说明如下：

1) 输入数据表：wc_in 用于存储 word 列表；

2) 输出数据表：wc_out 用于存放通过 MR 程序处理后的结果集。

数据表准备

创建数据表

参考快速开始-创建表章节新建表 wc_in、wc_out.

CREATE TABLE wc_in (key STRING, value STRING) partitioned by (pt string );
CREATE TABLE wc_out (key STRING, cnt BIGINT) partitioned by (pt string );

插入示例数据

为感知 OPEN MR 程序在大数据平台上运行的结果，需向输入表（wc_in的分区 pt=20170101）中插入示例数据，具体步骤如下：

1.导航至数据开发单击新建>新建脚本文件 ;

2.在新建脚本文件弹出框中填写各配置项，单击提交 ;

阿里云openMR的使用

3.在 MaxCompute 代码编辑器中编写 MaxCompute SQL 并运行代码。更多 SQL 语法请参见：SQL 概要。

阿里云openMR的使用

提供 MaxCompute SQL 脚本如下：

---创建系统dual
drop table if exists dual;
create table dual(id bigint); --如project中不存在此伪表，则需创建并初始化数据
---向系统伪表初始化数据
insert overwrite table dual select count(*)from dual;
---向输入表 wc_in 的分区 pt=20170101 插入示例数据
insert overwrite table wc_in partition(pt=20170101) select * from (
select 'project','val_pro' from dual
union all
select 'problem','val_pro' from dual
union all
select 'package','val_a' from dual
union all
select 'pad','val_a' from dual
) b;

可以写查询语句来查看已经插入的示例数据，如下图：

阿里云openMR的使用

编写 MapReduce 程序

用户在使用 OPEN_MR 节点之前需在本地基于 MaxCompute MapReduce 编程框架的 WordCount 示例的代码，然后编译打成 jar 包，以资源的方式添加到大数据平台。涉及到 MR 的开发，可以参考官网 MaxCompute 的帮助，链接：大数据计算服务 MaxCompute 帮助文档。本例代码详见WordCount.java附件。