分区的目的是充分利用多核CPU的优势,提高数据处理并行度。

处理步骤流程效果

意图:从文本文件中读取数据,增加一个常量列以后,在内存中按no分组统计记录条数,输出到文件
转换步骤使用分区

准备数据

转换步骤使用分区

步骤解析

首先在转换的主对象树下,新建分区schemas
转换步骤使用分区定义分区,分区ID有几个就有多少个分区,名字随便
转换步骤使用分区然后右键【在内存中分组】,选择【分区】->Remainder of divison->你的分区schema->Mode partitioner
转换步骤使用分区
Note: Remainder of divison 按分区分割数据,所有分区数据全局唯一。Mirror to all partitions 则是所有分区复制一份全量的数据。

为了保持每个分区在后续处理步骤都保持在一个泳道上,都要按上步配置相同的schema

输出文件记得勾上 带分区号。
转换步骤使用分区
然后运行即可。

执行结果

生成三个文件,一个分区一个文件
转换步骤使用分区

转换步骤使用分区
转换步骤使用分区

相关文章:

  • 2021-12-13
  • 2021-08-28
  • 2021-12-31
  • 2022-12-23
  • 2021-11-17
  • 2022-03-06
  • 2021-11-10
  • 2021-11-17
猜你喜欢
  • 2022-12-23
  • 2022-02-12
  • 2022-12-23
  • 2022-12-23
  • 2021-07-05
  • 2021-10-14
相关资源
相似解决方案