Flink物理分区及数据转换

随机分到下游分区,分区相对均衡,但比较容易失去原有数据的分区结构

val shuffleStream = dataStream.shuffle

重分区,尽可能保证每个分区内的数量平衡

val shuffleStream = dataStream.rebalance()

上游并发度2,下游并发度4,上游一个分区的数据就会路由到下游的两个分区中

senv.readTextFile("").rescale()

下游算子中的tasks可以直接从本地内存中获取广播数据集,不再依赖于网络传输.这种分区策略适合小数据集,当大数据与小数据集关联时,可以广播的方式将小数据集分发到算子的每个分区中

val datas = senv.readTextFile("").broadcast()

import org.apache.flink.api.common.functions.Partitioner

import scala.util.Random

object customPartitioner extends Partitioner[String] {

override def partition(key: String, numPartitions: Int): Int = {

if (key.contains("flink"))

else

Random.nextInt(numPartitions)

}

Flink物理分区及数据转换