Apache Kafka开发了一些数据管道。在性能测试方面,数据生成总是会在整个活动中引入一些样板代码,例如创建客户端实例,编写控制流以发送数据,根据业务逻辑随机化有效负载等等。
在测试设置期间,拥有一个处理所有繁重工作的框架会很好,因此只需要回答两个基本和基本的问题:
- 数据应该是什么样的?(架构)
- 要生成多少数据?(体积)
Kafka Connect,事实证明实现自定义源连接器能够实现这一目标。以下是用于生成测试数据的示例属性列表的快速概述。
topic.name = generated.events
poll.size = 10
poll.interval.ms = 5000
message.template = {“status”:“foo”,“direction”:“up”}
random.fields = status:foo | bar |巴兹,方向:向上|向下|向左|向右
poll.interval.ms控制音量。
可在GitHub上获得。
在下一节中,我将简要介绍一些实现细节。
实现自定义连接器
SourceTask,并实现了一些生命周期方法的钩。以下片段缩写自datagen。
汇合的文档详细介绍了这些概念。
全面实施可以在GitHub上找到。
在下一节中,我将演示如何将插件与dockerized本地群集设置一起使用。
快速入门演示
docker-compose ps以打印状态信息,如下所示。
Name State Ports
----------------------------------------------- --------------------
quickstart_broker_1 Up 0.0.0.0:9092->9092/tcp
quickstart_connect_1 Up 0.0.0.0:8083->8083/tcp,t ...
quickstart_kafka- connect-ui_1 Up 0.0.0.0:8001->8000/tcp
quickstart_kafka-rest-proxy_1 Up 0.0.0.0:8082->8082/tcp
quickstart_kafka-topics-ui_1 Up 0.0.0.0:8000->8000/tcp
quickstart_zookeeper_1 Up 0.0。 0.0:2181-> 2181 / tcp,...
docker-compose logs -f以查看日志。
docker-compose logs -f connect来查看其日志,以查看如下的正常运行指标。
INFO使用config offset -1(org.apache.kafka.connect.runtime.distributed.DistributedHerder)
启动连接器和任务INFO完成启动连接器和任务(org.apache.kafka.connect.runtime.distributed.DistributedHerder)
的配置示例。它基本上设置“datagen”任务,每5秒生成10条消息。每条消息都使用定义的JSON消息模板和一些随机字段。运行以下命令以实例化Connector和Task。
curl -X POST http:// localhost:8083 / connectors \
-H'Content-Type:application / json'\
-H'Eccept:application / json'\
-d @ connect.source.datagen.json
generated.events定义的速率发布到主题的随机JSON消息。
kafka-connect-datagen发布消息
Confluent文档以获取更多操作。
#pause连接器(如果成功则为空响应)
curl -X PUT http:// localhost:8083 / connectors / connect.source.datagen / pause
#delete连接器(如果成功则为空响应)
curl -X DELETE http:// localhost:8083 / connectors / connect.source.datagen
总之,我们能够利用Kafka Connect,这是一种现成的工具,可以很好地与Kafka集成,以最少的样板代码实现随机数据生成。自定义连接器插件 - kafka-connect-datagen - 具有高度可移植性,可以进一步扩展以支持集成测试和不同消息格式等功能。