【问题标题】:Kafka vs StreamSets卡夫卡与流集
【发布时间】:2019-06-02 14:37:31
【问题描述】:

我正在阅读与 Kafka 和 StreamSets 相关的文章,我的理解是

  1. Kafka 充当生产者系统和订阅者之间的代理。 Producer 推送数据到 Kafka 集群,订阅者从 Kafka 拉取数据

  2. StreamsSets 是一种通过管道将数据从一个源移动到另一个源的技术

现在,以下是我的问题,请帮助澄清

  1. Kafka 和 StreamSets 的根本区别是什么?是 Kafka 不移动数据,但 StreamSets 移动数据吗?

  2. 如果 Kafka 不移动数据,那么 Kafka 是做什么用的?如果它像 ETL 解决方案那样移动数据,它与 SSIS、Informatica 等有何不同?

  3. StreamSet 与 SSIS、Informatica 等有何不同?

【问题讨论】:

  • 欢迎使用帖子旁边的复选标记接受答案

标签: ssis apache-kafka informatica streamsets


【解决方案1】:

StreamSets 是一个图形工具,其中包含允许数据移动的组件,其中恰好包括 Kafka 生产者和消费者,但您不需要使用它们。

它们是互补的,通过使用 Kafka,您可以允许流式系统中的背压或让非 StreamSets 生产者/消费者与其他 Kafka 主题进行交互。不,Kafka 不会移动数据(内部复制除外),与代理交互的客户端会移动。

我没有使用过 Informatica 或 SSIS,但我敢肯定,如果您联系了 StreamSets 的某个人,他们可以回答他们的比较方式

【讨论】:

    【解决方案2】:

    1) 在 StreamSets 中,大多数时候我们创建“数据管道”,将管道想象成一个可以由多个步骤/任务组成的应用程序,第一个任务可以从数据库或 kafka 或任意数量的数据中读取数据源,第二步可以修改数据,第三步可以运行脚本......等等,最后它可以将转换后的数据保存在可以是数据库,AWS......等的目标中。所以Fafka和StreamSets可以工作StreamSets 可以一起读取和写入 Kafka 的数据

    2) 我认为 Kafka 是一个收集来自多个来源的数据并在一定时间内可供消费者使用的地方。例如,Kafka 可以定期读取数据库表并将更改存储在“主题”中,定期从 Web 服务读取,然后将这些数据存储到另一个主题中。这些主题现在可供消费者使用,开发人员现在可以创建一个从第一个主题读取数据并对数据进行处理的应用程序,Kafka 可以通过使用偏移量并提供复制和其他选项来跟踪消费者读取的内容。它消除了编写集成多个源和目标的自定义代码的需要,而是您可以配置这部分。

    StreamSet 可以读取和写入 Kafka。 StreamSets 不会将数据存储在自己的系统中,而 Kafka 将数据存储在可配置的时间段内。

    3) SSIS 类似于 StreamSets,因为它用于创建由多个任务组成的管道/包,每个任务都可以从以前的任务中获取数据/结果,然后对其进行处理。 StreamSet 和 SSIS 都可以连接到多种数据源和目标。

    我个人对 StreamSets 和 SSIS 不同的看法是:

    • StreamSets 是基于 Web 的,而 SSIS 需要 Visual Studio,StreamSets GUI 更易于使用,并且不需要为每个开发人员安装特殊软件。
    • 使用源代码控制将 StreamSets 管道部署到生产环境比 SSIS 包更容易。
    • SSIS 是 Microsoft 产品,因此它与其他 Microsoft 产品集成得非常好。 StreamSets 可以安装在任何适合 AWS 云的平台上。
    • 如果您想编写 SSIS 脚本任务,您必须使用 C#/DotNet。 StreamSets 脚本任务可以用 Jython 和 JavaScript 编写
    • SSIS 较旧,并且有大量在线文档。

    【讨论】:

      【解决方案3】:

      感谢大家,我认为必须分享一些关于如何看待 kafka 和 streamset 之间规范的想法,如果我们在同一个集群中同时使用这两者,那么我们如何区分。

      “因为我们使用的是 Kafka 的可靠性和 Streamset 的简单性”

      1. Streamset 消除了生产者和消费者的编码开销
      2. Streamset 用于 1 个源 1 个目标
      3. Kafka 将数据从多个来源获取到多个目的地(发布-订阅方法)
      4. Streamset 解决数据漂移问题

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2023-01-03
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-04-11
        • 2020-03-29
        • 2017-02-08
        • 2018-03-06
        相关资源
        最近更新 更多