【问题标题】:MongoDB Ingest ETL Design OptionsMongoDB 摄取 ETL 设计选项
【发布时间】:2015-01-17 04:26:54
【问题描述】:

对于 MongoDB,我完全是个新手,但我之前确实有使用过诸如 HbaseAccumulo 等 nosql 存储的经验。当我使用这些其他 nosql 平台时,我最终编写了自己的数据摄取框架(通常在 java 中)执行类似 ETL 的功能,以及内联丰富。

我还没有找到与 Mongo 具有类似功能的工具,但也许我错过了它。

迄今为止,我有一个Logstash 实例,并从多个来源收集日志并将它们作为JSON 保存到磁盘。我知道 Logstash 有一个 mongodb output plugin,但它没有任何选项来配置记录的索引方式(即聚合文档等)。

根据我的需要,我想为通过 Logstash 到达的每个事件创建多个聚合文档——这需要一些预处理和特定的 Mongo 插入。

底线——在我开始构建摄取工具(可能在 python 或节点中)之前——是否已经存在一些东西?

【问题讨论】:

    标签: node.js mongodb pymongo etl logstash


    【解决方案1】:

    试试 node-datapumps,一个用于 nodejs 的 etl 工具。只需从 JSON 对象填充输入缓冲区,丰富 .process() 中的数据并使用mongo mixin 写入 mongodb。

    【讨论】:

      【解决方案2】:

      Pentaho ETL 对 Mongodb 功能有很好的支持。

      你可以看看http://community.pentaho.com/projects/data-integration/ http://wiki.pentaho.com/display/EAI/MongoDB+Output

      【讨论】:

        【解决方案3】:

        我刚刚找到了一款 ETL 工具 Talend Open Studio,它支持多种文件格式。我刚刚使用 Talend 在 MongoDB 上上传了多个 xml 文件。它还得到 Talend 论坛的支持,可以找到许多问答。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2018-03-06
          • 1970-01-01
          • 1970-01-01
          • 2018-06-03
          相关资源
          最近更新 更多