【发布时间】:2015-11-27 01:28:32
【问题描述】:
通过消息队列流式传输 PDF 文件的好方法是什么?
在 KAFKA 中这样做是个好主意吗?
这是我的想法:
- 从文件放置位置提取 PDF 文件。
- 通过 Kafka 流式传输文件。
- 解析文件以进行一些低级信息检索和清理。这可能会在 Storm 拓扑或 Spark 中完成。也许是一些自定义 Map Reduce 代码。
- 最后,我想在这些文档上运行一些机器学习算法。
请注意,上述步骤只是可能性。如果您有更好的实现,请提出建议。
【问题讨论】:
-
您的问题相当广泛...您应该提供更多详细信息。您希望每分钟处理多少个文件?为什么在两者之间需要 Kafka? Storm 可以直接访问该文件。你想应用什么样的机器学习?这与流处理有什么关系?您打算使用 Mahout 或 SAMOA 之类的库吗?
-
Kafka-Storm 只是我必须使用的堆栈的一部分,所以我更喜欢使用 Kafka。我很确定我现在每分钟不会处理太多文件,但是将来可能会发生变化。您对 Storm 能够自行获取文件提出了一个很好的观点。例如通过自定义 Spout,对吗?我正在尝试构建一个 RandomForest 分类器来标记和索引一些报告。你会推荐 Mahout 吗?基本上,现在我有一些 Python 机器学习代码,但我认为如果需要我可以在 Java 中复制它们。
-
我不是机器学习专家;因此,我不能推荐任何图书馆。 Mahout 可用于 Spark(很快 Flink),而 SAMOA 可用于 Storm(很快 Flink)。 SAMOA 专为流式机器学习量身定制。 (顺便说一句:我需要和免责声明;我是 Flink 的提交者)。我只是想知道如果您没有太多数据,您是否需要拥有一个大数据系统。您预计未来的数据速率是多少?你真的需要能够横向扩展吗?关于使用 Kafka:如果没有理由使用它,我会避免使用它——它使整个项目更简单。
标签: pdf apache-kafka apache-storm