【发布时间】:2018-05-28 14:39:15
【问题描述】:
问题简述:
- 有大量 JSON 格式的输入数据。就像现在它大约 1 Tb,但它会增长。有人告诉我,我们将拥有一个集群。
- 我需要处理这些数据,用它制作图表并将其存储在数据库中。所以每次我得到一个新的 JSON 时,我都必须遍历数据库中的整个图来完成它。
- 稍后我将在浏览器中创建一个瘦客户端,我将在其中可视化图形的某些部分,在其中搜索,遍历它,进行一些过滤等。所以这个系统的负载不高,只是大量的处理和数据。
我在分布式系统、NoSQL 数据库和其他类似“大数据”的东西方面没有经验。在我的小研究中,我发现它们太多了,现在我迷路了。
我现在的白板上有什么:
- Apache Spark 的 GraphX (GraphFrames) 用于在某些存储(HDFS、Cassanda、HBase 等)和处理器(Yarn、Mesos、Kubernetes 等)之上进行分布式计算。
- 一些图形数据库。我认为在 Neo4j 中使用 Cipher 或在 JanusGraph/TitanDB 中使用 Gremlin 之类的图形查询语言很好。 Neo4j 很好,但它只在 EE 中具有集群功能,我需要一些开源的东西。所以现在我考虑的是后者,默认情况下有 Gremlin + Cassandra + Elasticsearch。
- 也许我不需要这些,只需将图形作为邻接矩阵存储在 Postgres 等一些 RDBMS 中即可。
- 不知道我在 2 或 3 中是否需要 Spark。我需要它吗?
我的主管让我去看看 Elasticsearch。但我想我只能将它用作额外的全文搜索引擎。
感谢您的回复!
【问题讨论】:
标签: database apache-spark graph neo4j distributed-computing