【问题标题】:Spark graphX: how to load big data to create a graphSpark graphX:如何加载大数据来创建图
【发布时间】:2016-04-27 00:59:55
【问题描述】:

我看到很多使用数组首先创建顶点然后将其并行化以使其成为 RDD 的示例,但是如果我有大量数据,那么我将如何处理它?我不认为我可以创建一个包含 100 万行顶点的数组。

还有另一个帖子Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?,也建议使用数组,如果我错了,请纠正我,但我认为它不会起作用。

提前致谢。

【问题讨论】:

    标签: apache-spark spark-graphx


    【解决方案1】:

    如果你在一个文件中数据,那么你可以直接在它上面创建rdd:

    val rdd : RDD[String] = sparkContext.textFile("/path/to/file")
    

    然后将其转换为 VertexRDD 或 EdgeRDD。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-11-26
      • 2018-09-28
      • 1970-01-01
      • 2015-09-20
      • 2022-06-10
      相关资源
      最近更新 更多