【问题标题】:Convert csv data to graph data将 csv 数据转换为图形数据
【发布时间】:2017-05-27 03:45:47
【问题描述】:

我正在试验 Apache Giraph。我需要为驻留在 HDFS 中的 csv 文件创建一个简单的图表,它显示了 2 列之间的关系。(与商店名称相关的受害者) 我的数据大小超过 1Gb csv 格式。最初尝试使用带有本地文件的 java 使用 neo4j。但它只能加载小数据,不能直接从 HDFS 导入数据。我的数据可能会增加。所以想到了使用 Apache Giraph。

但是如何达到同样的效果呢?

希望 apache giraph 只接受 Vertext 格式的输入。我的数据是 csv 格式的。所以有没有任何工具可以将我的 csv 转换为图形格式并将其作为输入提供给 Giraph 以进行图形计算。

【问题讨论】:

  • 你的问题是什么?我们为您进行所需的研究和设计?
  • 我应该将我的 csv 数据制作成图形格式并提供给 giraph 以供进一步计算吗?

标签: java apache hadoop graph giraph


【解决方案1】:

我也有同样的疑问,虽然很多回复似乎建议将图形重写为 Giraph 之外的标准格式,但这不是必需的。

你应该看看标准类的实现:

https://apache.googlesource.com/giraph/+/refs/heads/trunk/giraph-core/src/main/java/org/apache/giraph/io/formats/IntNullTextEdgeInputFormat.java

这会读取一个 TSV 文件(这是类名的“Text”部分),其中包含以下形式的整数顶点 ID 对(这是“Int”部分):

1   2
2   4
3   2
4   1
...

不考虑边元数据,只考虑一对顶点(这是“Null”部分)。

通过更改SEPARATOR,可以轻松地将这个示例适应CSV,或者通过将IntWritable 转换为Text 来考虑字符串ID(对于其他类型也是如此)。

稍后会选择输入格式作为您传递给框架的属性(给出您希望用来解析输入数据的类的完全限定名称)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-09-22
    • 2021-11-15
    • 1970-01-01
    • 1970-01-01
    • 2017-11-26
    • 2015-01-22
    • 1970-01-01
    • 2023-03-03
    相关资源
    最近更新 更多