【问题标题】:Boost GraphML format提升 GraphML 格式
【发布时间】:2018-04-09 19:20:14
【问题描述】:

谁能解释 Boost 使用的 GraphML 格式?它包括其他 GraphML 编写者不使用的间接级别。我已经包含了来自 2 个来源的 GraphML 输出,它们都来自相同的输入数据。我不明白为什么 Boost 似乎使用带有 'key[0-N]' 关键字的额外间接级别。非常感谢任何有说服力的解释。

我正在寻找一种方法来配置 Boost 以产生与 Java/Tinkerpop 产生的输出相似或相同的输出,如下面的第一个示例所示。我想消除 'key[0-N]' 间接。

首先,这是使用 TinkerPop 图形库的 Java 程序产生的输出:

    <graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.1/graphml.xsd">
        <key id="UnitName" for="node" attr.name="UnitName" attr.type="string" />
        <key id="id" for="node" attr.name="id" attr.type="int" />
        <key id="labelV" for="node" attr.name="labelV" attr.type="string" />
        <key id="EdgeName" for="edge" attr.name="EdgeName" attr.type="string" />
        <key id="labelE" for="edge" attr.name="labelE" attr.type="string" />
        <key id="length" for="edge" attr.name="length" attr.type="long" />
        <key id="sourceport" for="edge" attr.name="sourceport" attr.type="string" />
        <key id="targetport" for="edge" attr.name="targetport" attr.type="string" />
        <graph id="G" edgedefault="directed">
            <node id="n0">
                <data key="labelV">vertex</data>
                <data key="UnitName">Div:101</data>
                <data key="id">101</data>
            </node>
            <node id="n1">
                <data key="labelV">vertex</data>
                <data key="UnitName">Blow:1</data>
                <data key="id">1</data>
            </node>
            <node id="n2">
                <data key="labelV">vertex</data>
                <data key="UnitName">Div:201</data>
                <data key="id">201</data>
            </node>
            <node id="n3">
                <data key="labelV">vertex</data>
                <data key="UnitName">Blow:2</data>
                <data key="id">2</data>
            </node>
            <node id="n4">
                <data key="labelV">vertex</data>
                <data key="UnitName">Sta:10 Sta10</data>
                <data key="id">10</data>
            </node>
            <node id="n5">
                <data key="labelV">vertex</data>
                <data key="UnitName">Sta:11 Sta11</data>
                <data key="id">11</data>
            </node>
            <node id="n6">
                <data key="labelV">vertex</data>
                <data key="UnitName">IZ:1002</data>
                <data key="id">1002</data>
            </node>
            <node id="n7">
                <data key="labelV">vertex</data>
                <data key="UnitName">Sta:20</data>
                <data key="id">20</data>
            </node>
            <node id="n8">
                <data key="labelV">vertex</data>
                <data key="UnitName">Sta:21</data>
                <data key="id">21</data>
            </node>
            <edge id="e0" source="n0" target="n4">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:101 to Sta:10 Sta10</data>
                <data key="length">80</data>
                <data key="sourceport">0</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e1" source="n0" target="n5">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:101 to Sta:11 Sta11</data>
                <data key="length">80</data>
                <data key="sourceport">1</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e2" source="n0" target="n6">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:101 to IZ:1002</data>
                <data key="length">20</data>
                <data key="sourceport">3</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e3" source="n1" target="n0">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Blow:1 to Div:101</data>
                <data key="length">0</data>
                <data key="sourceport"></data>
                <data key="targetport"></data>
            </edge>
            <edge id="e4" source="n2" target="n7">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:201 to Sta:20</data>
                <data key="length">80</data>
                <data key="sourceport">0</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e5" source="n2" target="n8">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:201 to Sta:21</data>
                <data key="length">80</data>
                <data key="sourceport">1</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e6" source="n2" target="n6">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Div:201 to IZ:1002</data>
                <data key="length">20</data>
                <data key="sourceport">3</data>
                <data key="targetport"></data>
            </edge>
            <edge id="e7" source="n3" target="n2">
                <data key="labelE">edge</data>
                <data key="EdgeName">Edge from Blow:2 to Div:201</data>
                <data key="length">0</data>
                <data key="sourceport"></data>
                <data key="targetport"></data>
            </edge>
        </graph>
    </graphml>

这是当我使用 Boost Graph Library 中的 C++ write_graphml() 函数时出现的相同数据:

    <?xml version="1.0" encoding="UTF-8"?>
    <graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">
      <key id="key0" for="edge" attr.name="EdgeName" attr.type="string" />
      <key id="key1" for="node" attr.name="UnitName" attr.type="string" />
      <key id="key2" for="node" attr.name="id" attr.type="int" />
      <key id="key3" for="edge" attr.name="length" attr.type="long" />
      <key id="key4" for="edge" attr.name="sourceport" attr.type="string" />
      <key id="key5" for="edge" attr.name="targetport" attr.type="string" />
      <graph id="G" edgedefault="directed" parse.nodeids="free" parse.edgeids="canonical" parse.order="nodesfirst">
        <node id="n0">
          <data key="key1">Div:101</data>
          <data key="key2">101</data>
        </node>
        <node id="n1">
          <data key="key1">Blow:1</data>
          <data key="key2">1</data>
        </node>
        <node id="n2">
          <data key="key1">Sta:20</data>
          <data key="key2">20</data>
        </node>
        <node id="n3">
          <data key="key1">Div:201</data>
          <data key="key2">201</data>
        </node>
        <node id="n4">
          <data key="key1">Sta:21</data>
          <data key="key2">21</data>
        </node>
        <node id="n5">
          <data key="key1">Zn:1====Zn:2:1002</data>
          <data key="key2">1002</data>
        </node>
        <node id="n6">
          <data key="key1">Sta:10 Sta10</data>
          <data key="key2">10</data>
        </node>
        <node id="n7">
          <data key="key1">Sta:11 Sta11</data>
          <data key="key2">11</data>
        </node>
        <node id="n8">
          <data key="key1">Blow:2</data>
          <data key="key2">2</data>
        </node>
        <edge id="e0" source="n0" target="n6">
          <data key="key0">Edge from Div:101 to Sta:10 Sta10</data>
          <data key="key3">80</data>
          <data key="key4">0</data>
          <data key="key5"></data>
        </edge>
        <edge id="e1" source="n0" target="n7">
          <data key="key0">Edge from Div:101 to Sta:11 Sta11</data>
          <data key="key3">80</data>
          <data key="key4">1</data>
          <data key="key5"></data>
        </edge>
        <edge id="e2" source="n0" target="n5">
          <data key="key0">Edge from Div:101 to Zn:1====Zn:2:1002</data>
          <data key="key3">20</data>
          <data key="key4">3</data>
          <data key="key5"></data>
        </edge>
        <edge id="e3" source="n1" target="n0">
          <data key="key0">Edge from Blow:1 to Div:101</data>
          <data key="key3">0</data>
          <data key="key4"></data>
          <data key="key5"></data>
        </edge>
        <edge id="e4" source="n3" target="n2">
          <data key="key0">Edge from Div:201 to Sta:20</data>
          <data key="key3">80</data>
          <data key="key4">0</data>
          <data key="key5"></data>
        </edge>
        <edge id="e5" source="n3" target="n4">
          <data key="key0">Edge from Div:201 to Sta:21</data>
          <data key="key3">80</data>
          <data key="key4">1</data>
          <data key="key5"></data>
        </edge>
        <edge id="e6" source="n3" target="n5">
          <data key="key0">Edge from Div:201 to Zn:1====Zn:2:1002</data>
          <data key="key3">20</data>
          <data key="key4">3</data>
          <data key="key5"></data>
        </edge>
        <edge id="e7" source="n8" target="n3">
          <data key="key0">Edge from Blow:2 to Div:201</data>
          <data key="key3">0</data>
          <data key="key4"></data>
          <data key="key5"></data>
        </edge>
      </graph>
    </graphml>

两个应用程序之间存在冲突。 Boost 应用程序最初会导出 GraphML。另一个应用程序使用 JanusGraph/Gremlin/Tinkerpop 加载 GraphML 作为输入并创建图形。即使 GraphML 在语法上是正确的,JanusGraph/Tinkerpop 在读取 GraphML 时也会抛出异常:

java.lang.IllegalArgumentException: Name cannot be in protected namespace: edge
       at org.janusgraph.graphdb.types.system.SystemTypeManager.isNotSystemName(SystemTypeManager.java:72)
       at org.janusgraph.graphdb.types.StandardRelationTypeMaker.name(StandardRelationTypeMaker.java:188)
       at org.janusgraph.graphdb.types.StandardRelationTypeMaker.<init>(StandardRelationTypeMaker.java:57)
       at org.janusgraph.graphdb.types.StandardEdgeLabelMaker.<init>(StandardEdgeLabelMaker.java:42)
       at org.janusgraph.graphdb.transaction.StandardJanusGraphTx.makeEdgeLabel(StandardJanusGraphTx.java:980)
       at org.janusgraph.graphdb.transaction.StandardJanusGraphTx.getOrCreateEdgeLabel(StandardJanusGraphTx.java:965)
       at org.janusgraph.graphdb.vertices.AbstractVertex.addEdge(AbstractVertex.java:163)
       at org.janusgraph.graphdb.vertices.AbstractVertex.addEdge(AbstractVertex.java:37)
       at org.apache.tinkerpop.gremlin.structure.io.graphml.GraphMLReader.readGraph(GraphMLReader.java:191)

我发现我可以通过编辑 GraphML 并在 key0 上进行全局搜索/替换并将其替换为 labelE 来解决此问题。我不完全确定为什么会这样,显然我试图避免这一步,所以我们的第一个想法是让 Boost 将该字段导出为“labelE”而不是“key0”。

在相关说明中,如果我使用内存中的 Tinkergraph,Tinkerpop 可以很好地加载原始 GraphML。仅当我使用 JanusGraph 作为基础数据库时才会发生异常。

【问题讨论】:

  • 你失去兴趣了吗?

标签: c++ boost tinkerpop


【解决方案1】:

我正在寻找一种方法来配置 Boost 以产生与 Java/Tinkerpop 产生的输出相似或相同的输出,如下面的第一个示例所示。我想消除 'key[0-N]' 间接。

你把自己弄糊涂了。 TinkerPop 输出具有完全相同的间接级别。唯一的区别是 TinkerPop 决定它知道节点和边缘数据键的 id是相同的

读取 XML 的工具没有任何区别。

事实上,甚至以下内容也是等价的:

<graphml>
    <key id="UnitName" for="node" attr.name="UnitName" attr.type="string" />
    <key id="labelV" for="node" attr.name="labelV" attr.type="string" />
    <graph id="G" edgedefault="directed">
        <node id="n0">
            <data key="labelV">vertex</data>
            <data key="UnitName">Div:101</data>
        </node>
        <node id="n1">
            <data key="labelV">vertex</data>
            <data key="UnitName">Blow:1</data>
        </node>
    </graph>
</graphml>

没有区别:

<graphml>
    <key id="labelV" for="node" attr.name="UnitName" attr.type="string" />
    <key id="UnitName" for="node" attr.name="labelV" attr.type="string" />
    <graph id="G" edgedefault="directed">
        <node id="n0">
            <data key="UnitName">vertex</data>
            <data key="labelV">Div:101</data>
        </node>
        <node id="n1">
            <data key="UnitName">vertex</data>
            <data key="labelV">Blow:1</data>
        </node>
    </graph>
</graphml>

是的,人类阅读该 XML 会感到困惑,但人类不会阅读该 XML。

您真的必须问自己,为什么这些被指定为无关紧要的细节对您很重要。很可能,情况并非如此。

当然,如果读取 XML 的工具是在错误的假设下编程的(也就是“有错误”),您可能会遇到困难。我建议先解决这个问题。

否则,您可以尝试破解 GraphML 编写器,使其不使用自动生成的密钥 ID。这不会太难,但确实会带来麻烦(例如,当边缘/节点属性之间存在名称类时)。

【讨论】:

  • 事实上我已经用往返修补了 [sic],我发现的唯一区别是实际数据差异(提升不写 labelVlabelE 属性,和其他节点名称,例如Zn:1====Zn:2:1002。请自行查看:coliru.stacked-crooked.com/a/c901bd8e15784c8b
猜你喜欢
  • 2021-05-16
  • 2012-11-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-10-23
相关资源
最近更新 更多