【问题标题】:How to pass document uri & database name to marklogic spark connector?如何将文档 uri 和数据库名称传递给 marklogic spark 连接器?
【发布时间】:2016-04-18 18:41:54
【问题描述】:

我正在尝试这个 marklogic spark 连接器教程。 https://developer.marklogic.com/blog/marklogic-spark-example 我能够执行此操作。我发现,它默认选择文档数据库。

问题是:

给定的代码如下所示:

JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD( hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class );

我想知道如何通过特定的文档 URI 和数据库来获取数据库中的特定文档。 例如; 带有在导入 csv 文件时创建的 xml 文件的文档数据库。下面提到:Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? 有人可以分享一个关于如何将文档 URI 和数据库名称作为参数传递的示例代码吗?

【问题讨论】:

    标签: java apache-spark marklogic connector bigdata


    【解决方案1】:

    如果您参考 MarkLogic Connector for Hadoop 的文档,特别是 Input Configuration Properties - 您将找到属性 mapreduce.marklogic.input.documentselector,它采用 XQuery 路径表达式,允许您从数据库中选择特定文档。

    【讨论】:

      【解决方案2】:

      该示例使用 Hadoop 连接器。

      使用 MarkLogic 8,我相信你可以在作业配置中这样设置数据库:com.marklogic.output.databasename。

      http://docs.marklogic.com/guide/mapreduce/quickstart#id_38329

      【讨论】:

      • 感谢您的及时回复。我确实看到它正在使用 hadoop 连接器。我试过了。但我想要实现的是,只需从特定数据库中读取特定文档。当我加载一个包含 1000 条记录的 dummy.csv 文件时,它在文档数据库中创建了 100 个 xml 文件以及我的其他示例 xml 文件。我只是想从 dcoument 数据库中读取特定的 dummy.csv xml 文件。当前代码默认从文档数据库中检索所有文档。试图查看在哪里修改我的代码。非常感谢您对此提供的帮助。
      猜你喜欢
      • 1970-01-01
      • 2012-03-01
      • 1970-01-01
      • 2021-01-01
      • 1970-01-01
      • 2021-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多