如何将文档 uri 和数据库名称传递给 marklogic spark 连接器？答案

【问题标题】：How to pass document uri & database name to marklogic spark connector?如何将文档 uri 和数据库名称传递给 marklogic spark 连接器？
【发布时间】：2016-04-18 18:41:54
【问题描述】：

我正在尝试这个 marklogic spark 连接器教程。 https://developer.marklogic.com/blog/marklogic-spark-example 我能够执行此操作。我发现，它默认选择文档数据库。

问题是：

给定的代码如下所示：

JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD( hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class );

我想知道如何通过特定的文档 URI 和数据库来获取数据库中的特定文档。例如; 带有在导入 csv 文件时创建的 xml 文件的文档数据库。下面提到：Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? 有人可以分享一个关于如何将文档 URI 和数据库名称作为参数传递的示例代码吗？

【问题讨论】：

标签： java apache-spark marklogic connector bigdata

【解决方案1】：

如果您参考 MarkLogic Connector for Hadoop 的文档，特别是 Input Configuration Properties - 您将找到属性 mapreduce.marklogic.input.documentselector，它采用 XQuery 路径表达式，允许您从数据库中选择特定文档。

【讨论】：

【解决方案2】：

该示例使用 Hadoop 连接器。

使用 MarkLogic 8，我相信你可以在作业配置中这样设置数据库：com.marklogic.output.databasename。

http://docs.marklogic.com/guide/mapreduce/quickstart#id_38329

【讨论】：

感谢您的及时回复。我确实看到它正在使用 hadoop 连接器。我试过了。但我想要实现的是，只需从特定数据库中读取特定文档。当我加载一个包含 1000 条记录的 dummy.csv 文件时，它在文档数据库中创建了 100 个 xml 文件以及我的其他示例 xml 文件。我只是想从 dcoument 数据库中读取特定的 dummy.csv xml 文件。当前代码默认从文档数据库中检索所有文档。试图查看在哪里修改我的代码。非常感谢您对此提供的帮助。