【问题标题】:Talend iterate on tTikaExtractorTalend 在 tTikaExtractor 上迭代
【发布时间】:2015-05-22 12:43:11
【问题描述】:

我正在尝试使用 tTikaExtractor 组件来提取文件夹中多个文件的内容。

它正在处理单个文件,但是当我添加一个 tFileList 组件时,我不明白如何获取两个不同文件的内容。

我认为这与流程/迭代有关,但我无法使其发挥作用。

例如,我有一个简单的工作:

tFileList -(iterate)-> tTikaExtractor -(onComponentOk)-> tJava -(row1)-> tFileOutputJSON

在我的 java 组件中,我只有这个:

String content = (String) globalMap.get("tTikaExtractor_1_CONTENT");
row1.content=content;

但在我的 json 输出中,我只有最后一个文件的内容,而不是所有文件的内容!

你能帮我解决这个问题吗?

【问题讨论】:

    标签: java row talend apache-tika filelist


    【解决方案1】:

    因为您没有将记录附加到输出,所以它正在逐一写入记录,因此最终只有最后一条记录在文件中可用。

    也许您可以先将所有行写入分隔文件,然后使用 tFileInputDelimited--main--tFileOutputJSON

    传输所有行。

    【讨论】:

    • 你的意思是 tFileOutputDelimited 吗?
    • 是的,将记录附加到 tFileOutputDelimited 然后使用此组件进行输入并将所有记录传输到 tFileOutputJSON
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多