【问题标题】:Kettle: load CSV file which contains multiple data tablesKettle:加载包含多个数据表的 CSV 文件
【发布时间】:2013-05-29 11:06:08
【问题描述】:

我正在尝试从包含多个数据表的 csv 文件导入数据。实际上,它并不是真正的纯 csv 文件。

它包含一个带有一些元数据的标题字段,然后实际的 csv 数据部分由以下分隔:

//-------------

Table <table_nr>;;;;

示例文件如下所示:

Summary;;
Reporting Date;29/05/2013;12:36:18
Report Name;xyz
Reporting Period From;20/05/2013;00:00:00
Reporting Period To;26/05/2013;23:59:59


//-------------

Table 1;;;;
header1;header2;header3;header4;header5
string_aw;0;0;0;0
string_ax;1;1;1;0
string_ay;1;2;0;1
string_az;0;0;0;0
TOTAL;2;3;1;1


//-------------

Table 2;;;
header1;header2;header3;header4
string_bv;2;2;2
string_bw;3;2;3
string_bx;1;1;1
string_by;1;1;1
string_bz;0;0;0

使用水壶处理加载此类数据的最佳方法是什么?

有没有办法将此文件拆分为标头和 csv 数据部分,然后将它们分别作为单独的输入进行处理?

提前感谢您的任何提示和提示。

最好, 哈斯。

【问题讨论】:

    标签: etl pentaho kettle


    【解决方案1】:

    我认为没有任何步骤可以真正帮助您处理这种格式的数据。在将数据导入 CSV 步骤之前,您可能需要进行一些预处理。但是,您仍然可以在您的工作中执行此操作,方法是调用 shell 并首先在那里执行命令,例如 awk 脚本将文件拆分为其组件文件,然后通过正常的 Kettle 模式加载这些文件。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-07-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-03-15
      • 1970-01-01
      相关资源
      最近更新 更多