【问题标题】:30 million row monthly CSV that requires fields added on each line based on a lookup from a separate file每月 3000 万行 CSV,需要根据单独文件的查找在每行添加字段
【发布时间】:2018-09-21 12:27:11
【问题描述】:

我有一个每月创建的 3000 万行 CSV,我正在尝试添加 2 个基于单独文件中的查找填充的字段,并让它在无人值守的情况下运行。我现在正在尝试选择这项技术——我宁愿使用可以从命令行(Windows)运行的脚本语言,理想情况下是免费的,但可以接受建议。 SQL 数据库并不是一个真正的选择。

【问题讨论】:

  • 对于这么大的文件,你可以考虑支持多线程的东西。
  • 这里有一个很好的工具列表可能适用:Structured Text Tools。一个数字将对 CSV 文件进行连接。从描述中不清楚是否针对 CSV 文件进行连接可以解决问题,但可能值得一看。
  • 谢谢 - 我要试试 POSIX join 和 awk

标签: windows csv etl scripting-language


【解决方案1】:

看看 Pentaho 数据集成。它是基于 Java 的,多线程的,可以处理每秒 100k+ 行的大型 CSV 文件。

您可以在 linux 或 windows 的命令行中调用它,并且可以对作业和转换进行参数化,以获取文件路径、数据库连接等命令行参数。

企业版有付费版,也有免费的开源社区版。

请参阅 community.pentaho.com。

当心:陡峭的学习曲线。如果您需要额外的指针,请大声喊叫。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-09-14
    • 2020-05-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多