每月 3000 万行 CSV，需要根据单独文件的查找在每行添加字段答案

【问题标题】：30 million row monthly CSV that requires fields added on each line based on a lookup from a separate file每月 3000 万行 CSV，需要根据单独文件的查找在每行添加字段
【发布时间】：2018-09-21 12:27:11
【问题描述】：

我有一个每月创建的 3000 万行 CSV，我正在尝试添加 2 个基于单独文件中的查找填充的字段，并让它在无人值守的情况下运行。我现在正在尝试选择这项技术——我宁愿使用可以从命令行（Windows）运行的脚本语言，理想情况下是免费的，但可以接受建议。 SQL 数据库并不是一个真正的选择。

【问题讨论】：

对于这么大的文件，你可以考虑支持多线程的东西。
这里有一个很好的工具列表可能适用：Structured Text Tools。一个数字将对 CSV 文件进行连接。从描述中不清楚是否针对 CSV 文件进行连接可以解决问题，但可能值得一看。
谢谢 - 我要试试 POSIX join 和 awk

标签： windows csv etl scripting-language

【解决方案1】：

看看 Pentaho 数据集成。它是基于 Java 的，多线程的，可以处理每秒 100k+ 行的大型 CSV 文件。

您可以在 linux 或 windows 的命令行中调用它，并且可以对作业和转换进行参数化，以获取文件路径、数据库连接等命令行参数。

企业版有付费版，也有免费的开源社区版。

请参阅 community.pentaho.com。

当心：陡峭的学习曲线。如果您需要额外的指针，请大声喊叫。

【讨论】：