【问题标题】:Implementing ETL in PHP with automation通过自动化在 PHP 中实现 ETL
【发布时间】:2020-06-09 08:46:02
【问题描述】:

我有一个要求,我必须从几个不同格式的文件中获取数据,并且完全无组织并且具有随机命名的字段。将这些数据转换为一种格式并存储在数据库中表的相应字段中。所以我知道 ETL 的概念,但我不知道我应该使用什么逻辑,因为这对我来说是全新的东西,以前从未做过这样的事情。 谁能指导我如何将随机数据和原始数据与数据库表字段进行比较?

例如:文件 1 有 3 列:客户名称 |号码 |电子邮件

文件 2 具有相同的字段,但名称不同,例如:客户名称 |不。 |电子邮件ID

所以我只需要知道有哪些方法可以完成这项工作,或者是否有比 ETL 更好的选择来满足此要求。

提前致谢。

【问题讨论】:

    标签: php automation etl


    【解决方案1】:

    作为数据清理的一部分,有多种方法可以做到这一点。

    1. 如果您没有很多源表,您可以尝试使用手动映射表。源 (n) -> 目标 (1),然后是一些额外的魔法来加载数据。
    2. 如果您有更多源表,您可以尝试猜测(编辑名称距离)正确的目标表名称。可能需要对包含的数据进行额外检查。
    3. 您也可以只检查包含的数据
      • @ 包括 -> 电子邮件
      • 通常是 2 个单词,其中 1 是姓氏 -> 客户名称
      • 只有数字,没有点 -> 客户编号

    【讨论】:

      猜你喜欢
      • 2013-01-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-08
      • 2019-05-29
      • 2016-10-06
      相关资源
      最近更新 更多