【问题标题】:How to use pure SQL for Exploratory Data Analysis?如何使用纯 SQL 进行探索性数据分析?
【发布时间】:2012-10-01 21:10:25
【问题描述】:

我是一名 ETL 开发人员,使用不同的工具来完成 ETL 任务。在我们所有的项目中都会出现同样的问题:在构建数据仓库之前以及在构建 ETL 以进行数据移动之前,数据分析的重要性。通常我使用纯 SQL 进行数据分析(即查找错误数据、数据异常、计数、不同值等),因为 ETL 工具没有为这些提供好的替代方案(我们的工具中有一些数据质量组件,但它们是没那么复杂)。一种选择是使用R programming languageSPSS Modeler 等工具来处理这种Exploratory Data Analysis。但是,如果有数百万行数据,这些工具通常不可用或不合格。

如何使用 SQL 进行这种分析?有没有可用的辅助脚本?在数据清洗和 ETL 之前如何进行这种探索性数据分析?

【问题讨论】:

    标签: sql ssis data-mining etl data-quality


    【解决方案1】:

    将数据加载到某个暂存系统并使用 SSIS 中的数据分析器任务。使用此链接http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/ 来验证如何进行数据分析。希望这会有所帮助。

    【讨论】:

      【解决方案2】:

      为此我找到了一个很好的工具:Datacleaner。这似乎完成了我想在 EDA 过程中处理数据的大部分事情。

      【讨论】:

        【解决方案3】:

        使用这个 Exploratory Data Analysis for SQL 可以帮助进行数据分析和分析

        https://pypi.org/project/edaSQL/

        源代码: https://github.com/selva221724/edaSQL

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2020-05-20
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多