【问题标题】:Tools to preprocess a big data for dashboards? [closed]为仪表板预处理大数据的工具? [关闭]
【发布时间】:2015-03-24 17:41:52
【问题描述】:

我有一个复杂的数据集,其中包含来自制药行业的超过 1600 万行。关于数据,保存在一个有400多个关系表的sql server中。

数据有多个层次,如省、市、邮政编码、人员和抗原测量等。

我想创建许多仪表板来观察正在发生的变化和趋势。为此,我可以使用 Pentaho、R(闪亮)或 Tableau。但问题是数据如此庞大,使用仪表板软件处理它需要很长时间。我可以选择制作立方体并将其连接到仪表板。

我的问题是我是否可以使用其他解决方案来代替制作立方体?我不想经历制作和维护立方体的麻烦。

我想使用一个软件来指定表之间的关系,以便聚合/合并顺利进行,并输出可以连接到仪表板的已处理表。我听说 Alteryx 是一款可以为您做到这一点的软件(我自己没试过,而且很贵!)。

我了解此任务需要两个或更多软件/工具。请分享您的意见和经验。请提及您使用哪些工具、数据大小、整个系统的速度/效率以及其他必要细节。

【问题讨论】:

    标签: open-source bigdata


    【解决方案1】:

    这在很大程度上取决于您的数据集有多大(不仅仅是行数)以及您的 SQL 服务器有多快。

    我已将 >20m 行(大小 >4GB)的数据集直接加载到 Tableau 中(尽管这是在 64 位 Windows 计算机或 RAM >8GB 的​​ Mac 上)。他们运作良好。

    如果数据量很大(这意味着可能有 10 GB 的磁盘空间),那么您最好将 Tableau 直接连接到 SQL Server 并让服务器完成繁重的工作。这也很好用。我在(快速而强大的)SQL 服务器上有十亿行数据集,如果 SQL 服务器针对快速分析而不是事务处理进行了优化,这也能以合理的速度运行。

    如果您的本地服务器能力或容量有限,那么我还建议将您的数据放在 Google 的 BigQuery(或 Amazon 的 Redshift)之类的东西上,因为它们的设置成本低得离谱,并且提供了惊人的分析能力。 Tableau 具有适用于两者的连接器,因此即使使用怪物数据集,您也可以经常实现交互速度。我有一个包含 500m 行和大约 100GB 数据的测试数据集,即使我直接从 Tableau 驱动它们,我也会在 15-30 秒内获得大多数查询的典型查询响应。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-11-11
      • 2018-12-16
      • 1970-01-01
      • 2011-06-14
      • 1970-01-01
      • 2018-01-29
      • 2010-09-20
      • 1970-01-01
      相关资源
      最近更新 更多