【发布时间】:2018-10-05 02:23:17
【问题描述】:
我们在 Hadoop 文件系统中创建了一个新的数据湖。数据以 ORC 的形式存储。目前分析系统直接连接到数据湖来读取这些ORC文件。
有没有办法在数据湖和分析系统之间创建一个中间层来提供数据?
【问题讨论】:
标签: hadoop bigdata analytical
我们在 Hadoop 文件系统中创建了一个新的数据湖。数据以 ORC 的形式存储。目前分析系统直接连接到数据湖来读取这些ORC文件。
有没有办法在数据湖和分析系统之间创建一个中间层来提供数据?
【问题讨论】:
标签: hadoop bigdata analytical
您的分析软件是什么? 是否可以使用 API 或 RESTful Web 服务来访问数据湖? 请再澄清一点。
【讨论】:
这个问题非常笼统,但构建数据湖的一种常见且简单的方法是使用 Presto (https://prestodb.io)。
Presto 可以读取多种格式,还可以连接到不同的数据源,如 mysql 数据库等,将数据呈现为表格。
客户端也可以通过 jdbc/odbc 使用 SQL,因此甚至可以通过 excel 等工具或其他分析工具(微策略、表格等)访问数据湖。
【讨论】: