【发布时间】:2015-06-23 04:03:19
【问题描述】:
我是一名经验丰富的 LAMP 开发人员,在 php、nginx、haproxy、redis、mongodb 和 aws 服务方面拥有丰富的经验。每当遇到大数据需求时,我都会使用 aws Web 服务,最近开始阅读有关大数据的文章,希望自己使用该技术,而不是使用托管服务进行大数据处理、流处理等。
但是,这与学习 LAMP 不同,而且由于用例的性质,很难为新手找到好的资源。特别适合那些没有接触过 Java 生态系统的人。 (据我了解,Java 软件几乎涵盖了流行的大数据堆栈)。当谈到大数据时,下面的软件列表几乎无处不在,但很难掌握每个软件的概念,每个项目主页上的描述都非常模糊。
例如“Cassandra”,表面上它是存储时间序列数据的好数据库,但当阅读更多关于分析的信息时,就会出现其他堆栈,hadoop、pig、zookeeper 等。
- 卡桑德拉
- Flink
- 水槽
- Hadoop
- Hbase
- 蜂巢
- 卡夫卡
- 火花
- 动物园管理员
简而言之,这些软件的作用是什么?在大数据的背景下,其中一些项目具有相同的方面,那么它们为什么共存呢?有什么好处?什么时候用什么?
【问题讨论】:
-
在stackoverflow中要求书籍或离线资源被认为是题外话
标签: java hadoop cassandra apache-spark bigdata