数据采集
- Nutch
- Scrapy
ETL工具
- Sqoop
- Kettle
数据存储类工具
- Hadoop分布式存储和计算
- Hive
- ZooKeeper
- HBase
- Redis
- kafka
- Neo4j :Neo4j是一个高性能的,NoSQL图形数据库,具有处理百万和T级节点和边的大尺度处理网络分析能力
- Cassandra:Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable,其主要功能比Dynamo(分布式的Key-Value存储系统)更丰富。
分析计算类
- Spark
- Storm
- Mahout
- Pentaho
查询应用类工具
- Avro和Protobuf
- Phoenix
- Kylin
- Zeppelin
- ES
- Solr
数据管理类工具
- Azkaban
- Mesos
- Sentry
运维监控类工具
- flume