BananaNo1

数据采集

  1. Nutch
  2. Scrapy

ETL工具

  1. Sqoop
  2. Kettle

数据存储类工具

  1. Hadoop分布式存储和计算
  2. Hive
  3. ZooKeeper
  4. HBase
  5. Redis
  6. kafka
  7. Neo4j :Neo4j是一个高性能的,NoSQL图形数据库,具有处理百万和T级节点和边的大尺度处理网络分析能力
  8. Cassandra:Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable,其主要功能比Dynamo(分布式的Key-Value存储系统)更丰富。

分析计算类

  1. Spark
  2. Storm
  3. Mahout
  4. Pentaho

查询应用类工具

  1. Avro和Protobuf
  2. Phoenix
  3. Kylin
  4. Zeppelin
  5. ES
  6. Solr

数据管理类工具

  1. Azkaban
  2. Mesos
  3. Sentry

运维监控类工具

  1. flume

分类:

技术点:

相关文章: