当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。
为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考。本资源类型主要包括:大数据框架、论文等实用资源集合。
资源列表:
- 关系数据库管理系统(RDBMS)
- 框架
- 分布式编程
- 分布式文件系统
- 文件数据模型
- Key -Map 数据模型
- 键-值数据模型
- 图形数据模型
- NewSQL数据库
- 列式数据库
- 时间序列数据库
- 类SQL处理
- 数据摄取
- 服务编程
- 调度
- 机器学习
- 基准测试
- 安全性
- 系统部署
- 应用程序
- 搜索引擎与框架
- MySQL的分支和演化
- PostgreSQL的分支和演化
- Memcached的分支和演化
- 嵌入式数据库
- 商业智能
- 数据可视化
- 物联网和传感器
- 文章
- 论文
- 视频
关系数据库管理系统(RDBMS)
- SQLServer:世界最有活力的数据库;
- :世界最流行的开源数据库;
- :世界最先进的开源数据库;
- 关系型数据库管理系统。
框架
分布式编程
- 上开发的分布式数据处理和存储系统;
- ;
- 语言;
- 实现时比较单调的连接、数据聚合等任务;
- 的用户定义的函数集合;
- :具有高性能的执行时间和自动程序优化;
- :内存中的数据模型和持久性框架;
- (整体同步并行)计算框架;
- :在集群上使用并行、分布式算法处理大数据集的编程模型;
- 中,用于处理数据分析程序的高级查询语言;
- :用来简化和统一低层大数据系统的保留性评估执行框架;
- 中流处理与实现的框架;
- :内存集群计算框架;
- 的一部分;
- ;
- 的流处理框架;
- (有向无环图);
- 的抽象概念,用于减少开发分布式应用程序的复杂度;
- :数据处理和查询库;
- 之上的高性能、自定义数据仓库;
- 分析框架;
- 库;
- 范例;
- :为实时引擎,用于以尽可能畅通的方式、最小的开支和对性能最小的影响,实现分布式、异步、实时的内存大数据计算;
- 做优化处理,从而消除单点故障;
- 框架;
- :分布式内存数据存储;
- :创建数据管道,以帮助其分析框架;
- ;
- 获取、转换和分析数据;
- 框架;
- :用于处理结构化、半结构化和非结构化数据工作的声明性编程语言;
- 的生态系统上建立系统更加容易;
- 框架;
- :分布式云计算;
- :异步任务执行系统;
- ;
- :多租户分布式测度处理系统;
- :通用集群计算框架;
- :用于计算基于不同时间窗口的事件流的活动,并找到最活跃的一个;
- 所建;
- 库;
- ;
- 上的时间序列聚合器。
分布式文件系统
- :在多台机器上存储大型文件的方式;
- ,并行分布式文件系统;
- :设计的软件存储平台;
- :分布式文件系统;
- :对象存储系统;
- ;
- :分布式文件系统;
- :可扩展的、高度可用的存储;
- 内存的文件系统;
- :高性能分布式文件系统;
- :开源分布式文件系统;
- )文件系统;
- :简单的、高度可扩展的分布式文件系统;
- :以可靠的存储速率在跨集群框架上文件共享;
- :分布式云存储系统;
文件数据模型
- :商用的面向对象数据库管理系统;
- :是一个开源的大规模可扩展的数据存储,需要零管理模式;
- 数据库;
- 的面向文档的数据存储;
- 数据存储;
- 数据库技术;
- :面向文档的数据库系统;
- :一个事务性的,开源文档数据库;
- :支持连接查询和群组依据等查询的文档型数据库。
Key Map 数据模型
注意:业内存在一些术语混乱,有两个不同的东西都叫做“列式数据库”。这里列出的有一些是围绕“key-map”数据模型而建的分布式、持续型数据库,其中所有的数据都有(可能综合了)键,并与映射中的键-值对相关联。在一些系统中,多个这样的值映射可以与键相关联,并且这些映射被称为“列族”(具有映射值的键被称为“列”)。
另一组也可称为“列式数据库”的技术因其存储数据的方式而有别于前一组,它在磁盘上或在存储器中——而不是以传统方式,即所有既定键的键值都相邻着、逐行存储。这些系统也彼此相邻来存储所有列值,但是要得到给定列的所有值却不需要以前那么繁复的工作。
前一组在这里被称为“key map数据模型”,这两者和。
- 值存储;
- 授权,面向列的分布式数据存储;
- 授权,面向列的分布式数据存储;
- 的衍化品;
- :面向列的分布式数据存储;
- 上非关系型数据;
- 授权,面向列的分布式数据存储;
- 的接口访问,并使用大规模并行处理进行并行查询;
- 处理;
- 的实时、多租户分布式数据库。
键-值数据模型
- )中的服务器代码可精确地调整从而避免上下文切换和内存拷贝”。
- 论文的实现;
- 的协议兼容的服务器;
- 中数据导出的分布式数据库;
- :分布式时间序列数据库;
- :适用于存储在时间序列中的传感器数据;
- :简单的持久性数据存储,拥有低延迟和高吞吐量;
- 值存储系统;
- 公司开发的分布式键值数据库;
- :内存中的键值数据存储;
- :分散式数据存储;
- 开发的异步键值存储的库;
- 应用服务器;
- 提供技术支持的分布式键值数据库;
- 值存储,能提供多行原子写入。
图形数据模型
- 实现;
- 的一部分;
- :多层模型分布式数据库;
- 级的结构化数据的实时用户查询;
- 广泛用来存储和服务于社交图形的分布式数据存储;
- 是一个易于存储大规模图形的框架,其中节点和边缘都有统计数据;
- :开源图形数据库;
- :图形处理框架;
- 之上的高性能机器学习和数据挖掘工具包的集合;
- 中的弹性分布式图形系统;
- :图形追踪语言;
- 框架;
- 上构建大规模图形的工具;
- 上大规模并行图形处理;
- 写入的图形数据库;
- :文档和图形数据库;
- :大型图形处理框架;
- 的分布式图形数据库;
- :分布式图形数据库。
NewSQL数据库
- 关系数据库管理系统;
- 的数据仓库服务;
- 数据库;
- ;
- :可扩展、地址可复制、交易型的数据库;
- :旨在产生可扩展、灵活的智能应用的分布式数据库;
- 授意的分布式数据库;
- 数据库;
- :全球性的分布式半关系型数据库;
- )应用的优化;
- 的线性可扩展多行多表交易库;
- 插件;
- ;
- 数据库,其中有优化的闪存列存储;
- 兼容的分布式数据库;
- :内存中具有持久性和可恢复性的关系型数据库管理系统;
- 中较持久化;
- :是在内存中面向列的关系型数据库管理系统;
- :分布式实时半结构化的数据库;
- :用于行为数据的灵活、高性能分析的数据库;
- :用于文件和数据库同步的开源软件;
- 内存数据库,也为大数据分析和可视化平台;
- 的设计灵感;
- :自称为最快的内存数据库。
列式数据库
注意:请在阅读相关注释。
- :解释什么是列存储以及何时会需要用到它;
- :面向列的分析型数据库;
- ;
- :列存储数据库;
- 的列存储格式;
- :专门设计的、专用的分析数据仓库,类似于传统的基于行的工具,提供了一个列式工具;
- :用来管理大规模、快速增长的大量数据,当用于数据仓库时,能够提供非常快的查询性能;
- 的创始工作提供支持;
- :亚马逊的云产品,它也是基于柱状数据存储后端。
时间序列数据库
类SQL处理
- 数据;
- 授意的交互式分析框架;
- 的表格和存储管理层;
- 数据仓库系统;
- :一种框架,可允许高效的查询翻译,其中包括异构性及联合性数据的查询;
- 驱动;
- 授意的交互式分析框架;
- 查询语言;
- 查询工具;
- 查询工具;
- 的实现;
- 的数据仓库系统;
- 级结构化和半结构化数据的数据库;
- 的查询优化框架;
- 操作结构化数据;
- 事务;
- 的交互式查询;
- 的分布式数据仓库系统;
- 针对大数据的事务或业务工作负载的解决方案。
数据摄取
- :大规模数据流的实时处理;
- :数据采集系统;
- :管理大量日志数据的服务;
- 订阅消息系统;
- 和结构化的数据存储区之间传送数据的工具;
- 的框架;
- :流日志数据聚合器;
- :采集事件和日志的工具;
- :实时连接多个数据流的分布式计算机系统,具有高可扩展性和低延迟性;
- :开源流处理软件系统;
- 连接不同数据源的框架;
- :分布式消息队列系统;
- :对数据库更改捕获的事件流;
- :压缩已分类整型数组的程序包;
- :日志聚合器和仪表板;
- :用于管理事件和日志的工具;
- 一样的日志聚合器;
- 日志持久性的服务;
- 的通用数据摄取框架;
- :是一种数据存储略图,使用概率性数据结构来处理计数、略图等相关的问题;
- 。
服务编程
- 中分布性、容错事件驱动应用程序的运行时间;
- :数据序列化系统;
- 库;
- 运行时间;
- :构建二进制协议的框架;
- :流程管理集中式服务;
- :一种松耦合分布式系统锁服务;
- :集群管理器;
- :消息传递框架;
- :服务发现和协调的分散化解决方案;
- 包,它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题;
- :数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统;
- 压缩数据的工作库;
- 的异步网络堆栈。
调度
机器学习
- 的机器学习库;
- 中的神经网络;
- :实时大规模机器学习;
- 的机器学习库;
- 中的机器学习,在浏览器中训练卷积神经网络(或普通网络);
- 中灵活、可扩展的机器学习;
- :支持多种先进算法的机器学习框架,同时支持类的标准化和处理数据;
- :机器学习文本分类;
- 中可扩展的机器学习;
- 中的大规模机器学习系统;
- 工具包、数据工程和部署工具的广泛集合;
- 统计性的机器学习和数学运行时间;
- 堆栈的分布式机器学习库;
- 的快速多层感知神经网络库;
- :使文本挖掘更为容易,从文本中提取分类数据;
- 平台,它是一个启发大脑的机器智力平台,基于皮质学习算法的精准的生物神经网络;
- 上的机器学习服务器;
- :分布式流媒体机器学习框架;
- 中的机器学习;
- )功能的实现;
- :微软和雅虎发起的学习系统;
- :机器学习软件套件;
- 的机器学习库。
基准测试
安全性
系统部署
- 管理的运作框架;
- 生态系统的部署框架;
- :集群管理框架;
- :集群管理器;
- 中现有的分布式应用程序;
- :运行云服务的库集;
- :集群管理器;
- :用于简化应用程序部署和管理的库;
- 类似;
- 应用程序;
- :多数据中心复制系统;
- :作业调度和监控系统;
- :作业调度和监控系统;
- 集群的应用;
- 框架。
应用程序
- 分析;
- ,实时采集和分析数据的框架;
- :开源网络爬虫;
- 科学档案中数据的捕获、处理和共享;
- :内容分析工具包;
- :时间序列监测和报警平台;
- ,开源的手机和网络分析平台;
- :运行、规划、共享和部署模型——没有任何基础设施;
- 的报告系统;
- :开源的事件分析平台;
- 上的异步消息代理;
- ;
- 分析;
- :大规模分析平台;
- 的用于数据分析的数据处理库;
- 的开源分布式分析工具;
- ;
- 集群,内置的数据连接器;
- :用于数据科学和大数据分析的云平台;
- (联机分析处理);
- 提供技术支持;
- 前端;
- :用于机器生成的数据的分析;
- :基于云的分析仪,用于分析机器生成的数据;
- 的统一开源环境;
- )的实例查询工具。
搜索引擎与框架
- :搜索引擎库;
- 的搜索平台;
- 的搜索和分析引擎;
- 应用,用于探索、筛选、分析、搜索和导出来自网络的大规模数据集;
- :社交图形搜索平台;
- :连续索引系统;
- :连续索引系统;
- :大型搜索索引;
- 的一部分;
- 的任何内容;
- 的延伸;
- :为一个一个灵活的软件库,使得局部、无序、实时预输入的搜索实现了快速发展;
- 搜索架构;
- 索引系统;
- :全文搜索引擎
MySQL的分支和演化
PostgreSQL的分支和演化
- - multi-peta-byte database / MPP derived by PostgreSQL.
- 的混合体;
- :高性能数据仓库设备;
- ,可扩展的开源数据库集群;
- 内部的开源推荐引擎;
- 数据库系统,只针对数据仓库和数据集市的应用程序;
- 。
Memcached的分支和演化
嵌入式数据库
商业智能
- :商业智能云平台;
- :精益业务智能平台,用于可视化和探索数据;
- :基于云的自助服务商业智能工具;
- :功能强大的商业智能套件;
- :定制的商业智能平台;
- :商业智能软件和平台;
- :商业智能、移动智能和网络应用软件平台;
- :商业智能平台;
- :商业智能和分析平台;
- :开源的分析平台;
- :开源商业智能平台;
- :商业智能平台;
- :大数据分析;
- :交互式大数据分析。
数据可视化
- ;
- 的图形可视化库;
- 的日志和时戳数据进行可视化;
- 风格的新奇的图形提供优雅简洁的设计,同时在大规模数据或流数据集中,通过高性能交互性来表达这种能力;
- 可重复使用的图表库;
- 的地理空间数据库;
- 的图表;
- 图表可视化效果;
- 图表可视化效果;
- 效果很好;
- 库;
- 库;
- 的事件附近;
- 库;
- :从可重复使用的图表和组件构成复杂的、数据驱动的可视化;
- 的样式;
- :百度企业场景图表;
- 可视化;
- 图表,而不是表;
- 混搭的开源实时仪表盘构建;
- ;
- ;
- :石墨仪表板前端、编辑器和图形组合器;
- :可扩展的实时图表;
- ;
- :为交互式计算提供丰富的架构;
- :可视化日志和时间标记数据;
- 绘图;
- 之上的库,针对时间序列数据进行最优化;
- 的图表组件;
- 条形图,折线和饼图;
- 的在线电子表格上传数据进行创建和设计;
- 图形库;
- 构建数据应用;
- :查询和可视化数据的开源平台;
- 应用程序框架;
- 库,专门用于图形绘制;
- :一个可视化语法;
- :一个笔记本式的协作数据分析;
- 图表库。
物联网和传感器
文章推荐
论文
2015 - 2016
2013 - 2014
- 海量数据集挖掘)
- 稀疏矩阵的分布式机器学习和图像处理)
- 分布式机器学习系统)
- 和丰富的分析)
- )
- 一个艺术形态的基数估算算法)
- )
- 实时分析数据存储)
- 中在线、异步模式的转变)
- 数据库)
- 互联网规模下的容错流处理)
- 的数据世界)
- 一种搜索社交图的系统)
- 伸缩性的增强)
2011 - 2012
- 数据分析的统一日志基础结构)
- 及其完成:超大规模数据的交互式查询)
- 数据的快速交互式分析)
- )
- )
- 算法实现并行)
- (超大规模数据中有限误差与有界响应时间的查询)
- (每次点击处理一兆个单元格)
- )
- 集群中的偏向性内容)
- )
- )
2001 - 2010
视频
数据可视化
- 数据可视化之美
- 的数据可视化设计
- Hans Rosling's 200 Countries, 200 Years, 4 Minutes
- 冰桶挑战的数据可视化
原文:https://yq.aliyun.com/articles/37308 https://github.com/onurakpolat/awesome-bigdata