简介
技术论坛: http://bbs.chinaunix.net/forum-240-1.html
资源地址: https://sourceforge.net/projects/fastdfs/
源码资源: https://github.com/happyfish100
FastDFS 是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。
FastDFS 为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用 FastDFS 很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。
FastDFS 服务端有两个角色:跟踪器(tracker)和存储节点(storage)。
跟踪器主要做调度工作,在访问上起负载均衡的作用。
存储节点存储文件,完成文件管理的所有功能:就是这样的存储、同步和提供存取接口,FastDFS 同时对文件的 metadata 进行管理。所谓文件的 meta data 就是文件的相关属性,以键值对(key value)方式表示,如:width=1024,其中的 key 为 width,value 为 1024。文件metadata 是文件属性列表,可以包含多个键值对。
跟踪器和存储节点都可以由一台或多台服务器构成。跟踪器和存储节点中的服务器均可以随时增加或下线而不会影响线上服务。其中跟踪器中的所有服务器都是对等的,可以根据服务器的压力情况随时增加或减少。
为了支持大容量,存储节点(服务器)采用了分卷(或分组)的组织方式。存储系统由一个或多个卷组成,卷与卷之间的文件是相互独立的,所有卷的文件容量累加就是整个存储系统中的文件容量。一个卷可以由一台或多台存储服务器组成,一个卷下的存储服务器中的文件都是相同的,卷中的多台存储服务器起到了冗余备份和负载均衡的作用。
在卷中增加服务器时,同步已有的文件由系统自动完成,同步完成后,系统自动将新增服务器切换到线上提供服务。
当存储空间不足或即将耗尽时,可以动态添加卷。只需要增加一台或多台服务器,并将它们配置为一个新的卷,这样就扩大了存储系统的容量。
FastDFS 中的文件标识分为两个部分:卷名和文件名,二者缺一不可。
1 架构图

2 上传流程
client 询问 tracker 上传到的 storage,不需要附加参数;
tracker 返回一台可用的 storage;
client 直接和 storage 通讯完成文件上传
3 下载流程
client 询问 tracker 下载文件的 storage,参数为文件标识(组名和文件名);
tracker 返回一台可用的 storage;
client 直接和 storage 通讯完成文件下载。
4 术语简介
Tracker Server:跟踪服务器,主要做调度工作,在访问上起负载均衡的作用。记录 storage server 的状态,是连接 Client 和 Storage server 的枢纽。
Storage Server:存储服务器,文件和 meta data 都保存到存储服务器上
group:组,也称为卷。同组内服务器上的文件是完全相同的文件标识 :包括两部分:组名和文件名(包含路径)
meta data:文件相关属性,键值对(Key Value Pair)方式,如:width=1024,heigth=768
5 同步机制
同一组内的 storage server 之间是对等的,文件上传、删除等操作可以在任意一台 storage server 上进行;
文件同步只在同组内的 storage server 之间进行,采用 push 方式,即源服务器同步给目标服务器;
源头数据才需要同步,备份数据不需要再次同步,否则就构成环路了;
上述第二条规则有个例外,就是新增加一台storage server时,由已有的一台storage server将已有的所有数据(包括源头数据和备份数据)同步给该新增服务器
6 FastDFS 运行时目录结构
6.1 Tracker Server 目录
| ${base_path} |__data | |__storage_groups.dat:存储分组信息 | |__storage_servers.dat:存储服务器列表 |__logs |__trackerd.log:tracker server 日志文件 |
6.2 Storage Server 目录
| ${base_path} |__data | |__.data_init_flag:当前 storage server 初始化信息 | |__storage_stat.dat:当前 storage server 统计信息 | |__sync:存放数据同步相关文件 | | |__binlog.index:当前的 binlog 文件索引号 | | |__binlog.###:存放更新操作记录(日志) | | |__${ip_addr}_${port}.mark:存放同步的完成情况 | | | |__一级目录:256 个存放数据文件的目录,如:00, 1F | |__二级目录:256 个存放数据文件的目录 |__logs |__storaged.log:storage server 日志文件 |
7 FastDFS 和其他文件存储的简单对比
7.1FastDFS 和集中存储方式对比
| 指标 | FastDFS | NFS | 集中存储设备 如 NetApp 、NAS |
| 线性扩容性 | 高 | 差 | 差 |
| 文件高并发访问性能 | 高 | 差 | 一般 |
| 文件访问方式 | 专有 API | POSIX | 支持 POSIX |
| 硬件成本 | 较低 | 中等 | 高 |
| 相同内容文件只保存一份 | 支持 | 不支持 | 不支持 |
7.2FastDFS 和 和 mogileFS 对比
| 指标 | FastDFS | mogileFS |
| 系统简洁性 | 简洁 只有两个角色:tracker 和 storage |
一般 有三个角色:tracker、storage 和存储文件信息的 mysql db |
| 系统性能 | 很高(没有使用数据库, 文件同步直接点对点,不经过 tracker 中转) |
高(使用 mysql 来存储文件 索引等信息,文件同步通过 tracker 调度和中转) |
| 系统稳定性 | 高(C 语言开发,可以支 持高并发和高负载) |
一般(Perl 语言开发,高并 发和高负载支持一般) |
| RAID 方式 | 分组(组内冗余),灵活 性较大 |
动态冗余,灵活性一般 |
| 通信协议 | 专有协议 下载文件支持 HTTP |
HTTP |
| 技术文档 | 较详细 | 较少 |
| 文 件 附 加 属 性(meta data) | 支持 | 不支持 |
| 相同内容文件只保存一份 | 支持 | 不支持 |
| 下载文件时支持文件偏移量 | 支持 | 不支持 |