平台:window server2016上的集群,由一组域控与两个集群节点组成。
故障:IP地址资源,集群地址被用占用,导致集群不可用。
如下图:
群集IP地址资源“群集 IP 地址”无法联机,因为已在网络上检测到重复 IP 地址。请确保所有 IP 地址都是唯一的。
原因查找:
通过查看群集日志发现,最初的报错是群集见证失败,如下:
文件共享见证资源“文件共享见证”仲裁文件共享“xxx”失败。请确保文件共享“xxx”存在且群集可以访问文件共享。
由于本群集是通过文件共享进行仲裁的,并且这个共享文件是一个DFS分布式文件共享,因此从对应的DFS查找原因。如下:
发现对应DFS目录的命名空间服务器只有一台,并且该DFS目录进行了复制,对应两个实际目录,因此判断由于命名空间服务器少了一台,造成局部时段的DFS命名空间文件夹不可访问,最终导致群集促裁失败,两个群集节点各自认为是主节点,抢占群集IP,出现裂脑现像。
处理:
在对应的DFS目录中添加另一台命名空间服务器,该服务器就是对应的实际目录所有服务器,添加方法是在对应的DFS命名空间上右键添加命名空间服务器按提示操作即可。
补充
DFS是一种分布式文件系统,一般会使用一个命名空间文件夹的方式,去访问在分布在不同服务器上的文件,因此这些服务器都应该加入该DFS命名空间服务器中。
复制组,用于同步同一个DFS命名空间文件夹下的各个服务器上的文件夹中的内容。