2026/4/16 14:19:47
网站建设
项目流程
网站没内容可以备案吗,最全磁力搜索引擎,网站做成app,5G网站建设要多少个集群系统问题处理、故障转移及应用设计指南 一、集群系统常见问题及处理 1.1 系统崩溃(System Crash) 系统崩溃是较为常见的情况,例如有客户的 VCS 集群中的两台高端 Sun 服务器,曾因 CPU 缓存恐慌错误多次崩溃。在更换多个 CPU 并应用内核补丁后,问题得到解决。当服务…集群系统问题处理、故障转移及应用设计指南一、集群系统常见问题及处理1.1 系统崩溃(System Crash)系统崩溃是较为常见的情况,例如有客户的 VCS 集群中的两台高端 Sun 服务器,曾因 CPU 缓存恐慌错误多次崩溃。在更换多个 CPU 并应用内核补丁后,问题得到解决。当服务器崩溃时,几乎所有集群实现都会将服务从崩溃系统转移到其他系统。不过,部分集群软件可根据系统容量和当前负载,在多个集群成员间分配服务。1.2 系统挂起(System Hang)系统挂起对集群开发者是个严峻挑战。计算机有时会锁定无响应,之后又可能神秘解锁并恢复响应。若系统挂起,所有心跳通道都会停止响应,比如串行线路、基于共享磁盘的心跳、专用以太网网络等。在双节点集群中,若节点 A 挂起,节点 B 收不到心跳响应,会认为节点 A 已宕机,进而挂载文件系统并启动原由节点 A 提供的服务。之后节点 A 可能解锁并对文件系统进行 I/O 操作,这会导致两个系统同时访问和修改同一文件系统,引发数据完整性问题。优秀的集群软件在处理系统挂起时,部分软件不会接管在所有心跳通道突然停止响应的系统上运行的服务。若接管,必须确保故障系统恢复时无法访问共享磁盘,可通过 I/O 隔离、独占磁盘预留和 I/O 屏障来实现。1.3 计划维护(Planned Maintenance)几乎所有集群软件都支持系统的计划维护,如软件或硬件更改和升级。维护或升级前,系统上的所有应用会切换到其他系统。多数集群软件不太在意系统硬件资源差异,但操作系统和集群软件版本需关注。若要求版本一致,就需同时关闭所有系统,要考虑停机