这几天centreon监控频频报警,提示ceph pg 错误,用 ceph health detail 确定不一致的pgs,然后用指令 ceph pg repair pg_num 进行修复,通过查看系统日志,有IO错误,修复一次,能管半天,提醒决策人买新硬盘换上,不理睬,今天终于挂掉了,虽然不影响业务,但资源总体利用率超过70%,一旦节点挂掉,虚拟机连漂移的机会都没有。

Ceph OSD磁盘自己down了,不打算在mount。

系统自己在那里做平衡操作呢!

文章讲述了Centreon监控系统中遇到的Ceph错误,涉及pgs不一致和IO错误,修复后短暂稳定但最终因硬盘问题引发资源利用率过高。CephOSD磁盘故障导致系统自动平衡,引发对硬件更新的必要性和潜在风险的讨论。
这几天centreon监控频频报警,提示ceph pg 错误,用 ceph health detail 确定不一致的pgs,然后用指令 ceph pg repair pg_num 进行修复,通过查看系统日志,有IO错误,修复一次,能管半天,提醒决策人买新硬盘换上,不理睬,今天终于挂掉了,虽然不影响业务,但资源总体利用率超过70%,一旦节点挂掉,虚拟机连漂移的机会都没有。

Ceph OSD磁盘自己down了,不打算在mount。

系统自己在那里做平衡操作呢!

1万+
1389

被折叠的 条评论
为什么被折叠?