device_health_metrics正确的删除方法

问题描述

[root@lab103 ceph]# ceph -s
  cluster:
    id:     4f5ce868-8389-489a-bd96-f2754ed6fa2f
    health: HEALTH_ERR
            mon is allowing insecure global_id reclaim
            Module 'devicehealth' has failed: [errno 2] RADOS object not found (error opening pool 'b'device_health_metrics'')
            1 pool(s) do not have an application enabled
            1 pool(s) have no replicas configured

  services:
    mon: 1 daemons, quorum lab103 (age 11m)
    mgr: lab103(active, since 11m)
    mds:  1 up:standby
    osd: 1 osds: 1 up (since 22m), 1 in (since 22m)

  data:
    pools:   1 pools, 32 pgs
    objects: 100 objects, 400 MiB
    usage:   1.4 GiB used, 3.6 TiB / 3.6 TiB avail
    pgs:     32 active+clean

集群的状态如上面的

这个是因为之前操作过

1	`ceph osd pool delete device_health_metrics device_health_metrics --yes-i-really-really-mean-it`

删除了记录磁盘相关smart信息的存储池

那么这个时候如果恢复集群的状态

操作方法

我们删除了这个存储一般有两个情况

一个是误删除了
真不想要这个存储池

那么就是有两种情况，一种是需要关闭，一种是恢复原状，那么这里有两个处理方式

恢复原状

恢复原状很简单，重启ceph-mgr即可，这个会自动创建这个存储池

1	`ceph mgr fail`

用这个即可,这个会自动创建device_health_metrics,警告也会自动消失，需要稍微等一会

真的要删除

真的要删除也要先让存储恢复，然后再按操作顺序删除，否则提示会一直在
也就是

1	`ceph mgr fail`

等待恢复，告警消失后
禁用告警

1	`ceph config set mgr mgr/devicehealth/enable_monitoring false`

然后再删除存储池

1	`ceph osd pool delete device_health_metrics device_health_metrics --yes-i-really-really-mean-it`

这样系统内部就不会找不到存储磁盘监控信息的对象了，也就不会提示异常了

存储相关

#ceph

device_health_metrics正确的删除方法

https://zphj1987.com/2024/11/21/device-health-metrics正确的删除方法/

作者

zphj1987

发布于

2024年11月21日

许可协议

为什么只坏了一个盘集群无法读写上一篇

earlyoom预防机器卡死下一篇