device_health_metrics正确的删除方法

问题描述

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
[root@lab103 ceph]# ceph -s
cluster:
id: 4f5ce868-8389-489a-bd96-f2754ed6fa2f
health: HEALTH_ERR
mon is allowing insecure global_id reclaim
Module 'devicehealth' has failed: [errno 2] RADOS object not found (error opening pool 'b'device_health_metrics'')
1 pool(s) do not have an application enabled
1 pool(s) have no replicas configured

services:
mon: 1 daemons, quorum lab103 (age 11m)
mgr: lab103(active, since 11m)
mds: 1 up:standby
osd: 1 osds: 1 up (since 22m), 1 in (since 22m)

data:
pools: 1 pools, 32 pgs
objects: 100 objects, 400 MiB
usage: 1.4 GiB used, 3.6 TiB / 3.6 TiB avail
pgs: 32 active+clean

集群的状态如上面的

这个是因为之前操作过

1
ceph osd pool delete device_health_metrics  device_health_metrics --yes-i-really-really-mean-it

删除了记录磁盘相关smart信息的存储池

那么这个时候如果恢复集群的状态

操作方法

我们删除了这个存储一般有两个情况

  • 一个是误删除了
  • 真不想要这个存储池

那么就是有两种情况,一种是需要关闭,一种是恢复原状,那么这里有两个处理方式

恢复原状

恢复原状很简单,重启ceph-mgr即可,这个会自动创建这个存储池

1
ceph mgr fail 

用这个即可,这个会自动创建device_health_metrics,警告也会自动消失,需要稍微等一会

真的要删除

真的要删除也要先让存储恢复,然后再按操作顺序删除,否则提示会一直在
也就是

1
ceph mgr fail

等待恢复,告警消失后
禁用告警

1
ceph config  set mgr   mgr/devicehealth/enable_monitoring false

然后再删除存储池

1
ceph osd pool delete device_health_metrics  device_health_metrics --yes-i-really-really-mean-it

这样系统内部就不会找不到存储磁盘监控信息的对象了,也就不会提示异常了