cephfs元数据池故障的恢复
cephfs元数据池故障的恢复
zphj1987前言
cephfs 在L版本已经比较稳定了,这个稳定的意义个人觉得是在其故障恢复方面的成熟,一个文件系统可恢复是其稳定必须具备的属性,本篇就是根据官网的文档来实践下这个恢复的过程
实践过程
部署一个ceph Luminous集群
1 | [root@lab102 ~]# ceph -v |
创建filestore
1 | ceph-deploy osd create lab102 --filestore --data /dev/sdb1 --journal /dev/sdb2 |
这里想用filestore进行测试就按上面的方法去创建osd即可
传入测试数据
- doc
- pic
- vidio
这里提供下载链接
这个是网上下载的模板的数据,方便进行真实的文件的模拟,dd产生的是空文件,有的时候会影响到测试
需要更多的测试文档推荐可以从下面网站下载
视频下载:
图片下载:
文档下载:
元数据模拟故障
跟元数据相关的故障无非就是mds无法启动,或者元数据pg损坏了,这里我们模拟的比较极端的情况,把metadata的元数据对象全部清空掉,这个基本能覆盖到最严重的故障了,数据的损坏不在元数据损坏的范畴
清空元数据存储池
1 | for object in `rados -p metadata ls`;do rados -p metadata rm $object;done |
重启下mds进程,应该mds是无法恢复正常的
1 | cluster: |
准备开始我们的修复过程
元数据故障恢复
设置允许多文件系统
1 | ceph fs flag set enable_multiple true --yes-i-really-mean-it |
创建一个新的元数据池,这里是为了不去动原来的metadata的数据,以免损坏原来的元数据
1 | ceph osd pool create recovery 8 |
将老的存储池data和新的元数据池recovery关联起来并且创建一个新的recovery-fs
1 | [root@lab102 ~]# ceph fs new recovery-fs recovery data --allow-dangerous-metadata-overlay |
做下新的文件系统的初始化相关工作
1 | [root@lab102 ~]#cephfs-data-scan init --force-init --filesystem recovery-fs --alternate-pool recovery |
reset下新的fs
1 | [root@lab102 ~]#ceph fs reset recovery-fs --yes-i-really-mean-it |
做相关的恢复
1 | [root@lab102 ~]# cephfs-data-scan scan_extents --force-pool --alternate-pool recovery --filesystem ceph data |
1 | [root@lab102 ~]# systemctl start ceph-mds@lab102 |
设置成默认的fs
1 | [root@lab102 ~]# ceph fs set-default recovery-fs |
挂载检查数据
1 | [root@lab102 ~]# mount -t ceph 192.168.19.102:/ /mnt |
可以看到在lost+found里面就有数据了
1 | [root@lab102 ~]# file /mnt/lost+found/10000000010 |
这个生成的文件名称就是实际文件存储的数据的prifix,也就是通过原始inode进行的运算得到的
如果提前备份好了原始的元数据信息
1 | [root@lab102 ~]# ceph daemon mds.lab102 dump cache > /tmp/mdscache |
那么可以比较轻松的找到丢失的文件
总结
在我另外一篇文章当中已经写过了,通过文件的inode可以把文件跟后台的对象结合起来,在以前我的恢复的思路是,把后台的对象全部抓出来,然后自己手动去对对象进行拼接,实际是数据存在的情况下,反向把文件重新link到一个路径,这个是官方提供的的恢复方法,mds最大的担心就是mds自身的元数据的损坏可能引起整个文件系统的崩溃,而现在,基本上只要data的数据还在的话,就不用担心数据丢掉,即使文件路径信息没有了,但是文件还在
通过备份mds cache可以把文件名称,路径,大小和inode关联起来,而恢复的数据是对象前缀,也就是备份好了mds cache 就可以把整个文件信息串联起来了
虽然cephfs的故障不是常发生,但是万一呢
后续准备带来一篇关于cephfs从挂载点误删除数据后的数据恢复的方案,这个目前已经进行了少量文件的恢复试验了,等后续进行大量文件删除的恢复后,再进行分享
参考文档
变更记录
Why | Who | When |
---|---|---|
创建 | 武汉-运维-磨渣 | 2018-05-29 |