纠删码中间对象属性丢失引起osd的崩溃 背景迁移的时候出现osd的崩溃,然后进行pg的备份的时候出现了无法获取属性的情况,本篇记录问题和解决的方法 问题1234567891011Error getting attr on : 2.7s2_head,2#2:f7d032a7:::rbd_data.1.101a6b8b4567.00000000000000a1:head#f6, (61) No data availableError get 2024-12-11 存储系统 #ceph
快照原始对象缺失引起的osd崩溃 问题 修复pg的时候出现了 unexpected clone 可以看到这个对象后面有编号,这个编号有两种情况 快照的对象(snapid) 纠删对象的中间版本(对应是generation) 1{"oid":"rbd_data.1.101a6b8b4567.00000000000000b3","key":"" 2024-12-11 存储系统 #ceph
为什么只坏了一个盘集群无法读写 背景我们拿到故障环境,看到环境就坏一个osd,但是环境还是处于卡着的状态,这个时候客户肯定会问,怎么就坏一个盘,还无法用了,不是都配置了冗余么 这个地方我们来分析下这个问题的原因,坏一个osd只是结果,不是过程,我们看下过程发生了哪些状况 中间过程这个中间过程我们用图来说过程比较清晰一些 上面是时间线上的三个阶段的情况 阶段一:数据完整,没有任何问题,数据写三份,分布到三台机器 阶段二:主机 2024-12-04 存储相关 #ceph
device_health_metrics正确的删除方法 问题描述1234567891011121314151617181920[root@lab103 ceph]# ceph -s cluster: id: 4f5ce868-8389-489a-bd96-f2754ed6fa2f health: HEALTH_ERR mon is allowing insecure global_id reclaim 2024-11-21 存储相关 #ceph
earlyoom预防机器卡死 背景机器还没来得及oom,机器就出现挂死的状态,swap无法交换出,或者直接挂死 这个问题比较好复现在机器上面一直进行内存的申请即可 1python3 memory.py 100 40000 这个在x86上面做测试的时候,系统能够比较快的oom,但是这个板卡的系统盘本身慢,这个就可能出现卡顿的情况了 系统的oom,需要进行一些计算和系统处理,并且有个问题是,很多进程都不杀,因为都是系统进程,很多 2024-11-14 系统管理 #内存管理
docker配置代理下载镜像 背景需要下载镜像,但是无法下载 处理方法在macos上面开启端口转发1socat TCP4-LISTEN:25433,fork TCP4:127.0.0.1:25432 在需要下载的机器上面配置docker代理123456vim /lib/systemd/system/docker.service[Service]Environment="HTTP_PROXY=http://192.1 2024-11-11 系统服务 #docker
cephfs统计稀疏文件大小的脚本 背景cephfs的df看到的是真实的容量的占用的,ll是看到文件的元数据大小的,du一般是统计文件的真实占用的大小的,但是cephfs并没有记录文件内的占用的情况,所以du无法统计到真实占用 方法我们先拿到全部的inode编号 1ls -i -R /mnt > inode.list 拿到全部的对象名称 1rados -p rbd ls > object.list 写一个脚本 1 2024-11-07 存储相关 #ceph
iis无法访问samba的文件的问题 背景配置iis的数据目录为samba的共享目录,目录可以访问,文件不能访问 处理方法iis在访问samba的文件的时候,默认把文件全部转换成大写的路径去发送的请求,而linux是区分大小写的,访问的时候就无法访问到这个小写的文件 所以需要配置samba忽略大小写 1case sensitive = yes 改成 1case sensitive = no 然后重启samba即可 总结大小写是否需 2024-11-07 存储相关 #samba
修改cephmon的ip 需求修改mon的ip 操作步骤卸载客户端挂载的服务1[root@lab103 ~]# umount /mnt 停掉mds的服务1[root@lab103 ~]# systemctl stop ceph-mds@lab103 停掉osd的服务1[root@lab103 ~]# systemctl stop ceph-osd.target 停掉管理服务12[root@lab103 ~]# syste 2024-11-04 存储相关 #ceph
systemd病毒定位和处理 背景内网测试环境出现一台机器上面的systemd返回值异常,其它都正常,具体的现象如下 1systemctl restart smb;echo $? 这个返回的是1,正常执行完毕应该是0 问题定位开始的时候以为是网络的问题,通过执行本地的命令发现,任何systemd的执行命令返回的都是1,但是实际成功了开始并没有往病毒方面想,系统没有定时任务,没有异常的cpu负载 1[root@lab103 ~] 2024-09-24 系统管理 #异常处理