磨磨的技术笔记

掉电后osdmap丢失无法启动osd的解决方案

掉电后osdmap丢失无法启动osd的解决方案

前言本篇讲述的是一个比较极端的故障的恢复场景，在整个集群全部服务器突然掉电的时候，osd里面的osdmap可能会出现没刷到磁盘上的情况，这个时候osdmap的最新版本为空或者为没有这个文件还有一种情况就是机器宕机了，没有马上处理，等了一段时间以后，服务器机器启动了起来，而这个时候osdmap已经更新了，全局找不到需要的旧版本的osdmap和incmap，osd无法启动一般情况下能找到的就直接从

2017-09-27

暂未分类

#暂未分类

怎样禁止Ceph OSD的自动挂载

怎样禁止Ceph OSD的自动挂载

前言本篇来源于群里一个人的问题，有没有办法让ceph的磁盘不自动挂载，一般人的问题都是怎样让ceph能够自动挂载，在centos 7 平台下 ceph jewel版本以后都是有自动挂载的处理的，这个我之前也写过两篇文章《ceph在centos7下一个不容易发现的改变》和《Ceph数据盘怎样实现自动挂载》，来讲述这个自动挂载的这里讲下流程：开机后 udev 匹配 95-ceph-osd.rul

2017-09-07

暂未分类

#暂未分类

Ceph OSD服务失效自动启动控制

Ceph OSD服务失效自动启动控制

前言服务器上面的服务会因为各种各样的原因失败，磁盘故障，权限问题，或者是服务过载引起超时，这些都可能引起这个在ceph里面systemctl unit 默认有个on-fail restart,默认的可能并不适合所有的场景，所以自动化的服务应该是尽量去适配你手动处理的过程，手动怎么处理的，就怎么去设置启动分析如果有osd失败了，一般上去会先启动一次，尽快让服务启动，然后去检查是否有故障，如果失败

2017-09-06

暂未分类

#暂未分类

osd磁盘空间足够无法写入数据的分析与解决

osd磁盘空间足够无法写入数据的分析与解决

前言这个问题的来源是ceph社区里面一个群友的环境出现在85%左右的时候，启动osd报错，然后在本地文件系统当中进行touch文件的时候也是报错，df -i查询inode也是没用多少，使用的也是inode64挂载的，开始的时候排除了配置原因引起的，在ceph的邮件列表里面有一个相同问题，也是没有得到解决看到这个问题比较感兴趣，就花了点时间来解决来定位和解决这个问题，现在分享出来，如果有类似的生产

2017-09-04

暂未分类

#暂未分类

为什么关不掉所有的OSD

为什么关不掉所有的OSD

前言碰到一个cepher问了一个问题：为什么我的OSD关闭到最后有92个OSD无法关闭,总共的OSD有300个左右想起来在很久以前帮人处理过一次问题，当时环境是遇上了一个BUG，需要升级到新版本进行解决，然后当时我来做操作，升级以后，发现osd无法启动，进程在，状态无法更新，当时又回滚回去，就可以了，当时好像是K版本升级到J版本，想起来之前看过这个版本里面有数据结构的变化，需要把osd全部

2017-08-21

暂未分类

#暂未分类

关于scrub的详细分析和建议

关于scrub的详细分析和建议

前言关于scrub这块一直想写一篇文章的，这个在很久前，就做过一次测试，当时是看这个scrub到底有多大的影响，当时看到的是磁盘读占很高，启动deep-scrub后会有大量的读,前端可能会出现 slow request,这个是当时测试看到的现象，一个比较简单的处理办法就是直接给scrub关掉了，当然关掉了就无法检测底层到底有没有对象不一致的问题关于这个scrub生产上是否开启，仁者见仁，智者见智，

2017-08-19

暂未分类

#暂未分类

如何测量Ceph OSD内存占用

如何测量Ceph OSD内存占用

前言这个工具我第一次看到是在填坑群里面看到，是由研发-北京-蓝星同学分享的，看到比较有趣，就写一篇相关的记录下用法火焰图里面也可以定位内存方面的问题，那个是通过一段时间的统计，以一个汇总的方式来查看内存在哪个地方可能出了问题本篇是另外一个工具，这个工具的好处是有很清晰的图表操作，以及基于时间线的统计，下面来看下这个工具怎么使用的本篇对具体的内存函数的调用占用不会做更具体的分析，这里是提供一

2017-08-10

暂未分类

#暂未分类

Ceph recover的速度控制

Ceph recover的速度控制

前言磁盘损坏对于一个大集群来说，可以说是必然发生的事情，即使再小的概率，磁盘量上去，总会坏那么几块盘，这个时候就会触发内部的修复过程，修复就是让不满足副本要求的PG，恢复到满足的情况一般是踢掉坏盘和增加新盘会触发这个修复过程，或者对磁盘的权重做了修改，也会触发这个迁移的过程，本篇是用剔除OSD的方式来对这个修复的控制做一个探索大部分场景下要求的是不能影响前端的业务，而加速迁移，忽略迁移影响不在

2017-08-10

暂未分类

#暂未分类

Ceph S3 基于NGINX的集群复制方案

Ceph S3 基于NGINX的集群复制方案

前言ceph的s3数据的同步可以通过radosgw-agent进行同步，同region可以同步data和metadata，不同region只能同步metadata，这个地方可以参考下秦牧羊梳理的 ceph radosgw 多集群同步部署流程，本篇讲述的方案与radosgw-agent的复制方案不同在于,这个属于前端复制，后端相当于透明的两个相同集群，在入口层面就将数据进行了复制分流在某些场景下，

2017-08-10

暂未分类

#暂未分类

RBD快速删除的方法分析与改进

RBD快速删除的方法分析与改进

前言这个问题在很久以前就有一篇文章进行过讨论 remove-big-rbd,这个文章写的比较清楚了，并且对不同的方法做了分析，这里先把结论说下 rbd类型 rbd rm 方法 rados -p rm方法未填充很多慢快已填充很多快慢在rbd进行删除的时候，即使内部没有对象数据，也一样需要一个个对象去发请求，即使对象不存在，这个可以开日志看到实验过程开启日志的方

2017-07-27

暂未分类

#暂未分类