ceph 维护系列（一）删除一个ceph 节点

原创

已于 2023-04-19 10:23:06 修改 · 5.1k 阅读

标签

#ceph

于 2021-06-16 09:59:36 首次发布

本文详细记录了在Ceph Nautilus版本的集群环境中，如何从ceph.kxdigit.com中安全地移除名为cephtest003的节点。首先检查节点上的osd服务状态，然后通过降低osd权重来迁移数据，但发现这种方法较慢。于是选择直接停止osd服务，逐个删除osd，更新crushmap并清除认证信息。接着卸载osd硬盘，最后移除mon服务并修改配置文件。此外，还关闭了该节点的mgr服务。

零修订记录

序号	修订内容	修订时间
1	新增	2021/2/19

一摘要

本文是基于（ceph 纵向扩容 nautilus版本）[https://www.cnblogs.com/weiwei2021/p/14381416.html]，对cephtest003.ceph.kxdigit.com 节点进行卸载。

二环境信息

| 主机名 | 状态|IP |磁盘 |角色|
| ---- | ---- | ---- | ---- | ---- | ---- |—|
| cephtest001.ceph.kxdigit.com |已完成|10.3.176.10 | 系统盘：/dev/sda 数据盘：/dev/sdb /dev/sdc /dev/sdd |ceph-deploy,monitor,mgr,mds,osd|
| cephtest002.ceph.kxdigit.com |已完成 |10.3.176.16 | 系统盘：/dev/sda 数据盘：/dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdf |monitor,mgr,mds,osd|
| cephtest003.ceph.kxdigit.com |已完成(待删除节点)|10.3.176.44 | 系统盘：/dev/sda 数据盘：/dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdf /dev/sdg |monitor,mgr,mds,osd|
| cephtest004.ceph.kxdigit.com |已完成|10.3.176.36 | 系统盘：/dev/sda 数据盘：/dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdf(待纵向扩容) |monitor,mgr,mds,osd|

三实施

(一)ceph 集群当前状态

3.1.1 集群健康状态

可见 cephtest003 上有 mon，mgr，osd 服务。

[cephadmin@cephtest001 ~]$ ceph -s
  cluster:
    id:     6cd05235-66dd-4929-b697-1562d308d5c3
    health: HEALTH_WARN
            1 pools have many more objects per pg than average

  services:
    mon: 4 daemons, quorum cephtest001,cephtest002,cephtest003,cephtest004 (age                                                                13d)
    mgr: cephtest001(active, since 7w), standbys: cephtest002, cephtest003, ceph                                                               test004
    osd: 19 osds: 19 up (since 11d), 19 in (since 11d)
    rgw: 1 daemon active (cephtest004)

  task status:

  data:
    pools:   8 pools, 400 pgs
    objects: 24.12k objects, 167 GiB
    usage:   522 GiB used, 70 TiB / 71 TiB avail
    pgs:     400 active+clean

  io:
    client:   77 KiB/s rd, 341 B/s wr, 85 op/s rd, 0 op/s wr

3.1.2 osd 状态

可见 cephtest003 上有osd.8\osd.9\osd.10\osd.11\osd.12\osd.13 共6块osd。

[cephadmin@cephtest001 cephcluster]$ ceph osd tree
ID CLASS WEIGHT   TYPE NAME            STATUS REWEIGHT PRI-AFF
-1       70.57448 root default
-3        3.26669     host cephtest001
 0   hdd  1.08890         osd.0            up  1.00000 1.00000
 1   hdd  1.08890         osd.1            up  1.00000 1.00000
 2   hdd  1.08890         osd.2            up  1.00000 1.00000
-5        5.45547     host cephtest002
 3   hdd  1.09109         osd.3            up  1.00000 1.00000
 4   hdd  1.09109         osd.4            up  1.00000 1.00000
 5   hdd  1.09109         osd.5            up  1.00000 1.00000
 6   hdd  1.09109         osd.6            up  1.00000 1.00000
 7   hdd  1.09109         osd.7            up  1.00000 1.00000
-7       43.66132     host cephtest003
 8   hdd  7.27689         osd.8            up  1.00000 1.00000
 9   hdd  7.27689         osd.9            up  1.00000 1.00000
10   hdd  7.27689         osd.10           up  1.00000 1.00000
11   hdd  7.27689         osd.11           up  1.00000 1.00000
12   hdd  7.27689         osd.12           up  1.00000 1.00000
13   hdd  7.27689         osd.13           up  1.00000 1.00000
-9       18.19099     host cephtest004
14   hdd  3.63820         osd.14           up  1.00000 1.00000
15   hdd  3.63820         osd.15           up  1.00000 1.00000
16   hdd  3.63820         osd.16           up  1.00000 1.00000
17   hdd  3.63820         osd.17           up  1.00000 1.00000
18   hdd  3.63820         osd.18           up  1.00000 1.00000
[cephadmin@cephtest001 cephcluster]$

(二)方法一移除cephtest003节点上所有osd（cephtest003 机器上操作）

逐个删除该节点上所有osd，先把数据迁移走，然后再删除。
###3.2.1 调整osd的crush weight（osd.8 为例）
cephadmin 用户登录cephtest003 ，

[cephadmin@cephtest003 ~]$ ceph osd crush reweight osd.8 0.1
reweighted item id 8 name 'osd.8' to 0.1 in crush map

执行了之后，把osd.8 里数据迁移出来较慢，并且还会迁移到该节点cephtest003 其他机器上。
现在改为另一种方法移除cephtest003

(三)方法二移除cephtest003节点上所有osd（cephtest003 机器上操作）

该方法直接关闭节点osd 服务，直接删除各个osd。

3.3.1 停掉cephtest003 osd 服务

先看下当前节点osd 服务。

[cephadmin@ce

最低0.47元/天解锁文章

ceph 维护系列（一）删除一个ceph 节点

零 修订记录

一 摘要

二 环境信息

三 实施