Cassandra解决单个磁盘损坏的情况

Cassandra一个节点的磁盘坏了,分两种情况,一种是节点还可以正常启动。另外一种是节点无法启动。

第一种情况:节点还可以正常启动

1、把坏的盘换掉,如果你没有新的盘去更换,你可以在cassandra.yaml里直接把坏的盘注释掉

2、启动cassandra,如果启动的过程中报错,说找不到keyspace之类的,那你应该使用第二种情况的解决方案。

3、使用nodetool repair修复该节点丢失的数据。

第二种情况:节点无法正常启动

1、把坏的盘换掉,如果你没有新的盘去更换,你可以在cassandra.yaml里直接把坏的盘注释掉

2、在正常的节点上执行:
$ nodetool ring | grep ip_address_of_node | awk ‘ {print $NF “,”}’ | xargs

从而获取到坏掉节点的tokens,把它们(用逗号分割)配置到cassandra.yaml的initial_token 选项中。

3、在cassandra.yaml设置配置项:
auto_bootstrap: false

这一步官方文档漏掉了,参考
https://issues.apache.org/jira/browse/CASSANDRA-11365

4、删除你所有数据盘下面的system目录。

rm -fr /mnt1/cassandra/data/system
rm -fr /mnt2/cassandra/data/system
。。。。

5、启动cassandra,如果启动的过程中报错,说schema不存在之类的属于正常情况,system库会自动重建,只要节点可以正常加入集群就算正常。

6、同样使用nodetool repair修复该节点丢失的数据。

  1. 祯二叔说道:

    神呐,问你个问题,如果有个sstable 损坏了,直接把这个xxxx.db 删掉,然后repair 可以不?

      1. 祯二叔说道:

        还有2个问题请教下:
        1.在repair的时候,有一张表比较大,一直提示墓碑很多,然后好几个节点就down了。这个怎么解释,是因为要repair的时候要加载索引到内存,导致jvm 不断GC 假死?因为执着repair 导致集群宕机。。
        2.repair一张表,但是这张表写入是数据没有设置ttl,这张表也没有做删除操作,但是,还是会提示墓碑警告?没有删除任何数据怎么会有墓碑产生,难道是因为有些列写入时候是null,cassandra 在repair的时候把null的列当做墓碑处理?

  2. 跨境电商平台说道:

    非常不错!!!!

留言

提示:你的email不会被公布,欢迎留言^_^

*

验证码 * Time limit is exhausted. Please reload CAPTCHA.