Cassandra解决单个磁盘损坏的情况

Cassandra一个节点的磁盘坏了，分两种情况，一种是节点还可以正常启动。另外一种是节点无法启动。

第一种情况：节点还可以正常启动

1、把坏的盘换掉，如果你没有新的盘去更换，你可以在cassandra.yaml里直接把坏的盘注释掉

2、启动cassandra，如果启动的过程中报错，说找不到keyspace之类的，那你应该使用第二种情况的解决方案。

3、使用nodetool repair修复该节点丢失的数据。

第二种情况：节点无法正常启动

1、把坏的盘换掉，如果你没有新的盘去更换，你可以在cassandra.yaml里直接把坏的盘注释掉

2、在正常的节点上执行：
$ nodetool ring | grep ip_address_of_node | awk ‘ {print $NF “,”}’ | xargs

从而获取到坏掉节点的tokens，把它们（用逗号分割）配置到cassandra.yaml的initial_token 选项中。

3、在cassandra.yaml设置配置项：
auto_bootstrap: false

这一步官方文档漏掉了，参考
https://issues.apache.org/jira/browse/CASSANDRA-11365

4、删除你所有数据盘下面的system目录。

rm -fr /mnt1/cassandra/data/system
rm -fr /mnt2/cassandra/data/system
。。。。

5、启动cassandra，如果启动的过程中报错，说schema不存在之类的属于正常情况，system库会自动重建，只要节点可以正常加入集群就算正常。

6、同样使用nodetool repair修复该节点丢失的数据。

除非注明，赵岩的博客文章均为原创，转载请以链接形式标明本文地址
本文地址：http://zhaoyanblog.com/archives/920.html

施说道：

2020年7月21日下午2:38

启动 cassandra时报错如下：上面的方法尝试还是起不来，大神求帮助！
at org.apache.cassandra.service.CassandraDaemon.main(CassandraDaemon.java:680) [apache-cassandra-3.5.jar:3.5]
1103
Caused by: org.apache.cassandra.io.sstable.CorruptSSTableException: Corrupted: /opt/dbdata/cassandra/data/system/peers-37f71aca7dc2383ba70672528af04d4f/ma-38-big-Data.db
1104
at org.apache.cassandra.io.compress.CompressedRandomAccessReader.reBufferMmap(CompressedRandomAccessReader.java:218) ~[apache-cassandra-3.5.jar:3.5]
1105
at org.apache.cassandra.io.util.RandomAccessReader.reBuffer(RandomAccessReader.java:111) ~[apache-cassandra-3.5.jar:3.5]
1106
at org.apache.cassandra.io.util.RandomAccessReader.seek(RandomAccessReader.java:302) ~[apache-cassandra-3.5.jar:3.5]
1107
at org.apache.cassandra.io.sstable.format.big.BigTableScanner.seekToCurrentRangeStart(BigTableScanner.java:186) ~[apache-cassandra-3.5.jar:3.5]
1108
at org.apache.cassandra.io.sstable.format.big.BigTableScanner.access$200(BigTableScanner.java:51) ~[apache-cassandra-3.5.jar:3.5]
1109
at org.apache.cassandra.io.sstable.format.big.BigTableScanner$KeyScanningIterator.computeNext(BigTableScanner.java:285) ~[apache-cassandra-3.5.jar:3.5]
1110
… 19 common frames omitted
1111
Caused by: org.apache.cassandra.io.compress.CorruptBlockException: (/opt/dbdata/cassandra/data/system/peers-37f71aca7dc2383ba70672528af04d4f/ma-38-big-Data.db): corruption detected, chunk at 0 of length 9717.
1112
at org.apache.cassandra.io.compress.CompressedRandomAccessReader.reBufferMmap(CompressedRandomAccessReader.java:187) ~[apache-cassandra-3.5.jar:3.5]
1113
… 24 common frames omitted

回复
祯二叔说道：

2016年4月7日下午3:15

神呐，问你个问题，如果有个sstable 损坏了，直接把这个xxxx.db 删掉,然后repair 可以不？

回复
1. 大岩不灿说道：
  
  2016年4月7日下午6:55
  
  ok
  
  回复
  1. 祯二叔说道：
    
    2016年4月7日下午8:46
    
    还有2个问题请教下：
    1.在repair的时候，有一张表比较大，一直提示墓碑很多，然后好几个节点就down了。这个怎么解释,是因为要repair的时候要加载索引到内存，导致jvm 不断GC 假死？因为执着repair 导致集群宕机。。
    2.repair一张表，但是这张表写入是数据没有设置ttl,这张表也没有做删除操作，但是，还是会提示墓碑警告？没有删除任何数据怎么会有墓碑产生，难道是因为有些列写入时候是null，cassandra 在repair的时候把null的列当做墓碑处理？
    
    回复
跨境电商平台说道：

2016年4月2日下午7:46

非常不错！！！！

回复

赵岩的博客

科技，编程，AI应用

Cassandra解决单个磁盘损坏的情况

留言取消

留言 取消

留言取消