博客文章 | 赵岩的技术笔记

Cassandra的数据分布和副本（一致性hash原理）

一致性hash设计出来的目的是: 根据数据的hash值把数据分布在n个节点上，当新增一个节点或者删除一个节点后根据算法重新计算，可以保证大部分数据都分布在原来节点上，只需要移动少部分数据即可。再具体一点，当删除一个节点，只要把属于这个节点上的数据移动到其它节点上，当增加一个节点，只要从其它节点上把属于这个节点的数据自动过来。而保持不动的节点之间不需要数据移动。下面是具体原理: Cassandra的对数据key的hash值范围是long的最小值到long的最大值。每个节点默认负责这个单位内的256个范围。我们这里用4个范围代替。首先我们用一个圆(hash环)来表示整个hash范围。然后每个节点随机取4个点，假设我们当前有三个节点(A，B，C)，如下图所示：整个hash环就被分割为了12段，顺时针去看，A和B之间的hash段就属于A，B和C之间的hash段就属于B，以此类推。一条数据的分区key的hash值落在哪个段里，就存到对应的机器上。现在看如果要增加一个节点。我们同样在圆上增加随机的4个点。这样整个圆被分割成了16个段，同样顺时针看，我们发现大多数分段仍然属于原来的节点，只有四个小段属于了新节点D，也就是说只要移动这四个小段的数据到新节点D上，我们就完成了数据的再均衡，完成了节点扩容。同样的如果用想退役D节点，只要把对应的分段的数据再挪回去，就完成了缩容。而大部分数据不需要移动。这个算法就叫做一致性hash算法。

Cassandra节点间通信协议(Gossip协议）

Gossip协议是一个点对点协议，Cassandra用于两个节点间相互交换他们的状态信息，以及他们所知道的其它节点的信息。Gossip线程每秒执行一次随机和集群内其它三个节点进行信息交换。交换的信息包括他们自己的信息，以及他们知道的其他节点的信息，所以所有节点很快就可以得到整个集群节点的信息。每个交换的gossip信息都有一个版本号，所以交换过程中较新的信息就会覆盖老的信息。为了避免通信异常，请确保每个节点的种子节点列表都一样，这对于一个节点的第一次启动很重要。通常一个几点会通过gossip记住所有后面启动的节点。种子节点的设计除了引导新加入集群的新节点启动gossip进程以外，没有其它目的。种子节点不是单点故障，除了引导新节点启动外，没有任何其它特殊目的。注意:在多数据中心的集群里，种子列表应该包含每个数据中心的至少一个节点(建议每个数据中心多于一个节点，用于容错)，因为节点启动的时候还需要和另外数据中心的节点进行通信。不推荐把每个节点都作为种子节点，因为这增加了维护成本还降低了gossip性能。gossip方面的优化不是很重要，但是还是建议使用一个较小的种子列表(每个数据中心三个节点差不多了) 集群内节点故障检测和恢复都是通过gossip实现的. 故障检测是本节点通过gossip状态和历史信息确定集群中另外一个节点是挂掉了还是恢复了的一种方法。Cassandra从而避免把客户端的请求路由到不可达的节点上。(Cassandra还可以根据动态的策略，避免把消息发送到负载高的节点上)。 Gossip线程可以直接或者间接的跟踪其它节点的状态。(就是说这些节点状态的信息，可能是对应节点直接发给它的，也有可能是通过别的节点转发过来的二手，三手信息)。 Cassandra并不是通过一个固定的阈值来判断一个节点挂掉了。而且有一套动态的检测机制来计算每个节点的阈值，考虑了网络、负载、历史状态等因素。在gossip信息交换的过程中，每个节点都记录了从其它节点获取到的消息的时间窗口信息。配置文件里的phi_convict_threshold配置项可以调节失败检测的灵敏度。这个值越小，一个节点被标记为DOWN状态的几率就越大，值越大反而减少一个节点因为瞬间故障被标记为Down状态的概率。大多数情况下这个值保持默认就可以。但是在亚马逊云E2上可以把它提高到10～12，(亚马逊云经常有网络拥塞)。对于不稳定的网络环境(比如E2)，提高到10～12可以减少故障误判。不推荐这个值大于12或者小于5。节点故障可能是多种原因造成的，比如硬件故障，网络中断。节点中断往往是临时性的，但可能持续很长时间。节点中断通常并不意味着它永久脱离集群，所以cassandra并不会自动把故障的节点从集群hash环中删除掉，其它节点会定时的尝试联系这个节点以判断它是否恢复。如果想是永久性的操作，管理员必须使用nodetool工具或者从opscenter上明确的添加或者删除某个节点。当一个节点从中断中恢复，他可能错过了很多写操作。一旦一个节被检测为故障中断，数据的其它副本所在的节点会帮它记录错过的写操作(记作hints)一段时间，前提是这个功能已配置启用。不过一个节点挂掉的时间太久，超过了max_hint_window_in_ms配置的值(默认3小时)，hints就不再记录。那些挂掉的节点也有可能存储了一些未送达的hints。所以在恢复一个挂掉很久的节点后，请执行repair操作。而且，你应该定期执行noodtool repair命令以保证节点间数据一致性。在cassandra中，数据的分布和副本要一起看，数据通过一个个的表组织起来，由一个主键确定数据存储在哪个节点上。副本就是一行数据的多个拷贝，当数据第一次写入的时候，其实我可以称为一个副本。影响数据副本分布的因素包括: 虚拟节点:用于数据和物理节点映射关系。分区:对集群中的数据进行分区副本策略:确定每行数据的副本数告密者: 对集群中节点拓扑关系的一种定义，副本策略根据它来放置副本。 Cassandra采用一致性hash算法来计算数据如何在节点上分布。使用一致性hash的目的是就是当增加或者移动一个节点的时候，只要移动很小的数据就可以完成数据的再均衡。每条数据的第一个主键叫分区主键，分区主键的hash值落在哪个节点内，这条数据就分布在哪个节点。其它副本就落在hash环上的下一个节点上。

Cassandra如何选择压缩策略

SSTable的压缩是Cassandra的重要设计之一，墓碑的删除，数据的合并都依赖压缩才能完成，目前Cassandra有四种压缩策略，其中的一种已经被废弃。压缩除了解决墓碑等根本问题外，选择不同的压缩策略也影响你的读写性能和集群稳定性。至于如何选择压缩策略，官方有一系列问句帮你决定: 你存储的是和时间序列有关的数据吗？如果是的，那么最佳的压缩策略就是TWCS，如果不是请继续后面的问题。你的表是读多写少，还是写多读少？如果读是写的两倍以上，特别是随机读的场景，建议用LCS策略，如果读和写差不多，用LCS引起的性能缺失和带来的好处相比，可能并不划算了。注意LCS策略很容易被大量的写击垮的。你的表里的数据更新频繁吗？ LCS的一个好处就是让有关联的数据集中在一组SSTable文件里。如果你的数据更新不频繁甚至是不更新的，用STCS也可以达到这样的目的，而不会有LCS带来的性能牺牲。你是否需要可预测的读写？这一段比较难以理解，博主用白话描述:你是否需要服务级别的读，就是对读的tps和时延是都有要求。如果有的话，即便是你的读写比很小，还是建议用LCS，因为LCS可以控制SSTable的数量和大小，从而保证稳定的读时延，当然写性能就会受到影响，不过这一点你可以通过扩节点的方式解决～你的表是否有大量的batch提交？对于批量读和写，STCS的性能要优于LCS。批量提交不会引起太多的碎片文件，所以LCS的好处体现不出来，而且大量的批处理可能会击垮LCS策略的表。你的磁盘空间是否有限？在磁盘利用效率方面LCS要比STCS好，它只需要相比存储的数据10%的额外冗余空间，而STCS和DTCS需要50%以上的空间。注意DTCS已经废弃了。你的系统IO是否到达瓶颈？ LCS比DTCS和STCS产生更多的密集IO操作，切换到LCS带来的额外IO开销可能会抵消它所带来的优势。通过上述问题，你是否知道自己应该选择什么样的压缩策略了吗？不要盲目做决定，建议你在正式上线前创建三个节点，设置你选择的策略，使用cassandra-stress对你的系统做个压力测试。

Cassandra有关系统参数九点优化

Cassandra不同于普通的应用程序，它是分布式数据库，它要大口吃内存，吃磁盘，吃CPU，所以机器要进行特殊的配置，以适应其需要。第一：使用最新的64位的jdk8的最新发布版本。第二：时钟同步，开启NTP服务，cassandra是分布式存储，就靠时间戳解决数据冲突，所以始终必须同步第三：TCP参数设置在低带宽环境下，防火墙会检测闲置的连接并关闭，为了保护节点之间，或者多个DC节点之间的连接，建议如下配置系统参数 sudo sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_probes=3 net.ipv4.tcp_keepalive_intvl=10 设置这个就是可以快速的发现底层的TCP连接是否已经关闭，它间隔60秒开始探测3次，每次探测间隔10秒，也就是说最多在60+3*10=90秒内就可以检测到连接被中断。为了支撑上千个数据库连接，还建议修改以下参数 sudo sysctl -w net.core.rmem_max=16777216 net.core.wmem_max=16777216 net.core.rmem_default=16777216 net.core.wmem_default=16777216 net.core.optmem_max=40960 net.ipv4.tcp_rmem=4096 87380 16777216 net.ipv4.tcp_wmem=4096 65536 16777216 为了让参数永久生效，记得把它们写入系统配置文件/etc/sysctl.conf里第四：禁用CPU动态跳频功能。最近的linux系统增加了一个新特性，就是可以动态调整CPU频率，就是在机器低负载的时候，可以降低CPU频率，以达到降低功耗的目的。这种动态调频功能会影响cassandra数据库的吞吐量。建议禁用，让CPU一直维持恒定的频率输出，尽管这很耗电，但是保证你的数据库的吞吐量。禁用方式： for CPUFREQ in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor do [ -f $CPUFREQ ] || continue echo -n performance > $CPUFREQ done 第五：禁用zone_reclaim_mode 官方建议禁用，这个是关于多核CPU使用NUMA架构，分别访问内存，内存回收方面的一个参数这个参数的解释，可以参考： http://linuxinsight.com/proc_sys_vm_zone_reclaim_mode.html 这里面有一句话，当你的机器用作文件服务器，或者你的大部分内存需要用于系统文件缓存的时候，你需要禁用这个功能。我们的Cassandra就相当于文件服务器，它对IO是依赖的，它需要系统内存用于大量缓存DB文件。所以要禁用这个功能。 echo 0 > /proc/sys/vm/zone_reclaim_mode Cassandra官方描述了如果不禁用这个参数带来的后果： 1、随机CPU尖峰带来时延增加，吞吐量增加。 2、程序假死，什么也不做。 3、一些突然发生又消失的莫名异常。 4、重启机器，可能在一段时间内不再出现异常。第六：资源限制放开。 cassandra会使用很多内存，很多连接，很多文件，所以一律放开。 <cassandra_user> - memlock unlimited <cassandra_user> - nofile 100000 <cassandra_user> - nproc 32768 <cassandra_user> - as unlimited ...

Cassandra的jvm内存设置多大合适

cassandra是java写的程序，java写的程序难以避免会遇到GC的问题，第一个问题就是jvm的内存设置多大合适，这往往是让人很纠结的事情。以下来自官方建议：首选是GC类型如何选择推荐G1 GC有以下原因： 1、内存可以从14GB到64GB，G1在大内存上比CMS表现好，因为G1首选会扫描那些堆内区域包含垃圾对象比较多，并同时进行堆压缩，而CMS在执行GC的时候需要停止应用。 2、系统的负载是个变量，也就是说系统每个时间都在执行不同的线程操作。 3、CMS在java9以后就会被废弃 4、G1是很容易配置的 5、G1是一种自我优化的GC 6、你只要设置MAX_HEAP_SIZE就行了。当然G1 GC这种分析会导致一定时延。 CMS通过在以下情形下被推荐使用： 1、你有足够的时间和专业知识来手动优化调试垃圾手机。注意当数据库内存里保持了更多的系统元数据的时候，增加更大的内存给jvm，会因为GC而导致性能下降。 2、堆大小不超过14GB. 3、系统负载是固定的，也就是说集群一致在执行相同的工作。 4、环境需要更低的时延。备注：不建议在java7下使用G1，因为G1在java7下有个bug关于类卸载的问题，在java7里PermGen会被一直填满，直到发生一个full GC。其次是内存大小如何设置你可能试图把java的内存设置为接近系统的RAM大小，显然这是不可能的，因为这会干扰操作系统的页面缓存的操作。操作系统把频繁访问的数据保存到内存里，也就是操作系统的页面缓存，这个是很有用的。适当调整操作系统的页面缓存通常比使用cassandra的row cache还好。 cassandra会基于以下公式，自动计算最堆内存（MAX_HEAP_SIZE）： max(min(1/2RAM, 1024M), min(1/4RAM, 32G)) 对于生产环境，我们提供以下指导原则： 1、堆内存一般在操作系统内存的四分之一和二分之一之间 2、不要把所有的内存都给jvm，因为内存还要用于堆外缓存以及操作系统缓存。建议在优化GC的时候始终开启GC日志。 3、针对每个配置项的变化进行调整和测试 4、启用GC的并行处理，特别是使用cassandra企业版的索引检索。 5、GCInspector类的日志会对超过200ms的GC，打印日志。如果这样的GC频繁发生，或者需要很长的时间才能完成GC，那么表示当前压力已经超过GC能力范围，除了优化GC选项以外，其它的措施还包括扩容节点，降低缓存大小等。 6、如果是使用的G1 GC。Datastax官方建议最大内存MAX_HEAP_SIZE越大越好，可以到64GB. MAX_HEAP_SIZE的大小设置根据使用的GC类型而定： 1、对于超过8C256G内存的机器，使用G1 GC建议MAX_HEAP_SIZE在14G到64GB之间 2、对于超过8C256G内存的机器，使用CMS GC建议MAX_HEAP_SIZE不要超过14GB 3、其它较老的机器，配置典型值8G 对于CMS，你可能还要优化HEAP_NEWSIZE(新生代的堆大小） Cassandra的计算原则是 min(100M* cpu核心数， 1/4 MAX_HEAP_SIZE) 总之：HEAP_NEWSIZE越大停顿时间越长，HEAP_NEWSIZE越小可能更频繁，这个过程更加昂贵。博主建议不要再纠结，用jdk8，G1 GC，内存在1/4ram和1/2ran之间，越大越好，不要超过64G。

Mysql是如何做到安全登陆

首先Mysql的密码权限存储在mysql.user表中。我们不关注鉴权的部分，我们只关心身份认证，识别身份，后面的权限控制是很简单的事情。在mysql.user表中有个authentication_string字段，存储的是密码的两次sha1值。你可以用下面的语句，验证和mysql.user表中存储的是一致的。 select sha1(UNHEX(sha1(‘password’))) 以上就是服务端关于密码的存储，接下来是认证过程。 Mysql采用的是一种challenge/response（挑战-应答）的认证模式。第一步：客户端连接服务器第二步：服务器发送随机字符串challenge给客户端第三步：客户端发送username+response给服务器其中response=HEX(SHA1(password) ^ SHA1(challenge + SHA1(SHA1(password)))) 第四步：服务器验证response。服务器存储了SHA1(SHA1(password))) 所以可以计算得到SHA1(challenge + SHA1(SHA1(password)))) 那么SHA1(password)=response^ SHA1(challenge + SHA1(SHA1(password)))) 最后再对SHA1(password)求一次sha1和存储的数据进行比对，一致表示认证成功。我们分析它的安全性： 1、抓包可以得到response，但是每次认证服务器都会生成challenge，所以通过抓包无法构造登陆信息。 2、数据库内容被偷窥，数据库记录的是sha1(sha1(password))，不可以得到sha1(password)和明文密码，所以无法构造response，同样无法登陆。当然如果被抓包同时数据库泄密，就可以得到sha1(password)，就可以仿冒登陆了。这种认证方式其实是有一个框架标准的，叫做SASL(Simple Authentication and Security Layer )，专门用于C/S模式下的用户名密码认证。原理就是服务器发送一个挑战字challenge给客户端，客户端返回的response证明自己拥有密码，从而完成认证的过程，整个过程不需要密码明文在网络上传输。基于SASL协议有很多实现，mysql的就是模仿的CRAM-MD5协议，再比如SCRAM-SHA1协议，是mongdb、PostgreSQL 使用的认证方式。在JDK中专门有一套SASL的API，用于实现不同的SASL认证方式。

[新闻]华为荣耀9要来了

日前，华为官方宣布，荣耀9将在6月12日上海东方体育中心正式发布，其代言人为胡歌。还记得美得与众不同的荣耀8吗？从荣耀掌门人赵明的微博中得知，荣耀9将作为魅海蓝正宗继承者，作为荣耀年度美学旗舰产品发布。这样看来十分让人期待。官方可靠谍照：

[翻译]关于Cassandra中的删除和墓碑（七）

单SSTable压实单SSTable压实是在cassandra1.2引入的，是由Jonathan Ellis在CASSANDRA-3442最新提出来的：在Size压实模式下，你可能会产生很大的SSTable，很少被压实，但是有很多过期的数据在里面，我们在这种情况下可能浪费了大量的磁盘空间。就像我们上面提到的，压实的目的就是墓碑的剔除，在一定的场景下，压实操作并没有很好的剔除墓碑。不仅仅是这里提到的Size模式的压实（STCS），所有的压实模式都有这种情况。一些SSTable文件很久才会被压一次或者很长时间都会有重叠的SSTables（译者注：表示不能合并ROW）。这也是为什么，时至今天，每个压实模式都会有一堆的配置项用于调节墓碑的剔除。 tombstone_threshod: 这个配置项的作用就是Jonathan Ellis 在2011年提出的：如果一个SSTable在它的元数据信息里保存它含有的ttl记录的统计数据，我们就可以当过期数据超过20%的时候，进行一次单SSatble压实操作。所以当墓碑占有率超过这个值(默认等于0.2，也就是20%）的时候，这个选项就会触发一次单SStable压实。需要注意的是，那些真正可以被剔除的墓碑经常小于估值，因为计算这个墓碑占有率的时候，并未考虑gc_grace_secods参数。 tombstone_compaction_interval: 这个选项是在CASSANDRA-4781中被引入，目的是为了解决一个死循环问题，当一个SSTable文件的墓碑占有率达到了触发一次单SStable压实的操作，但是由于和别的SStable有重叠，导致无法清除墓碑。因为我们要删除一个文件的所有碎片，以防止僵尸数据产生。这种情况下一些SStable的压实操作可能无休止的进行下去。既然一个SStable里还有的墓碑率是个估值，那么我这个选项就用于限制两次单SStable压实操作的最小间隔时间，默认是1天。 unchecked_tombstone_compaction：是Paulo Motta在CASSANDRA-6563引入的。在这个问题单里他描述了单个SSTable压实的历史和他引入这个参数的原因，非常有趣。我是无法更好的去解释它。（译者注：意思是你可以直接去看问题单。）注意此选项配置为true以后，就会出发一个SStable一天一次的压实（tombstone_compaction_interval默认），只要墓碑占有率（估计值）高于0.2（20%是墓碑，这个是tombstone_threshold默认值），最坏的情况就是即便是没有任何墓碑是可以被剔除的也会执行一次压实。所以最好是多投入一些资源（多加一些机器？）希望让墓碑的剔除更好的进行。推荐做法：当一个DC已经在删除墓碑上有麻烦了，立即使用下这个参数，应该是值得的。我在使用这个选项上，已经有一些很成功的经验以及一些不是很糟糕的经验。相反的也有一些很少场景，这个选项实际上并没有什么作用。我甚至有一次设置这个选项为true除非手动压缩。把一些磁盘已经100% 马上挂掉的机器恢复了正常。要修改这些配置的时候，先查看表的描述。然后重新指定整个压实策略，以避免一些意外。假设我想修改tlp_lab库里tombstones表的压实参数，我会这样做： MacBook-Pro:~ alain$ echo "DESCRIBE TABLE tlp_lab.tombstones;" | cqlsh CREATE TABLE tlp_lab.tombstones ( fruit text, date text, crates set, PRIMARY KEY (fruit, date) ) WITH CLUSTERING ORDER BY (date ASC) AND bloom_filter_fp_chance = 0.01 AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'} AND comment = '' AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'} AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'} AND crc_check_chance = 1.0 AND dclocal_read_repair_chance = 0.1 AND default_time_to_live = 0 AND gc_grace_seconds = 864000 AND max_index_interval = 2048 AND memtable_flush_period_in_ms = 0 AND min_index_interval = 128 AND read_repair_chance = 0.0 AND speculative_retry = '99PERCENTILE'; 然后我会复制这些压实选项，并修改它： ...

[翻译]关于Cassandra中的删除和墓碑（六）

墓碑清除只有在local_delete_time + gc_grace_seconds以后墓碑才会在压实的时候完全清除掉。记住，这是假定所有节点都在gc_grace_seconds时间内repair过了，以保证墓碑在所有节点上都正确分布，这是为了防止删除的数据再出现，上面已经说过了。 gc_grace_seconds参数是墓碑在磁盘上存在的最短时间。我们需要保证所有的副本都收到了这个删除操作，并且写入了墓碑，从而避免僵尸数据的问题。为了达到这个目的，我们唯一的方法就是全量repair。在gc_grace_seconds以后，墓碑最终会请清除，如果其中一个节点没有写入这个墓碑，我们就会进入上面描述的数据又出现的境地。TTL没有影响，因为没有节点可以保留数据而错过ttl，它是一个原子操作，数据和ttl是一条记录。任何有数据的节点都知道什么时候必须删除数据。另外，为了删除数据和墓碑，还有一些安全守则需要Cassandra节点必须遵守。我们需要一行数据或者一个分区key的所有的片段数据以及墓碑都要在同一个压实中。假设一个压实操作包含1-4个文件，如果一些数据在文件5上面，墓碑被清除后，我们仍需要留下一个标记数据（译者注:墓碑）,表示文件5里的数据被清除了，否则文件5里的数据又会回来了（成为僵尸数据）。这些条件有时候让删除墓碑成为一件很复杂的事情，它经常给Cassandra的使用者带来麻烦。墓碑不被清除意味着占用更多的磁盘，更慢的读，以及更多的repair工作，高概率的GC压力，更多的资源利用等等。当你的sstable的墓碑占到一个很高的的比率（90%的数据都是墓碑），读取一个值或者一段相关的数据会变的相当困难，存储的成本也越来越高。这些问题最终会导致磁盘空间耗尽。很多使用情况下会导致数据删除（TTL或者delete操作），作为Cassandra的使用者我们必须克制，控制这些事情。再次回到我们这个例子，我重启了这个节点在很多天以后（>10天，gc_grace_seconds的默认值）。Cassandra重新打开压实过的mb-14-big文件，它立马又进行了压实操作。 MacBook-Pro:tombstones alain$ grep ‘mb-14-big’ /Users/alain/.ccm/Cassa-3.7/node1/logs/system.log DEBUG [SSTableBatchOpen:1] 2016-06-28 15:56:17,947 SSTableReader.java:482 - Opening /Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/mb-14-big (0.103KiB) DEBUG [CompactionExecutor:2] 2016-06-28 15:56:18,525 CompactionTask.java:150 - Compacting (166f61c0-3d38-11e6-bfe3-e9e451310a18) [/Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/mb-14-big-Data.db:level=0, ] 此时，gc_grace_seconds已经过去了，墓碑有条件被清除了，所以所有的墓碑都被清除了，最后表里没有任何数据了，数据目录最终也是空的： MacBook-Pro:tombstones alain$ ll /Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/ total 0 drwxr-xr-x 3 alain staff 102 Jun 28 15:56 . drwxr-xr-x 3 alain staff 102 Jun 16 20:25 .. MacBook-Pro:tombstones alain$ 如果墓碑在所有副本都都正确存在，我们就会有完全一致的删除操作，删除的数据就不会再出现。而且我们还可以释放一些磁盘空间，让其他数据的读变的更容易，尽管为了证明这个事情，我的例子有点傻，但最后这个表是完全变空了。监控墓碑比率和到期时间因为Cassandra的设计，当我们删除数据或者使用ttl的时候很正常的就产生了墓碑。当然这个是我们必须要控制的。使用sstablemetadata我们可以指定一个sstable的墓碑占有率，以及一个大概的墓碑清除时间分布情况。 alain$ SSTablemetadata /Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/mb-14-big-Data.db – Estimated droppable tombstones: 2.0 – Estimated tombstone drop times: 1466154851: 2 1466156036: 1 1466156332: 1 – ...

[翻译]关于Cassandra中的删除和墓碑（五）

减轻墓碑带来的麻烦好了，现在我们已经明白为什么我们要用墓碑，我们对墓碑也有一个大致的了解了。现在让我们看看墓碑会引起哪些潜在的麻烦，我们可以采取哪些措施来减轻这些麻烦。首先一个很显而易见的事情就是墓碑没有让数据被删掉，反而增加了存储。我们需要删除这些墓碑以腾出磁盘空间，并且限制读出无用数据的大小，以降低时延和提高资源利用率。这个事情就发生在接下来你看到的压实的过程。压实（Compactions）当我们读取某一行数据的时候，为了读取到这一行数据的所有片段，我们翻阅的SSTables阅读，读时延就越大。因此我们有必要把这些片段通过压实的过程把他们合并，以获得更低的读时延。这个过程包括把合适的目标也清除掉，如我所愿的持续释放可用的空间。压实的过程是通过合并来自多个sstable的row片段，去删除满足一定条件的墓碑。有些条件是在表的schema中指定的，而且是可以优化可调节的，比如gc_grace_seconds参数，有些条件是cassandra内部的，代码里写死的，这是为了保证数据持久化和一致性。要保证没有参与当前压实的sstable（重叠sstables）里没有新的数据片段，这是防止墓碑被清掉以后，数据又出现成为僵尸数据的必要条件。再看上面的例子，经过删除和flush以后，表数据目录大致如下： alain$ ll /Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/ total 360 drwxr-xr-x 43 alain staff 1462 Jun 17 11:39 . drwxr-xr-x 3 alain staff 102 Jun 16 20:25 .. drwxr-xr-x 2 alain staff 68 Jun 16 17:05 backups -rw-r–r– 1 alain staff 43 Jun 17 11:13 mb-10-big-CompressionInfo.db -rw-r–r– 1 alain staff 43 Jun 17 11:13 mb-10-big-Data.db -rw-r–r– 1 alain staff 10 Jun 17 11:13 mb-10-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 17 11:13 mb-10-big-Filter.db -rw-r–r– 1 alain staff 9 Jun 17 11:13 mb-10-big-Index.db -rw-r–r– 1 alain staff 4701 Jun 17 11:13 mb-10-big-Statistics.db -rw-r–r– 1 alain staff 59 Jun 17 11:13 mb-10-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 17 11:13 mb-10-big-TOC.txt -rw-r–r– 1 alain staff 43 Jun 17 11:33 mb-11-big-CompressionInfo.db -rw-r–r– 1 alain staff 53 Jun 17 11:33 mb-11-big-Data.db -rw-r–r– 1 alain staff 9 Jun 17 11:33 mb-11-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 17 11:33 mb-11-big-Filter.db -rw-r–r– 1 alain staff 9 Jun 17 11:33 mb-11-big-Index.db -rw-r–r– 1 alain staff 4611 Jun 17 11:33 mb-11-big-Statistics.db -rw-r–r– 1 alain staff 59 Jun 17 11:33 mb-11-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 17 11:33 mb-11-big-TOC.txt -rw-r–r– 1 alain staff 43 Jun 17 11:33 mb-12-big-CompressionInfo.db -rw-r–r– 1 alain staff 42 Jun 17 11:33 mb-12-big-Data.db -rw-r–r– 1 alain staff 10 Jun 17 11:33 mb-12-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 17 11:33 mb-12-big-Filter.db -rw-r–r– 1 alain staff 9 Jun 17 11:33 mb-12-big-Index.db -rw-r–r– 1 alain staff 4611 Jun 17 11:33 mb-12-big-Statistics.db -rw-r–r– 1 alain staff 59 Jun 17 11:33 mb-12-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 17 11:33 mb-12-big-TOC.txt -rw-r–r– 1 alain staff 43 Jun 17 11:39 mb-13-big-CompressionInfo.db -rw-r–r– 1 alain staff 32 Jun 17 11:39 mb-13-big-Data.db -rw-r–r– 1 alain staff 9 Jun 17 11:39 mb-13-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 17 11:39 mb-13-big-Filter.db -rw-r–r– 1 alain staff 11 Jun 17 11:39 mb-13-big-Index.db -rw-r–r– 1 alain staff 4591 Jun 17 11:39 mb-13-big-Statistics.db -rw-r–r– 1 alain staff 65 Jun 17 11:39 mb-13-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 17 11:39 mb-13-big-TOC.txt -rw-r–r– 1 alain staff 43 Jun 17 11:12 mb-9-big-CompressionInfo.db -rw-r–r– 1 alain staff 127 Jun 17 11:12 mb-9-big-Data.db -rw-r–r– 1 alain staff 10 Jun 17 11:12 mb-9-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 17 11:12 mb-9-big-Filter.db -rw-r–r– 1 alain staff 20 Jun 17 11:12 mb-9-big-Index.db -rw-r–r– 1 alain staff 4740 Jun 17 11:12 mb-9-big-Statistics.db -rw-r–r– 1 alain staff 61 Jun 17 11:12 mb-9-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 17 11:12 mb-9-big-TOC.txt ...

[翻译]关于Cassandra中的删除和墓碑（四）

让我们现在看看各种类型的删除： cell删除在cassandra存储引擎里，一指定行里面的一列就叫做cell。删除某一行的某一个cell如下： DELETE crates FROM tlp_lab.tombstones WHERE fruit=‘apple’ AND date =‘20160617’; 这一行的crates列就会显示为“null”： alain$ echo “SELECT * FROM tlp_lab.tombstones LIMIT 100;” | cqlsh fruit | date | crates ———+———-+—————– apple | 20160616 | {1, 2, 3, 4, 5} apple | 20160617 | null pickles | 20160616 | {6, 7, 8} (3 rows) 执行flush以后，我们会得到一个新的sstable在磁盘上: mb-6-big alain$ ll /Users/alain/.ccm/Cassa-3.7/node1/data/tlp_lab/tombstones-c379952033d311e6aa4261d6a7221ccb/ total 144 drwxr-xr-x 19 alain staff 646 Jun 16 21:12 . drwxr-xr-x 3 alain staff 102 Jun 16 20:25 .. drwxr-xr-x 2 alain staff 68 Jun 16 17:05 backups -rw-r–r– 1 alain staff 43 Jun 16 20:53 mb-5-big-CompressionInfo.db -rw-r–r– 1 alain staff 127 Jun 16 20:53 mb-5-big-Data.db -rw-r–r– 1 alain staff 10 Jun 16 20:53 mb-5-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 16 20:53 mb-5-big-Filter.db -rw-r–r– 1 alain staff 20 Jun 16 20:53 mb-5-big-Index.db -rw-r–r– 1 alain staff 4740 Jun 16 20:53 mb-5-big-Statistics.db -rw-r–r– 1 alain staff 61 Jun 16 20:53 mb-5-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 16 20:53 mb-5-big-TOC.txt -rw-r–r– 1 alain staff 43 Jun 16 21:12 mb-6-big-CompressionInfo.db -rw-r–r– 1 alain staff 43 Jun 16 21:12 mb-6-big-Data.db -rw-r–r– 1 alain staff 10 Jun 16 21:12 mb-6-big-Digest.crc32 -rw-r–r– 1 alain staff 16 Jun 16 21:12 mb-6-big-Filter.db -rw-r–r– 1 alain staff 9 Jun 16 21:12 mb-6-big-Index.db -rw-r–r– 1 alain staff 4701 Jun 16 21:12 mb-6-big-Statistics.db -rw-r–r– 1 alain staff 59 Jun 16 21:12 mb-6-big-Summary.db -rw-r–r– 1 alain staff 92 Jun 16 21:12 mb-6-big-TOC.txt ...

[翻译]关于Cassandra中的删除和墓碑（三）

保存墓碑（原文Tombstones to the rescue 墓碑营救?）在Cassandra语境中，墓碑是一种特殊的数据和普通数据一样存储，一个删除操作，就是写入一个墓碑。当Cassandra读取数据的时候，它会合并这些内存里或者磁盘上写入的数据行。然后使用一种最新写入胜出(LWW)算法选择出正确的数据，不管它是个标准写入的数据，还是一个墓碑。举例：我们看下接下来的例子，背景是Cassandra 3.7集群，有3个节点(通过ccm创建的,译者注：ccm是个脚本程序可以快速的删除创建一个小Cassandra集群,github地址是：https://github.com/pcmanus/ccm) CREATE KEYSPACE tlp_lab WITH replication = {‘class’: ‘NetworkTopologyStrategy’, ‘datacenter1’ : 3}; CREATE TABLE tlp_lab.tombstones (fruit text, date text, crates set<int>, PRIMARY KEY (fruit, date)); 插入一些数据，每天创建一些水果（译者注：表里的字段的含义），如下： INSERT INTO tlp_lab.tombstones (fruit, date, crates) VALUES (‘apple’, ‘20160616’, {1,2,3,4,5}); INSERT INTO tlp_lab.tombstones (fruit, date, crates) VALUES (‘apple’, ‘20160617’, {1,2,3}); INSERT INTO tlp_lab.tombstones (fruit, date, crates) VALUES (‘pickles’, ‘20160616’, {6,7,8}) USING TTL 2592000; 下面就是我们存储的数据： alain$ echo “SELECT * FROM tlp_lab.tombstones LIMIT 100;” | cqlsh ...

[翻译]关于Cassandra中的删除和墓碑（二）

分布式删除的难题考虑上面的情况，强一致性是必须的，让我们暂且忘掉墓碑这个东西，假设cassandra删除数据不使用墓碑。如果一次删除操作在一个节点上失败了（总共3个节点，副本为3， RF=3).整个删除操作仍然被认为成功的（因为有两个节点应答成功，使用CL.QUORUM一致性）。接下来如果读发生在该节点上就会变的不明确，因为结果返回是空，还是返回数据，没有办法确定哪一种是正确的。Cassandra总是任务返回数据是对的，那就会发生删除的数据又出现了的事情，这些数据可以叫"僵尸"或者"鬼"，并且他们的表现是不可预见的注意：这个问题没有完全解决，即便使用了墓碑，所以假设你的集群有删除操作的话我们还要有如下操作: Cassandra运维人员必须在每个gc_grace_seconds周期内对整个集群进行repair操作。从一个Cassandra节点的视角看待删除 Cassandra使用一旦写入就不再改变的文件来存储数据，像前面描述，墓碑的目的就是为了解决从这样的系统中删除数据的困难的。 Cassanda的一个特种就是使用了一种日志结构合并树（LSM tree），然而大多数关系型数据库（RDBMS）是使用的B树（B-tree)。这样说你可能更容易理解:记住Cassandra写的时候总是往后追加数据，读的时候才会综合这些写入片段，选择每列的最大版本号去返回。 LSM Trees还有一个属性是数据写入文件中就不可以更改（这些文件在Cassandra中叫做SSTables）。正如最初讨论的那样，显然对于这样一个系统，删除只能通过一种特殊的写来实现。读的时候根据墓碑的时间戳，忽略小于这个时间戳之前插入的数据。

[翻译]关于Cassandra中的删除和墓碑（一）

从像apache cassandra这样的系统中，删除分布式主从复制的数据远比关系型数据库要复杂的多。当我们想到cassandra的数据是存在磁盘上的多个文件中，这个删除的过程变的超级有趣。在这样一个系统中，需要写入一个被称作墓碑(tombstone)的标记，用于记录一个删除操作，表示之前的值被删掉了。尽管你可能觉得这很不正常，或者难以理解(特别是当你意识到删除操作竟然是要占空间存储的），我们将用这篇博客，使用一些例子来解释这其中究竟发生了什么。 Cassandra：可用性和一致性的考虑在我们深入细节之前，我们需要快速回顾一下Cassandra作为一个分布式系统是怎么工作的，特别是关于可用性和一致性。这对于我们等会解释分布式删除，以及一些潜在问题，非常有必要。可用性：为了保证Cassandra可以复制数据，也就是说根据副本因子，存储的每一条数据都有多份拷贝。副本因子定义了每个keyspace（库的概念）在每个DC（数据中心）中的拷贝个数。通过配置，每个拷贝可以分布在不同的机架上，只要你有足够的机架，并且通过配置机架策略让系统考虑这些因素。有了这个，当任何一个节点(或者是一个机架，再说一遍，这个取决于你是否进行了配置)挂了，数据仍然可以通过其它副本进行读取。一致性：为了确保读取数据的强一致性，我们必须遵循下面的原则： CL.READ = 读一致性. 从至少多个节点得到读响应，我们才承认它是一个成功的操作. CL.WRITE = 写一致性，同上. RF = 副本因子（个数）要满足 CL.READ + CL.WRITE > RF，只有这样，我们才能保证至少有一个写入数据的节点被读到（译者注：好有道理）通常的例子：我们考虑下面的设置： RF = 3 CL.READ = QUORUM = RF/2 + 1 = 2 CL.WRITE = QUORUM = RF/2 + 1 = 2 CL.READ + CL.WRITE > RF –> 4 > 3 这样的配置，就有很高的可用性，没有单点故障(SPOF),我们可以承担挂掉一个机器的风险，因为我们可以保证有一个写数据的节点可以读到，再加上最新者写入者胜出(LWW)算法（译者注：记录以写入时间戳最新的为准），就可以知道哪个节点的数据是正确的。先把这种配置和做法记在脑子里，我们看一些执行删除的例子。

[翻译]Cassandra经常被问到的问题（三）

14、是不是单个seed意味着单点故障？即便没有seed节点，集群也可以运行和重启，但是不能再往集群里增加节点。还是推荐在生产系统中配置多个种子节点。 15、为什么不可以在jconsole里调用某个jmx方法呢？一些JMX操作的参数是个数组，而Jconsole并不支持数组型参数。对于那些不能用jconsole调用的操作（在jconsole里点击按钮无效）。有需要自己写一个JMX客户端去调用，或者使用一个支持数组的jmx监控工具。 16、为什么我会在日志文件里看到 “… messages dropped …“这样的信息？这是cassandra在面对超出自己处理能力的请求时，为了保护自己做出的流控措施。一个节点接收到其它节点发送过来的消息，但是在他们合适的超时时间内不能得到处理（具体参考 read_request_timeout, write_request_timeout等配置项）。就会被丢弃，而不是处理（因为接受用户请求的节点也就是协调节点不会再等这个响应返回）对于写，这意味着它的请求不会被写入所有的副本，这个一致性将会被读修复、hints或者是人工修复等方式修复。因为这，一个写操作返回给客户端的结果就是超时的。对于读，意味着一个读请求可能没有完成。负载流控是cassandra架构的一部分，如果这个问题一直持续下去，这标志着你的节点或者集群已经超载了。 17、Cassandra因为java.lang.OutOfMemoryError: Map failed挂掉了如果cassandra挂掉的时候输出“Map failed”的消息，表示操作系统不允许java锁定更多的内存。在linux里，内存锁定是有限制的，你可以通过/proc//limits确认，并提高它（比如适应ulimit命令）。还有vm.max_map_cout参数。注意debian安装包会自动为你调整这些参数。 18、如果再同一时刻发生两次更新会发生什么？更新顺序必须是可交换的，因为他们很有可能到达不同副本的顺序是不一样的。只要cassandra有一个确定的方法选出这个赢家（相同的时间戳），那么这在其它节点也是一样的，这是一个重要的实现细节。也就是说，对于相同时间戳的操作，Cassandra遵循以下两个原则：第一：删除要优先于更新和插入，第二：如果两个都是更新，那个在语法上比较大的更新会被选中。 19、为什么在加入一个新节点的时候，会有Stream failed错误？两个可能性： GC可能导致的长时间暂停可能会扰乱传输进程在后台执行的压缩会导致传输时间太长从而TCP连接断开。对于第一种情况，建议在应用中经常的进行GC优化，第二种情况，你需要设置系统的TCP keepalive参数短一些（linux中默认是很长的），尝试执行下面的语句： sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 如果要让这些配置永久有效，需要把他们加入到/etc/sysctl.conf文件中。注意：GCE(Google的云服务吧)的防火墙经常切断TCP连接，当一个连接超过10分钟不活动的话。这种情况强烈推荐执行上述命令。