弄浪的鱼

消息队列思维导图

1. 引子

消息队列分布式系统中重要的组件,一种存放消息的容器,主要作用有解耦、异步、削锋,是大型分布式系统不可缺少的中间件。

常见的消息队列有 ActiveMQ,RabbitMQ,RocketMQ,Kafka。

简历中涉及到了消息队列,面试官先问了这样几个问题:

  1. 你们系统里为什么要使用消息队列?
  2. 既然使用了消息队列,说说他还有什么使用场景?
  3. 消息队列的优缺点是什么?

我们选择 MQ 的时候主要对比了 4 种常用的 MQ,分别是 Kafka、ActiveMQ、RabbitMQ 和 RocketMQ。

  • 首先淘汰的 ActiveMQ,最早的时候很多人用 RabbitMQ,但是现在它的单机吞吐量只有万级,社区也没怎么维护了,有种日落西山的意味。
  • Kafka 主要特点是基于 Pull 的模式来处理消息消费,追求高吞吐量,一开始的目的就是用于日志收集和传输,更加适合大数据量的数据收集服务,我们的当时的系统能到吞吐量能到万级撑死了,也就没选 Kafka。
  • RabbitMQ 虽然它是用 erlang 语言开发,不适合我们进行二次开发,但是它的单机吞吐量也有十万,社区比较活跃,功能也比较完备,比较适合我们公司数据量不是很大的场景。
  • RocketMQ 其实也挺好的,阿里开源的消息队列,经过双十一的考验。不过我们的 Leader 觉得 RocketMQ 的社区没有 RabbitMQ 的稳,RabbitMQ 功能也足够完备。

最终就选择了 RabbitMQ 作为我们使用的消息中间件。

分布式数据处理系统第一个要解决的问题就是如何将数据进行拆分,利用多台计算机处理大规模数据。对于数据量很大的数据集,单机无法保存或者处理时,通过对数据集进行水平拆分,将不同的数据子集存放到不同的处理节点,这种对数据进行拆分的方式叫做分区(partition)

分区

其中常用的哈希算法有节点取余哈希算法,一致性哈希算法,以及虚拟槽分区算法。Redis Cluster 中用的正式虚拟槽分区算法。