当前位置：首页 > 科技 > 软件

在 Kubernetes 环境下如何优雅扩缩容 Pulsar

来源：责编：时间：2024-03-29 17:16:17 317观看

导读背景在整个大环境的降本增效的熏陶下，我们也不得不做好应对方案。根据对线上流量、存储以及系统资源的占用，发现我们的 Pulsar 集群有许多的冗余，所以考虑进行缩容从而减少资源浪费，最终也能省一些费用。不过在缩容之前很

背景

在整个大环境的降本增效的熏陶下，我们也不得不做好应对方案。

根据对线上流量、存储以及系统资源的占用，发现我们的 Pulsar 集群有许多的冗余，所以考虑进行缩容从而减少资源浪费，最终也能省一些费用。

不过在缩容之前很有必要先聊聊扩容，Pulsar 一开始就是存算分离的架构（更多关于 Pulsar 架构的内容本文不做过多介绍，感兴趣的可以自行搜索），天然就非常适合 kubernetes 环境，也可以利用 kubernetes 的能力进行快速扩容。

扩容

Pulsar 的扩容相对比较简单，在 kubernetes 环境下只需要修改副本即可。

Broker

当我们的 broker 层出现瓶颈时（比如 CPU、内存负载较高、GC 频繁时）可以考虑扩容。

计算层都扩容了，也需要根据流量计算下存储层是否够用。

如果我们使用的是 helm 安装的 Pulsar 集群，那只需要修改对于的副本数即可。

broker:    configuration    component: broker    replicaCount: 3->5

当我们将副本数从 3 增加到 5 之后 kubernetes 会自动拉起新增的两个 Pod，之后我们啥也不需要做了。

Pulsar 的负载均衡器会自动感知到新增两个 broker 的加入，从而帮我们将一些负载高的节点的流量迁移到新增的节点中。

Bookkeeper

在介绍 bookkeeper 扩容前先简单介绍些 Bookkeeper 的一些基本概念。

Ensemble size (E)：当前 Bookkeeper 集群的节点数量
Write quorum size (QW)：一条消息需要写入到几个 Bookkeeper 节点中
ACK quorum size (QA)：有多少个 Bookkeeper 节点 ACK 之后表示写入成功

对应到我们在 broker.conf 中的配置如下：

managedLedgerDefaultEnsembleSize: "2"  managedLedgerDefaultWriteQuorum: "2"  managedLedgerDefaultAckQuorum: "2"

这个三个参数表示一条消息需要同时写入两个 Bookkeeper 节点，同时都返回 ACK 之后才能表示当前消息写入成功。

从这个配置也可以看出，Bookkeeper 是多副本写入模型，适当的降低 QW 和 QA 的数量可以提高写入吞吐率。

大部分场景下 Bookkeeper 有三个节点然后 E/QW/QA 都配置为 2 就可以满足消息多副本写入了。

多副本可以保证当某个节点宕机后，这个节点的消息在其他节点依然有存放，消息读取不会出现问题。

那什么情况下需要扩容 Bookkeeper 了，当然如果单个 Bookkeeper 的负载较高也是可以扩容的。

但我们当时扩容 Bookkeeper 的场景是想利用 Pulsar 的资源隔离功能。

因为有部分业务的消息量明显比高于其他的 topic，这样会导致某个 Broker 的负载较高，同时也可能影响到其他正常的 topic。

最好的方式就将这部分数据用单独的 broker 和 Bookkeeper 来承载，从而实现硬件资源的隔离。

这样的需求如果使用其他消息队列往往不太好实现，到后来可能就会部署多个集群来实现隔离，但这样也会增加运维的复杂度。

好在 Pulsar 天然就支持资源隔离，只需要一个集群就可以实现不同 namespace 的流量隔离。

此时就可以额外扩容几个 Bookkeeper 节点用于特定的 namespace 使用。

图片

从上图可以看到：我们可以将 broker 和 Bookkeeper 分别进行分组，然后再配置对应的 namespace，这样就能实现资源隔离了。

更多关于资源隔离的细节本文就不过多赘述了。

铺垫了这么多，其实 Bookkeeper 的扩容也蛮简单的：

bookkeeper:  component: bookie  metadata:    resources:    # requests:    # memory: 4Gi    # cpu: 2  replicaCount: 3->5

和 broker 扩容类似，提高副本数量后，Pulsar 的元数据中心会感知到新的 Bookkeeper 节点加入，从而更新 broker 中的节点数据，这样就会根据我们配置的隔离策略分配流量。

缩容

其实本文的重点在于缩容，特别是 Bookkeeper 的缩容，这部分内容我在互联网上很少看到有人提及。

Broker

Broker 的缩容相对简单，因为存算分离的特点：broker 作为计算层是无状态的，并不承载任何的数据。

其实是承载数据的，只是 Pulsar 会自动迁移数据，从而体感上觉得是无状态的。

只是当一个 broker 下线后，它上面所绑定的 topic 会自动转移到其他在线的 broker 中。

这个过程会导致连接了这个 broker 的 client 触发重连，从而短暂的影响业务。

正因为 broker 的下线会导致 topic 的归属发生转移，所以在下线前最好是先通过监控面板观察需要下线的 broker topic 是否过多，如果过多则可以先手动 unload 一些数据，尽量避免一次性大批量的数据转移。

图片

观察各个broker 的 topic 数量

Bookkeeper

而 Bookkeeper 的缩容则没那么容易了，由于它是作为存储层，本身是有状态的，下线后节点上存储的数据是需要迁移到其他的 Bookkeeper 节点中的。

不然就无法满足之前提到的 Write quorum size (QW) 要求；因此缩容还有一个潜在条件需要满足：

缩容后的 Bookkeeper 节点数量需要大于broker 中的配置：

managedLedgerDefaultEnsembleSize: "2"  managedLedgerDefaultWriteQuorum: "2"  managedLedgerDefaultAckQuorum: "2"

不然写入会失败，整个集群将变得不可用。

Pulsar 提供了两种 Bookkeeper 的下线方案：

不需要迁移数据

其实两种方案主要区别在于是否需要迁移数据，第一种比较简单，就是不迁移数据的方案。

首先需要将 Bookkeeper 设置为 read-only 状态，此时该节点将不会接受写请求，直到这个 Bookkeeper 上的数据全部过期被回收后，我们就可以手动下线该节点。

使用 forceReadOnlyBookie=true 可以强制将 Bookkeeper 设置为只读。

但这个方案存在几个问题：

下线时间不确定，如果该 Bookkeeper 上存储的数据生命周期较长，则无法预估什么时候可以下线该节点。
该配置修改后需要重启才能生效，在 kubernetes 环境中这些配置都是写在了 configmap 中，一旦刷新后所有节点都会读取到该配置，无法针对某一个节点生效；所以可能会出现将不该下线的节点设置为了只读状态。

但该方案的好处是不需要迁移数据，人工介入的流程少，同样也就减少了出错的可能。

比较适合于用虚拟机部署的集群。

迁移数据

第二种就是需要迁移数据的方案，更适用于 kubernetes 环境。

迁移原理

先来看看迁移的原理：

当 bookkeeper 停机后，AutoRecovery Auditor 会检测到 zookeeper 节点/ledger/available 发生变化，将下线节点的 ledger 信息写入到 zookeeper 的 /ledgers/underreplicated 节点中。
AutoRecovery ReplicationWorker 会检测 /ledgers/underreplicated节点信息，然后轮训这些 ledger 信息从其他在线的 BK 中复制数据到没有该数据的节点，保证 QW 数量不变。

每复制一条数据后都会删除 /ledgers/underreplicated 节点信息。

所有 /ledgers/underreplicated 被删除后说明迁移任务完成。

执行 bin/bookkeeper shell decommissionbookie 下线命令：
会等待 /ledgers/underreplicated 全部删除
然后删除 zookeeper 中的元数据
元数据删除后 bookkeeper 才是真正下线成功，此时 broker 才会感知到 Bookkeeper 下线。

AutoRecovery 是 Bookkeeper 提供的一个自动恢复程序，他会在后台检测是否有数据需要迁移。

简单来说就是当某个Bookkeeper 停机后，它上面所存储的 ledgerID 会被写入到元数据中心，此时会有一个单独的线程来扫描这些需要迁移的数据，最终将这些数据写入到其他在线的 Bookkeeper 节点。

Bookkeeper 中的一些关键代码：

图片

下线步骤

下面来看具体的下线流程：

副本数-1

bin/bookkeeper shell listunderreplicated 检测有多少 ledger 需要被迁移

执行远程下线元数据
nohup bin/bookkeeper shell decommissionbookie -bookieid bkid:3181 > bk.log 2>&1 &
这个命令会一直后台运行等待数据迁移完成，比较耗时
查看下线节点是否已被剔除
bin/bookkeeper shell listbookies -a
循环第一步

第一步是检测一些现在有多少数据需要迁移：bin/bookkeeper shell listunderreplicated 命令查看需要被迁移的 ledger 数据也是来自于 /ledgers/underreplicated节点

图片

正常情况下是 0

第二步的命令会等待数据迁移完成后从 zookeeper 中删除节点信息，这个进程退出后表示下线成功。

图片

这个命令最好是后台执行，并输出日志到专门的文件，因为周期较长，很有可能终端会话已经超时了。

我们登录 zookeeper 可以看到需要迁移的 ledger 数据：

bin/pulsar zookeeper-shell -server pulsar-zookeeper:2181get /ledgers/underreplication/ledgers/0000/0000/0000/0002/urL0000000002replica: "pulsar-test-2-bookie-0.pulsar-test-2-bookie.pulsar-test-2.svc.cluster.local:3181"ctime: 1708507296519

underreplication 的节点路径中存放了 ledgerId，通过 ledgerId 计算路径：

图片

注意事项

下线过程中我们可以查看 nohup bin/bookkeeper shell decommissionbookie -bookieid bkid:3181 > bk.log 2>&1 &这个命令写入的日志来确认迁移的进度，日志中会打印当前还有多少数量的 ledger 没有迁移。

同时需要观察 zookeeper、Bookkeeper 的资源占用情况。

因为迁移过程中写入大量数据到 zookeeper 节点，同时迁移数时也会有大量流量写入 Bookkeeper。

不要让迁移过程影响到了正常的业务使用。

根据我的迁移经验来看，通常 2w 的ledger 数据需要 2～3 小时不等的时间，具体情况还得根据你的集群来确认。

回滚方案

当然万一迁移比较耗时，或者影响了业务使用，所以还是要有一个回滚方案：

这里有一个大的前提：只要 BK 节点元数据、PVC（也就是磁盘中的数据）没有被删除就可以进行回滚。

所以只要上述的 decommissionbookie 命令没有完全执行完毕，我们就可以手动 kill 该进程，然后恢复副本数据。

这样恢复的 Bookkeeper 节点依然可以提供服务，同时数据也还存在；只是浪费了一些 autorecovery 的资源。

最后当 bookkeeper 成功下线后，我们需要删除 PVC，不然如果今后需要扩容的时候是无法启动 bookkeeper 的，因为在启动过程中会判断挂载的磁盘是否有数据。

总结

总的来说 Pulsar 的扩缩容还是非常简单的，只是对于有状态节点的数据迁移稍微复杂一些，但只要跟着流程走就不会有什么问题。

参考链接：

https://pulsar.apache.org/docs/next/administration-isolation/
https://bookkeeper.apache.org/docs/4.13.0/admin/decomission
https://bookkeeper.apache.org/docs/4.13.0/admin/autorecovery

本文链接：http://www.28at.com/showinfo-26-80515-0.html在 Kubernetes 环境下如何优雅扩缩容 Pulsar

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：开放平台 - 互动玩法演进之路

下一篇：深入理解Java虚拟机：堆详解

标签：

热门焦点

K6：面向开发人员的现代负载测试工具

K6 是一个开源负载测试工具，可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上，它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序，包括 Web
多线程开发带来的问题与解决方法

使用多线程主要会带来以下几个问题：（一）线程安全问题　　线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间，该数据被其他的线程所修改，那么对于当前线程而言，该线程
电视息屏休眠仍有网络上传爱奇艺被质疑“薅消费者羊毛”

记者丨宁晓敏见习生丨汗青出品丨鳌头财经（theSankei）前不久，爱奇艺发布了一份亮眼的一季报，不仅营收和会员营收创造历史最佳表现，其运营利润也连续6个月实现增长。自去年年初
冯提莫签约抖音公会前“斗鱼一姐”消失在直播间

来源：直播观察提起“冯提莫”这个名字，很多网友或许听过，但应该不记得她是哪位主播了。其实，作为曾经的“斗鱼一姐”，冯提莫在游戏直播的年代影响力不输于现
重估百度丨大模型，能撑起百度的“今天”吗?

自象限原创作者｜程心罗辑2023年之前，对于自己的“今天”，百度也很迷茫。“新业务到 2022 年底还是 0，希望 2023 年出来一个 1。”这是2022年底，李彦宏
小米公益基金会捐赠2500万元驰援北京、河北暴雨救灾

8月2日消息，今日小米科技创始人雷军在其微博上发布消息称，小米公益基金会宣布捐赠2500万元驰援北京、河北暴雨救灾。携手抗灾，京冀安康！以下为公告原文
OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

7月20日消息，据外媒报道，研究机构的报告显示，在全球智能手机出货量同比仍在下滑的大背景下，印度这一有潜力的市场也未能幸免，出货量同比也有下滑，多家厂
iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，iQOO 11不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞屏，同时在快充
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB

在 Kubernetes 环境下如何优雅扩缩容 Pulsar

背景

扩容

Broker

Bookkeeper

缩容

Broker

Bookkeeper

不需要迁移数据

迁移数据

迁移原理

下线步骤

注意事项

回滚方案

总结

K6：面向开发人员的现代负载测试工具

多线程开发带来的问题与解决方法

电视息屏休眠仍有网络上传爱奇艺被质疑“薅消费者羊毛”

冯提莫签约抖音公会前“斗鱼一姐”消失在直播间

重估百度丨大模型，能撑起百度的“今天”吗?

小米公益基金会捐赠2500万元驰援北京、河北暴雨救灾

OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

最新推荐

猜你喜欢

热门推荐

相关资讯