当前位置：首页 > 科技 > 软件

阿里云崩，钉钉崩，咸鱼崩，淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做？

来源：责编：时间：2023-11-14 17:09:54 439观看

导读今年的11月12日，也就是双十一的第二天，阿里云崩了!!! 使用阿里云服务的一系列阿里软件，淘宝，咸鱼，天猫，钉钉、阿里云盘等阿里软件，全都崩了，一下就上了微博热搜，我司作为阿里云使用客户也受到了影响，特别是mq等组件;淘宝天猫自

今年的11月12日，也就是双十一的第二天，阿里云崩了!!! 使用阿里云服务的一系列阿里软件，淘宝，咸鱼，天猫，钉钉、阿里云盘等阿里软件，全都崩了，一下就上了微博热搜，我司作为阿里云使用客户也受到了影响，特别是mq等组件;

淘宝天猫自去IOE后取得巨大成功，阿里云也从蚂蚁集团的体系中独立出来给全球企业提供云服务，不久前在云栖大会上都还在分享阿里云如何如何的高效支撑业务，包括前几天的双十一阿里云也抗住了购物洪峰压力，但是没想到双十一第二天就崩了，这已经是影响全球使用阿里云的客户的严重事故;

通过阿里云推送的消息显示整个事件过程

尊敬的客户：

您好!北京时间2023年11月12日 17:44起，阿里云监控发现云产品控制台

问及API调用出现异常，阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便，若有任何问题，请随时联系我们。

--进展更新

17:50 阿里云已确认故障原因与某个底层服务组件有关，工程师正在紧急处理中;

18:54 经过工程师处理，杭州、北京等地域控制台及API服务已恢复，其他地域控制台服务逐步恢复中;

19:20 工程师通过分批重启组件服务，绝大部分地域控制台及API服务已恢复;

19:43 异常管控服务组件均已完成重启，除个别云产品 (如消息队列MQ、服务MNS) 仍需处理，其余云产品控制台及API服务已恢复;

20:12 北京、杭州等地域消息队列MQ已完成重启，其余地域逐步恢复中。

21:11 受影响云产品均已恢复，因故障影响部分云产品的数据 (如监控、账单等)可能存在延迟堆送情况，不影响业务运行。

这次非常严重的P0级事故，致使使用阿里云服务的客户的损失非常之大。

上一次阿里P0级事故是在10月24日的语雀平台故障8小时，最后恢复服务之后补偿了用户6个月的会员;

上一次阿里云大面积服务器故障的P0级事故是2022年12月，阿里云香港地域发生超过12小时的持续性故障。通过以上故障事件，在高可用的应用集群中，出现节点故障，进程是否能够进行自我拉起从而实现恢复呢? 咱们今天聊聊应用集群故障之进程自我拉起场景。

首先是进程概念：

一个正在运行的程序或者软件就是一个进程，它是操作系统进行资源分配的基本单位，也就是说每启动一个进程，操作系统都会给其分配一定的运行资源(内存资源)保证进程的运行。

应用集群故障后自动恢复测试之进程自我拉起测试场景：

当服务的进程异常挂掉后，能够自动将进程拉起，恢复服务，实现高可用;

测试目的：

考察服务进程自我拉起有效性。

测试步骤：

1、测试场景采用混合交易模型交易配比;

2、测试执行时，采取稳定压力施压，以被测试系统最大处理能力的80%或预设压力，稳定运行5分钟;

3、通过kill -9命令 kill 掉某进程;

4、场景持续运行5分钟，通过PS -ef|grep 服务名称，命令观察被kill 的进程是否自动拉起。

预期结果：

步骤3后，进程被Kill;

步骤4后，进程自我拉起。

监控点：

TPS、交易失败率、系统资源使用率等。

测试指标：

服务进程自我拉起有效性(除了能够拉起还有时效要求，为60秒之内)为有效。

本文链接：http://www.28at.com/showinfo-26-24744-0.html阿里云崩，钉钉崩，咸鱼崩，淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Git 的遴选和撤销操作是如何利用三路合并的

下一篇：使用 Java 枚举和自定义数据类型

标签：

热门焦点

Redmi Pad评测：红米充满野心的一次尝试

从Note系列到K系列，从蓝牙耳机到笔记本电脑，红米不知不觉之间也已经形成了自己颇有竞争力的产品体系，在中端和次旗舰市场上甚至要比小米新机的表现来得更好，正所谓“大丈夫生居
摸鱼心法第一章——和配置文件说拜拜

为了能摸鱼我们团队做了容器化，但是带来的问题是服务配置文件很麻烦，然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比，简单对比下独立配置中心和k8s作为配
得物效率前端微应用推进过程与思考

一、背景效率工程随着业务的发展，组织规模的扩大，越来越多的企业开始意识到协作效率对于企业团队的重要性，甚至是决定其在某个行业竞争中突围的关键，是企业长久生存的根本。得物
四年持续更迭坚持探索行业无人之境，HarmonyOS 4带来五大升级多项创新

除了华为每年新发布的旗舰手机系列，上亿花粉更加期待鸿蒙系统每次的跨版本大更新。8月4日，HarmonyOS 4于HDC 2023正式发布，这也是该系统历经四年的再
国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

2023年8月3日，三星电子举行Galaxy新品中国发布会，正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5，以及三星Galaxy Tab S9
三星Galaxy Z Fold5官方渲染图曝光：13.4mm折叠厚度依旧感人

据官方此前宣布，三星将于7月26日在韩国首尔举办Unpacked活动，届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy Z Flip 5、
机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

7月20日消息，据外媒报道，研究机构的报告显示，由于需求下滑，今年二季度全球智能手机的出货量，同比下滑了11%，三星、苹果等主要厂商的销量，较去年同期均有下
苹果MacBook Pro 2021测试：仍不支持平滑滚动

据10月30日9to5 Mac 消息报道，苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价，亮点包括行业领先的性能，令人印象深刻的电池续航，精美丰
三翼鸟智能家居亮相电博会，让用户体验更真实

2021电博会在青岛国际会展中心开幕中，三翼鸟直接把“家”搬到了现场，成为了展会的一大看点。这也是三翼鸟继9月9日发布了行业首个一站式定制智慧家平台后的

阿里云崩，钉钉崩，咸鱼崩，淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做？

首先是进程概念：

测试步骤：

预期结果：

监控点：

测试指标：

Redmi Pad评测：红米充满野心的一次尝试

摸鱼心法第一章——和配置文件说拜拜

得物效率前端微应用推进过程与思考

四年持续更迭坚持探索行业无人之境，HarmonyOS 4带来五大升级多项创新

国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

三星Galaxy Z Fold5官方渲染图曝光：13.4mm折叠厚度依旧感人

机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

苹果MacBook Pro 2021测试：仍不支持平滑滚动

三翼鸟智能家居亮相电博会，让用户体验更真实

最新推荐

猜你喜欢

热门推荐

相关资讯