当前位置:首页 > 科技  > 软件

阿里云崩,钉钉崩,咸鱼崩,淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做?

来源: 责编: 时间:2023-11-14 17:09:54 409观看
导读今年的11月12日,也就是双十一的第二天,阿里云崩了!!! 使用阿里云服务的一系列阿里软件,淘宝,咸鱼,天猫,钉钉、阿里云盘等阿里软件,全都崩了,一下就上了微博热搜,我司作为阿里云使用客户也受到了影响,特别是mq等组件;淘宝天猫自

今年的11月12日,也就是双十一的第二天,阿里云崩了!!! 使用阿里云服务的一系列阿里软件,淘宝,咸鱼,天猫,钉钉、阿里云盘等阿里软件,全都崩了,一下就上了微博热搜,我司作为阿里云使用客户也受到了影响,特别是mq等组件;1JF28资讯网——每日最新资讯28at.com

1JF28资讯网——每日最新资讯28at.com

淘宝天猫自去IOE后取得巨大成功,阿里云也从蚂蚁集团的体系中独立出来给全球企业提供云服务,不久前在云栖大会上都还在分享阿里云如何如何的高效支撑业务,包括前几天的双十一阿里云也抗住了购物洪峰压力,但是没想到双十一第二天就崩了,这已经是影响全球使用阿里云的客户的严重事故; 1JF28资讯网——每日最新资讯28at.com

通过阿里云推送的消息显示整个事件过程1JF28资讯网——每日最新资讯28at.com

尊敬的客户:1JF28资讯网——每日最新资讯28at.com

您好!北京时间2023年11月12日 17:44起,阿里云监控发现云产品控制台1JF28资讯网——每日最新资讯28at.com

问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。1JF28资讯网——每日最新资讯28at.com

--进展更新1JF28资讯网——每日最新资讯28at.com

17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中;1JF28资讯网——每日最新资讯28at.com

18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中;1JF28资讯网——每日最新资讯28at.com

19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复;1JF28资讯网——每日最新资讯28at.com

19:43 异常管控服务组件均已完成重启,除个别云产品 (如消息队列MQ、服务MNS) 仍需处理,其余云产品控制台及API服务已恢复;1JF28资讯网——每日最新资讯28at.com

20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。1JF28资讯网——每日最新资讯28at.com

21:11 受影响云产品均已恢复,因故障影响部分云产品的数据 (如监控、账单等)可能存在延迟堆送情况,不影响业务运行。1JF28资讯网——每日最新资讯28at.com

1JF28资讯网——每日最新资讯28at.com

这次非常严重的P0级事故,致使使用阿里云服务的客户的损失非常之大。1JF28资讯网——每日最新资讯28at.com

1JF28资讯网——每日最新资讯28at.com

上一次阿里P0级事故是在10月24日的语雀平台故障8小时,最后恢复服务之后补偿了用户6个月的会员; 1JF28资讯网——每日最新资讯28at.com

上一次阿里云大面积服务器故障的P0级事故是2022年12月,阿里云香港地域发生超过12小时的持续性故障。 通过以上故障事件,在高可用的应用集群中,出现节点故障,进程是否能够进行自我拉起从而实现恢复呢? 咱们今天聊聊应用集群故障之进程自我拉起场景。1JF28资讯网——每日最新资讯28at.com

首先是进程概念:

一个正在运行的程序或者软件就是一个进程,它是操作系统进行资源分配的基本单位,也就是说每启动一个进程,操作系统都会给其分配一定的运行资源(内存资源)保证进程的运行。1JF28资讯网——每日最新资讯28at.com

应用集群故障后自动恢复测试之进程自我拉起测试场景:1JF28资讯网——每日最新资讯28at.com

当服务的进程异常挂掉后,能够自动将进程拉起,恢复服务,实现高可用;1JF28资讯网——每日最新资讯28at.com

测试目的:1JF28资讯网——每日最新资讯28at.com

考察服务进程自我拉起有效性。1JF28资讯网——每日最新资讯28at.com

测试步骤:

1、测试场景采用混合交易模型交易配比;1JF28资讯网——每日最新资讯28at.com

2、测试执行时,采取稳定压力施压,以被测试系统最大处理能力的80%或预设压力,稳定运行5分钟;1JF28资讯网——每日最新资讯28at.com

3、通过kill -9命令 kill 掉某进程;1JF28资讯网——每日最新资讯28at.com

4、场景持续运行5分钟,通过PS -ef|grep 服务名称,命令观察被kill 的进程是否自动拉起。1JF28资讯网——每日最新资讯28at.com

预期结果:

步骤3后,进程被Kill;1JF28资讯网——每日最新资讯28at.com

步骤4后,进程自我拉起。1JF28资讯网——每日最新资讯28at.com

监控点:

TPS、交易失败率、系统资源使用率等。1JF28资讯网——每日最新资讯28at.com

测试指标:

服务进程自我拉起有效性(除了能够拉起还有时效要求,为60秒之内)为有效。1JF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-24744-0.html阿里云崩,钉钉崩,咸鱼崩,淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Git 的遴选和撤销操作是如何利用三路合并的

下一篇: 使用 Java 枚举和自定义数据类型

标签:
  • 热门焦点
  • Find N3入网:最高支持16+1TB

    OPPO将于近期登场的Find N3折叠屏目前已经正式入网,型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化,不再是小号的横向折叠屏,而是跟别的厂商一样采用了较为常见的
  • 俄罗斯:将审查iPhone等外国公司设备 保数据安全

    iPhone和特斯拉都属于在各自领域领头羊的品牌,推出的产品也也都是数一数二的,但对于一些国家而言,它们的产品可靠性和安全性还是在限制范围内。近日,俄罗斯联邦通信、信息技术
  • 摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • 三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 10天营收超1亿美元,《星铁》比《原神》差在哪?

    来源:伯虎财经作者:陈平安即便你没玩过《原神》,你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天,有粉丝因为索尼在PS平台上线《原神》,怒而
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 小米汽车电池信息疑似曝光:容量101kWh,支持800V高压快充

    7月14日消息,今日一名博主在社交媒体发布了一张疑似小米汽车电池信息的照片,显示该电池包正是宁德时代麒麟电池,容量为101kWh,电压为726.7V,可以预测小
  • 信通院:小米、华为等11家应用商店基本完成APP签名及验签工作

    中国信通院表示,目前,小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店,以及抖音和快手2家新型应用分发平
Top