当前位置：首页 > 科技 > 软件

从阿里云故障想到，稳定性问题本质是什么

来源：责编：时间：2023-11-28 09:36:57 393观看

导读阿里云史诗级故障已经过去差不多两周了。使用阿里云产品的公司也难以幸免，有所波及。最近听说了一些公司内部的故障复盘，感触颇多。想到一个问题，稳定性问题的本质到底是什么？1、它是一个技术问题，但又好像不是从网上的各

阿里云史诗级故障已经过去差不多两周了。

使用阿里云产品的公司也难以幸免，有所波及。最近听说了一些公司内部的故障复盘，感触颇多。

想到一个问题，稳定性问题的本质到底是什么？

1、它是一个技术问题，但又好像不是

从网上的各种“空穴来风”到阿里云给出的故障复盘报告，大家基本上对这个故障原因有了一些大致的了解。

是一个鉴权服务的白名单变更，没有做好容错处理，导致了灾难发生。

阿里云也给出了相关改进技术措施的说明。

所以，这是一个技术问题。

有的公司受到阿里云故障的波及，可能变成了一场真实的故障演练，暴露出其他额外的问题，比如容灾失效、降级失效等等。

从一个故障，能定义出几个额外的故障，并且列出若干改进措施。

变成了一系列技术问题。

但是，这一系列改进措施未来能够避免故障发生吗？甚至有人能保证不出现类似故障的发生吗？

没人敢说可以。

所以，稳定性问题好像又不是一个技术问题。

至少，不是一个用技术能够完全解决的问题。

2、稳定性问题的本质是什么？

“发展能解决一切问题，不发展一切都是问题。”

其实，稳定性问题的本质也是“发展”的问题。

当业务高速发展的时候，谁有空关心稳定性？

业务真正高速发展的时候，大家忙着开新项目提高营收，“敏捷至上”，哪有什么稳定性问题。

甚至不需要什么设计文档，直接CRUD一把梭上线。出了问题直接在线Debug，在线改代码。

只要能提高营收，这些都不是问题。

公司赚大钱，员工升职加薪。

稳定性问题？无伤大雅。

当业务发展停滞了，开始“降本增效”了，高度重视稳定性。

降本怎么做？最直接有效的方式就是砍服务器资源，砍人员计划。一个人多干两到三个人的活。

业务发展停滞，不代表产品需求停滞。

业务发展停滞，不代表线上运行的服务、组件停滞。

业务发展停滞，不代表历史Bug、技术债停滞。

所以，活不一定会变少，只能是一个人多干两到三个人的活。或者美其名曰，按优先级处理，进一步提高人效。

这种情况下，必然导致故障频发。

这个时候，故障往往又能带来直接的“降本”，比如低绩效甚至直接走人。

这种环境下，故障会进一步被“放在显微镜下观察“，每个人要从中找到别人的锅。流程问题？系统问题？可观测性缺失？有什么漏洞都尽量甩出去。

毕竟甩锅给别人，扣的是别人的绩效，走的是别人的人，是不是根本原因或者有效的改进措施又有什么关系呢。

3、如何解决

公司高速发展，稳定性问题不攻自破。

如果不能高速发展，应该如何解决稳定性问题？

控制合理的人员配比。

如果真的要通过缩减人员降低成本，也应该控制合理有效的业务需求，保证人员的配比是合理的。

不要试图改变客观规律，或者自欺欺人。

否则只会陷入恶性循环。

建设合理的机制与风气。

不管业务是否高速发展，其实对待稳定性问题的态度应该是一致的。

除非是明确违反流程规范引起的故障，其他问题不应该跟直接奖惩挂钩。

每次故障复盘，应该真正反思的是，能不能从架构设计、流程、机制、工具角度找到真正原因，去避免下次同类型的错误。

通过奖惩来高压控制，只会带来甩锅风气，掩盖真正有效的改进措施。

对稳定性保持长期合理的投入。

避免运动式治理稳定性，只在故障发生后的一周或者一个月有重视。

随着系统不断迭代，整体稳定性水平一定会处于一种“熵增状态”，逐步恶化。

所以，稳定性任务，应该持续贯穿在全年，按照合理的比重，与业务功能迭代任务一起评估考量，才能确保长期处于相对高的稳定性水平。

本文链接：http://www.28at.com/showinfo-26-34671-0.html从阿里云故障想到，稳定性问题本质是什么

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：为什么你应该把 Google / StackOverflow / 文档搜索都扔掉，改用 devv.ai？

下一篇：【运营思维】美团面试题：如何把梳子卖给寺庙和尚？

标签：

热门焦点

Redmi Buds 4开箱简评：才199还有降噪可以无脑入

在上个月举办的Redmi Note11T Pro系列新机发布会上，除了两款手机新品之外，Redmi还带来了两款TWS真无线蓝牙耳机产品，Redmi Buds 4和Redmi Buds 4 Pro，此前我们在Redmi Note11T
不容错过的MSBuild技巧，必备用法详解和实践指南

一、MSBuild简介MSBuild是一种基于XML的构建引擎，用于在.NET Framework和.NET Core应用程序中自动化构建过程。它是Visual Studio的构建引擎，可在命令行或其他构建工具中使用
让我们一起聊聊文件的操作

文件【1】文件是什么？文件是保存数据的地方，是数据源的一种，比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据，它既可以保
JavaScript学习 -AES加密算法

引言在当今数字化时代，前端应用程序扮演着重要角色，用户的敏感数据经常在前端进行加密和解密操作。然而，这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
签约井川里予、何丹彤，单视频点赞近千万，MCN黑马永恒文希快速崛起！

来源：视听观察永恒文希传媒作为一家MCN公司，说起它的名字来，可能大家会觉得有点儿陌生，但是说出来下面一串的名字之后，或许大家就会感到震惊，原来这么多网红，都签约这家公司了。根
东方甄选单飞：有些鸟注定是关不住的

文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里，东方甄选要脱离抖音自立门户的传闻不绝于耳，“7
8月见！小米MIX Fold 3获得3C认证：支持67W快充

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料，而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

中国信通院表示，目前，小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店，以及抖音和快手2家新型应用分发平
荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

荣耀 Magicbook V 14 2021 曙光蓝版本正式开售，搭载 i7-11390H 处理器与 MX450 显卡，配备 16GB 内存与 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 键盘键程、

从阿里云故障想到，稳定性问题本质是什么

1、它是一个技术问题，但又好像不是

2、稳定性问题的本质是什么？

3、如何解决

Redmi Buds 4开箱简评：才199还有降噪可以无脑入

不容错过的MSBuild技巧，必备用法详解和实践指南

让我们一起聊聊文件的操作

JavaScript学习 -AES加密算法

签约井川里予、何丹彤，单视频点赞近千万，MCN黑马永恒文希快速崛起！

东方甄选单飞：有些鸟注定是关不住的

8月见！小米MIX Fold 3获得3C认证：支持67W快充

信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

最新推荐

猜你喜欢

热门推荐

相关资讯