当前位置:首页 > 科技  > 软件

携程光网络抵御光缆中断实践

来源: 责编: 时间:2023-12-15 17:17:56 767观看
导读作者简介Lightworker,携程网络技术专家,关注光纤通信、DCI传输技术领域。一、背景光传输网络(简称OTN)是一种基于光纤技术的通信网络。它利用光纤作为传输介质,将信息以光的形式进行传输。其凭借DWDM(密集型波分复用)技术以

作者简介K4A28资讯网——每日最新资讯28at.com

Lightworker,携程网络技术专家,关注光纤通信、DCI传输技术领域。K4A28资讯网——每日最新资讯28at.com

一、背景

光传输网络(简称OTN)是一种基于光纤技术的通信网络。它利用光纤作为传输介质,将信息以光的形式进行传输。其凭借DWDM(密集型波分复用)技术以及保护倒换技术,可以实现大带宽、低延迟、高可靠的数据传输,因此广泛应用于多个数据中心互联场景。国内外大型互联网公司通过租用运营商光纤自建传输网络,能够大大降低IDC之间数据传输的成本。同样,携程也拥有自建的光传输网络(简称TOTN),主要用于承载骨干网跨数据中心流量以及IT办公上网流量。K4A28资讯网——每日最新资讯28at.com

作为底层物理网络,TOTN直接面对运营商光缆,需应对频繁出现的光缆故障。众所周知,国内基建仍处于发展阶段,运营商光缆经常被施工挖断。据美国运营商Level3的统计,其光纤网络大概每年每千公里就会中断1次;中国电信大概每年会发生50次以上干线光缆中断;而在印度,几乎每天都会中断几次甚至十几次。可见,光缆中断的次数与当地社会经济的发展程度密切相关。K4A28资讯网——每日最新资讯28at.com

携程TOTN自建成以来,平均每年监测到20余次光缆中断。因此在提供大容量传输的同时,如果能够在发生光缆故障的时候,光网络可以自动切换,使业务带宽不受影响,甚至不感知故障,将极大的提升网络可靠性。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图1 光缆挖断现场K4A28资讯网——每日最新资讯28at.com

二、整体架构

携程传输网络为双平面带保护设计,每个IDC部署完全独立的2套传输设备,分别连接2条不同路由的光纤,组成完全独立的2个传输平面。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图2 TOTN拓扑图K4A28资讯网——每日最新资讯28at.com

正常状态下,业务走在直达链路上,当主用光缆中断时,传输系统会将业务切换至备用通道绕行。主备通道切换时间遵循ITU-TG.783和ITU-TG.841标准,小于50ms。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图3 光网络保护K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图4 光缆故障时业务流向K4A28资讯网——每日最新资讯28at.com

通过上述保护机制,能够解决光缆中断时业务自动切换,带宽不损失,并且抵御同时发生2处光缆中断的极端情况。K4A28资讯网——每日最新资讯28at.com

但与此同时,有一个问题一直困扰我们,就是传输切换的时候两端网络设备端口存在flapping的情况,导致业务有相应的报错产生。K4A28资讯网——每日最新资讯28at.com

三、问题分析

网络设备接口从down到up的时间因为不同设备不同光模块有差异,且网络层的二层及三层收敛时间因网络架构的不同存在不确定因素(通常认为是秒级中断),因此每次传输切换都会造成一定时间的业务不可用。通常表现在敏感业务的报错,如Redis。Redis作为内存数据库,对网络抖动非常敏感,几乎每次光缆中断切换都有感知。K4A28资讯网——每日最新资讯28at.com

比如3月17日12:00 传输A平面,光纤发生闪断,骨干网CSR in方向错包。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图5 骨干网报错K4A28资讯网——每日最新资讯28at.com

比如9月11日19:44 B平面光缆中断,传输切换时Redis大量报错,如下图:K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图6 Redis报错K4A28资讯网——每日最新资讯28at.com

要解决传输切换导致网络设备端口flapping问题,业界一直没有成熟的标准方案。通过对其它互联网公司的调研,比较常用的方案是在交换机接口上配置link-delay,即路由器收到链路中断的信号后,延时一段时间将链路状态置为down,在这段时间里,如果链路恢复,即保持链路up状态,不产生down状态,避免了链路的频繁抖动。K4A28资讯网——每日最新资讯28at.com

我们也尝试了这种方式,但发现有诸如设备不支持、配置不生效等问题,一直无法达到预期的效果。原因是link delay不是IEEE标准,不同厂商的网络设备对该功能的支持不尽相同。为此,传输业务的分配只能分摊在不同的光缆路由,确保光缆中断时至少有一半业务不受影响,但这始终无法解决业务有感知的问题。例如A端至Z端需开通200G业务,必须分摊到两个不同平面,每个100G业务参与各自平面的倒换。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图7 业务分摊示意图K4A28资讯网——每日最新资讯28at.com

另外我们在调研中发现,有些公司为了使link-delay生效,将延时设置成2s。这样的设置虽然使传输保护倒换生效,但一旦保护机制出现故障,路由层面的切换将因此损失2s的宝贵时间。K4A28资讯网——每日最新资讯28at.com

四、技术研究

2023年,TOTN引入了支持5ms倒换的DCI产品,该产品通过二个方面的改进将传输50ms的倒换时间提升至5ms。一是应用了磁光开关,磁光开关原理是利用法拉第旋光效应, 通过外加磁场的变化来改变磁光晶体对入射偏振光偏振面的作用, 从而达到切换光路的作用。由于无机械移动部件, 可靠性高, 并且开关速度快;二是通过预先将备用通道的光缆参数录入DSP芯片,在倒换时节省了重新计算参数的时间。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图8 光开关原理K4A28资讯网——每日最新资讯28at.com

我们希望通过缩短光开关切换的时间,解决网络设备端口flapping的问题。但在实际应用中,即使传输倒换时间已经压缩到5ms,网络设备的端口仍然会flapping。通过对产品参数的研究和调试后,我们发现,当光缆中断时,传输光层会向两端电层板卡发送AIS信号,电层板卡收到AIS信号后会向网络设备发送Local_Fault告警,当网络设备收到该告警后,端口即变为down(IEEE 802.3ae)。通过设置传输系统延时发送该信号(默认4*50ms),只要传输切换在该时间段内完成,即不会向网络设备发送该信号,因此端口就不会flapping。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图9 故障信号传递示意图K4A28资讯网——每日最新资讯28at.com

在DCI产品成功实现了切换无感知后,我们希望在现网传统产品中也找到类似的参数进行调整。因为告警延时传递与5ms倒换时间无关,即使是50ms的倒换时间,如果能让网络设备端口不感知光缆抖动,也会对业务稳定性带来极大的提升。K4A28资讯网——每日最新资讯28at.com

五、 优化方案

为了实现网络传统产品支持无感切换,通过与厂商技术沟通,得出的结论是需要将100GE业务映射方式由BIT透明映射调整为MAC透明映射(会中断业务),然后再设置告警参数延时200ms传递。K4A28资讯网——每日最新资讯28at.com

由于TOTN从来没有使用过MAC透明映射方式,对此,我们协调设备厂商在实验室专门做了MAC映射和BIT映射的测试验证。结论是两种方式吞吐量没有区别,延时有差异,BIT映射时对64-9600Byte的帧都是24us,MAC映射时随帧长增大而增大,但最大9600时,也就25us,可以忽略不计。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图10 实验环境拓扑K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图11 RFC2544测试结果K4A28资讯网——每日最新资讯28at.com

因此我们制定了优化方案,先调整传输A平面,灰度运行一段时间后再调整B平面。K4A28资讯网——每日最新资讯28at.com

六、 验证效果

8月18日对传输A平面进行优化:100GE业务映射方式采用MAC透明映射,告警参数延时传递200ms。经测试验证,可实现传输光缆主备切换对网络设备端口无感知,Redis无感知。K4A28资讯网——每日最新资讯28at.com

在真实的故障场景下也同样得到了验证。如9月7日15:13传输A平面发生光缆中断故障,Redis报错无异常尖峰。K4A28资讯网——每日最新资讯28at.com

图片K4A28资讯网——每日最新资讯28at.com

图12 优化后Redis报错K4A28资讯网——每日最新资讯28at.com

经过经一个月的灰度验证后,我们于9月15日对传输B平面进行优化,并且将告警参数延时传递时间在200ms的基础进一步缩短至100ms,同样经测试验证Redis无感知。K4A28资讯网——每日最新资讯28at.com

七、 未来规划

为保持架构的统一性,我们将重新定义携程光网络设备技术标准,要求新入网的OTN设备必须支持BIT映射的告警延迟下插。同时,推动各供应商全面支持该功能,使之成为光缆故障场景下的一种最佳实践。K4A28资讯网——每日最新资讯28at.com

抵御光缆故障是个业界公认的难题,头部互联网公司都在此栽过跟头。通过上述一系列实践,我们在抵御光缆故障方面已经做到了领先水平。光网络运维是个长期过程,无感知切换只是其中一小部分,更多的是告警发现、性能监测以及光缆路由识别,避免同路由情况的发生。K4A28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-46480-0.html携程光网络抵御光缆中断实践

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 数据结构:Vec<T>、&[T]、Box<[T]> ,你真的了解集合容器么?

下一篇: 学习在 C++ 中将合并排序算法与链表一起使用

标签:
  • 热门焦点
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • 一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

    集微网消息,据彭博社报道,在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后,苹果、三星电子和惠普等大公司暂停向印度
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • 自研Exynos回归!三星Galaxy S24系列将提供Exynos和骁龙双版本

    年初,全新的三星Galaxy S23系列发布,包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本,全系搭载超频版骁龙8 Gen 2,虽同样采用台积电4nm工艺制
  • iQOO Neo8 Pro即将开售:到手价3099元起 安卓性能最强旗舰

    5月23日,iQOO如期举行了新品发布会,全新的iQOO Neo8系列也正式与大家见面,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更
Top