另一种视野看新闻

19天,京东云的春晚保卫战

京东云攻克春晚,就是攻克新的“云高地”


今年持续4个多小时的春晚,背后是一个3000人团队19天分秒必争的故事。在他们眼里,京东云刚刚干成一件大事:19天,用技术实力保卫春晚。

 

1月5日,中央广播电视总台 2022 年春节联欢晚会独家互动合作项目发布会在京举行,京东成为2022 年春晚独家互动合作伙伴。



“很紧张,只剩19天。”京东云研发团队又惊又喜。惊的是,从1月5日到1月23日春晚互动活动正式开启预约,只有19天备战期,这意味着一场极高难度的技术攻坚战正在来临。喜的是,在国内,唯一能同时吸引10亿+用户注意力的,只有春晚;唯一能同时吸引10亿+用户长达4-5小时注意力的,只有春晚。

去年春晚的累计观看人数为12.72亿,2020年为12.3亿。承接春晚项目,意味着为10亿+用户创造价值,以至于每年春节前夕,“拿下春晚花魁”的企业,都会按照惯例成为各大媒体的头条。

 

春晚的互动形式逐年进化。从最早的初级红包再到“集五福”,用户的互动体验越来越好,但背后对技术的支撑要求,却越来越高。

 

进化到2022年,攻坚春晚高地的技术难度,不可再同日而语。尽管如此,京东云研发团队选择迎接挑战。用19天,应对可能是历史上最为复杂的春晚场景。

 

事后来看,其难度丝毫不亚于“43小时三元桥换桥”。2015年11月13日23点,北京三元桥曾启动一个著名的“桥面更换”工程。43小时内,将重达1600吨的旧桥梁移走,再将新桥梁拼装至原桥墩上,新桥梁与预定位置误差控制在了9毫米之内。

 

京东此次最大的创新之一,便是在数字世界上演“秒级换桥”。在往年,应对10亿级互动活动的常见手段是:增加新服务器——但京东云没有。它选择了资源腾挪调度,即:不新增计算资源,调度腾挪既有服务器资源。这在春晚互动保障史上是第一次!

 

如此一来,“秒级换桥”攻坚战便开始了。原有的“购物场景”是老桥梁,“春晚互动场景”是新桥梁,服务器是桥墩。京东的原有服务器,要在服务于“购物场景”,和服务于“春晚场景”的两个模式之间腾挪,并且必须在短时间内(秒级)快速切换。

 

这给国内云计算产业提供了新的发展思路:从“粗放式上云”转向“精益式上云”,从“上云”到“把云用好”,从“拼消耗”到“拼高效”。

 

数字经济已然成为国策,而云计算是数字经济的“引擎”,市场规模在2020年就已达到2091亿(中国信通院数据),预计很快将突破3000亿。引擎工作方式的改变,将直接影响数字经济的进化姿态,最终赋能实体经济。从这一点看,今年的虎年春节,确实给行业带来了惊喜。

 

每年年终,老百姓看春晚,行业人从春晚看云计算。春晚的进化每年挑战极限,总需要一批探索者一年一度奋勇而上。

 

大家也总是乐此不疲,因为他们知道:攻克春晚,就是攻克新的“云高地”。




 01 
  19天,技术保卫春晚和年货春运的双线作战

和往年不同,京东要面对的是一场更急也更难的战役。

 

去年12月底,京东云研发团队收到来自集团市场部门的征求建议,可能要承接2022年中央电视台总台春晚抢红包项目,请他们做严谨的评估:服务器资源、算力、系统承受力、团队经验等等。

 

经过多方深度调研之后,研发团队得出一个结论:即便不做任何针对性准备,马上开始春晚红包的技术支持,也有七成把握。更关键的是,留给他们的准备时间也不多,1月24日春晚红包互动预约活动将要开启,满打满算也不到1个月。

不到1个月,他们要面对的是近年来观众参与数最多的“2022春晚”,再加上还要同时支持京东“年货春运”的长链路应用和复杂场景,需要双线作战,可能是史上最具挑战性的一届。

 

艰难程度显而易见。思索再三,京东研发团队还是决定接下这个任务。这是一次挑战,是过去十年中京东的“第一次”。尤其是对京东云而言,挑战春晚就是挑战云计算的“珠穆朗玛峰”。

 

时间来到1月5日,中央广播电视总台召开发布会,官宣京东成为总台2022年春晚独家互动合作伙伴:双方将在红包互动、电商等方面展开全方位深度合作。

 

对于京东而言,这既是一则喜讯,也意味着行动号角声彻底吹响了。从彼时开始,不足30天的筹备时间变成19天,相比上届春晚备战时间缩短了近30%。



 △ 京东云产品研发部工程师讨论春晚项目


好在行动前,京东云已经做过评估:七成把握。但号角声一旦吹响,“七成把握”就要变成“万无一失”。怎样补足剩下的 “三成把握”,是研发团队要做的第一件事。

 

首要解决的问题是算力。经历过数年京东618、11.11等复杂场景的锤炼,京东云的技术服务体系可以应对超大规模流量洪峰,但是这次的流量洪峰将远超电商大促,是毫无争议的全球最高。算力提升最直接的办法就是增加服务器,按照过往友商的做法,需要再增加五万台服务器。

 

京东云放弃了此方式,原因很明确:堆砌硬件资源的性价比不高,短期项目不适合投入长期成本——他们想到了另一条路径:发挥云计算的特有优势,进行资源腾挪调度。


 02 
  数字世界的“43小时三元桥换桥”

 

什么是资源腾挪调度?不过度依靠新服务器,而是依靠既有服务器资源在云上进行弹性扩缩容,快速进行腾挪调度。

 

这种难度并不亚于“43小时三元桥换桥”。2015年11月13日23点,北京三元桥曾启动一个著名的“桥面更换”工程。43小时,把重达1600吨的旧桥梁移走,再将新桥梁拼装至原桥墩上,新桥梁与预定位置误差控制在了9毫米之内。

 

京东云此次上演的便是数字世界的“三元桥换桥”。



△ 京东云数据中心

这时候,一个关键产品开始发挥作用——京东云混合多云操作系统“云舰”。京东研发团队表示,它实现了基础设施全面、彻底的统一化管理与调度,可以方便把算力从其他系统上调度出来。

 

京东云“云舰”的底气来自于京东在云原生方面的实践。从2013年起,京东开始用容器来改造IT系统,目前,京东云运营着全球最大规模的容器集群,是全球容器化最彻底的企业之一。

 

全面容器化为京东技术架构打下坚实的地基。它的好处是,所有服务都无差别地封装在“容器”里,最大化屏蔽底层差异,实现底层基础设施的标准化。这也是“云舰”实现资源超高弹性、快速变阵的关键所在。

 

作为春晚技术保障的核心系统,“云舰”拥有清晰的全局视野、精妙的作战计划和敏捷的反应速度。

 

算力解决后,是系统架构问题。为了应对远超京东618的流量洪峰,京东云团队将磁盘架构换为内存型架构,不仅保证写入速度更快,还能保证数据不丢失。这次系统架构改造京东云团队仅用了一两周时间,与此同时,他们还在同步进行着压力测试。

 

在大流量冲击下,系统全链路都需要进行或改造或加固,京东云团队进行了模拟真实场景的全链路压测。京东云要同时支撑春晚红包互动和京东年货春运,前者是全球最大规模的网络互动活动,后者则涉及复杂的业务场景。


备战春晚的京东总部,夜晚依旧灯火通明。


双线作战出现问题的可能性也更大。因此京东云团队的压测一做就是8轮,团队成员封闭作战,几乎不眠不休。同时,团队的心态也越发强劲,从最初抱着七成成功的心态,逐渐升为99.9999%成功的心态,用最严谨的态度保证这次春晚项目。

 

至此,一套完整的闭环解决方案就算完成。但依靠一套解决方案,依然无法保证“万无一失”,不到100%,就意味着还有出错的可能。

 

为此,京东研发团队按照同样标准,又做了几套近乎严苛的预案。团队把各个子系统中,各种可能出现的意外全部收集起来做成几百页的剧本,反复演练预案步骤和效果,当真正遇到突发状况时,能够自动化执行预案,做到分钟级响应,最快甚至可以做到秒级响应。

 

在完美备案背后,是京东云积累了多年的混沌工程能力,以及一个稳定性主动管理系统“云泰”。在系统预案和演习中,云泰提供了较为强大的助力,其对外输出可见、可查、可管、可控的稳定性解决方案,提供稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗和基于“稳定性基线”的评分服务等核心功能。



 03 
  云产业趋势:从“拼资源”到“拼高效”

今年春晚,老百姓看春晚,云计算产业看京东。关注这次挑战的不只有京东云,整个云计算产业也在关注。如果2022年央视春晚红包项目挑战成功,意味着另一个巨大的事实:整个产业对于“云”的利用效率提高了。

 

过去7年,每一届春晚对云计算的要求,每年以10倍速度递增。以前的惊喜点是“有云”,而今年的惊喜点是“把云用好”。


从2015年红包互动第一次出现在春晚上,到今年已经是第七年。红包互动首次出现在春晚上,尴尬的宕机事件就发生了,在接下来的2016年,宕机问题也再次出现。2017年,春晚红包互动取消,2018年再次恢复,但是宕机“魔咒”仍未被驱散。直至2019年后,春晚红包互动宕机危机才消失在春晚中。在红包互动稳定的同时,春晚带来的云计算压力却在不断上升。从2019年~2021年,春晚总红包互动量增加了3倍之多,可以看到,这七年间不仅“抢红包”逐渐成为一种新的过年习俗,国内云计算技术也有了质的发展。

 

“宕机”是体验的浅层表现,但背后却深层地指向一个事实:我们还没有把云用好。以往的粗放式上云方式更多依靠“拼消耗”(堆砌硬件资源),而精细化上云更强调“拼高效”。



2022年虎年春晚和往年不同,今年红包互动量高达到691亿,还融合了消费场景的长链路,每一个链路节点的增加,都让这一场景的复杂度和保障难度指数级增加。京东在几乎不增加服务器资源的情况下,依靠敏捷高效的资源腾挪调度,完美地完成了备战时间史上最短、互动活动史上最长、世界上规模最大的网络互动活动、全球最复杂场景的极致挑战,体现了云厂商的技术领先性和业务成熟度。

 

京东云此次转变的最大思路,便是从原来的“拼消耗”改变为“拼高效”。通过云原生数字基础设施,采用混合云操作系统(云舰),在约4-5小时的晚会中,京东完成了16次秒级腾挪。

 

纵观云计算产业,也从来没有一个企业,能在一场4小时的亿级用户互动活动中,实现如此复杂的秒级腾挪。这给云计算产业提供了新的发展思路:从“粗放式上云”走向“精益式用好云”。

 

“精益之路”并不好走,需要更多的马拉松选手。京东很多技术项目经历了10年以上的持续研发和优化,打磨出真正卓越的技术成果。而作为京东集团对外提供技术服务的核心品牌,京东云在技术领域执着深入,默默体现着典型的工匠精神。


对京东云而言,踏实做事带来的是斐然的成绩。在政府服务领域,京东云建立了70个城市云服务基地,提供智能城市数字化平台和政务数字化服务;在金融机构服务领域,为800多家各类金融机构提供数字化服务的综合解决方案;在企业服务领域,为1500多家大型企业、超150万家中小微企业提供了数字化解决方案,帮助企业实现数智化转型。

 

京东云作为最懂产业的云,深耕社会化数智供应链,云链一体,成为京东云相较于其他云厂商最突出的差异性竞争优势。




欢|迎|联|系

想获得报道,请联系:wujinna1015

想了解PR、融资服务,请联系:renguozhou2019

想加入创业社群,请联系:F1453930793

想进行市场合作,请联系:luckyzoey1001


推|荐|阅|读



关|注|我|们



喜欢的话,别忘了分享、点赞和在看哦!

   防失联,微信扫一扫关注“武侠评论”
(微信内直接长按二维码)

网站在不断完善,历史文章持续更新中,敬请期待

  防和谐,部分敏感内容设置了密码访问,公众号输入文章ID获取密码 ID是URL最后的数字,如https://www.wuxiapinglun.com/posts/15250,ID为15250

赞(0) 打赏
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《19天,京东云的春晚保卫战》
文章链接:https://www.wuxiapinglun.com/posts/16887
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
分享到: 更多 (0)

相关推荐

  • 暂无文章

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

微信扫一扫打赏