扎克伯格个人财富一日蒸发逾 60 亿美元。
在被指控“从放大仇恨言论的算法中获利”后不久,Facebook再次陷入危机。
美国东部时间10月4日上午11时39分左右,美国社交媒体Facebook、instagram和即时通讯软件WhatsApp经历了大规模宕机,持续了近7个小时,刷新了Facebook自2008年以来最长的宕机时间。
对美国互联网监测网站downdecotors的监测显示,Facebook在欧洲、美洲和大洋洲几乎完全离线,在日本、韩国、印度和亚洲其他国家无法访问。据报道,“微信”即时通讯产品WhatsApp和Facebook Messenger在全球分别拥有20亿和13亿用户,社交平台instagram的用户数量也达到了10亿。
除了给数十亿用户带来麻烦外,Facebook的服务中断还阻止了其员工使用内部工具进行沟通。Facebook的电子邮件和工具由企业内部管理,许多Facebook员工无**常工作。
Facebook首席技术官迈克·施罗普弗(Mike Schroepfer)在推特上道歉
一条指令引发的“血案”
Facebook表示,故障的根本原因是日常维护工作发出的错误命令,导致其DNS服务器无法使用,并切断了Facebook整个主干网络与数据中心之间的连接。
所谓的主干网是Facebook为所有计算设施建立的全球连接网络。它由数万英里长的光缆组成,横跨世界各地,连接着世界各地的数据中心。Facebook infrastructure副总裁Santosh Janardhan在文章中解释说,数据中心主要有两种形式:一种是“巨大的建筑物”,存储数百万数据存储和高强度计算负载运行设备,另一个是一个小设备,通过bone stem网络连接到整个互联网,构建Facebook社交平台的各个方面。
当用户打开应用程序并加载摘要或消息时,应用程序提出的数据请求将从当前设备传输到最近的设施,然后通过主干网直接与较大的数据中心通信。应用程序所需的信息将在这些数据中心检索和处理,然后结果将通过网络发送回用户的手机。
维护基础设施的日常工作非常繁重。工程师通常需要离线维护主干网的一部分,包括修复光纤线路、扩展容量或更新路由器自己的软件。这也是停电的原因。
Janardhan说,在一次例行维护工作中,工程师发布了评估全球主干网容量可用性的指示,但意外地切断了主干网中的所有连接,这实质上是Facebook全球数据中心之间的断开连接。不幸的是,Facebook的系统旨在审查此类指令以防止出错,但其功能是发送错误提示,并不能真正阻止指令的执行。
这起事故导致Facebook数据中心与互联网之间的服务器连接完全断开,带来了一系列连锁效应,进一步恶化了局面。
在此停机事件中,由于整个主干网已瘫痪,每个DNS服务器位置都报告了连接状态问题,并撤消了边界**协议(BGP)通知。最终的结果是,尽管Facebook的DNS服务器仍在运行,但无**常访问,因此其他互联网用户无**常访问其服务器。
响应DNS查询是小设施的一项重要任务。DNS可以称为Internet的地址簿,它可以将用户在浏览器中输入的简单网络名称转换为特定的服务器IP地址。这些翻译查询由Facebook的权威名称服务器回答,这些服务器本身占据着最知名的IP地址。接下来,这些服务器通过边界**协议(BGP)向互联网的其余部分发出通知。为确保操作可靠性,如果DNS服务器本身无法与数据中心通信,则将禁用所有BGP公告,表明当前网络连接状态不正确。
简而言之,Facebook拿走了告诉世界计算机如何找到各种在线资产的地图。因此,在web浏览器中键入facebook.com时,浏览器不知道在哪里可以找到facebook.com,因此返回错误页面。
为什么无法及时修复
为什么故障持续了近七个小时?
Janardhan说,工程师们在修复这一故障时面临两大障碍:第一,由于主干网出现故障,Facebook工程师无法以正常方式访问他们的Facebook数据中心;其次,DNS没有响应,使得Facebook无法使用常规的内部工具来调查和解决停机问题。
主干网和带外网络访问均失败,这意味着工程师只能到现场调试并尝试重新启动系统。但这需要时间,因为各地的设施都遵循高水平的物理和系统安全策略。
不正确的更新会阻止Facebook员工恢复和更改系统,他们中的大多数人都在远程工作。与此同时,那些能够实际访问Facebook大楼的人无法访问Facebook的内部工具。
“任何人员都很难进入,一旦他们进入并获得物理访问能力,这些硬件和路由器的设计也很难修改。因此,需要更多的时间引导工程师进入机房,并为他们提供在服务器上工作所需的安全访问协议。只有在这种情况下Janardhan写道:“我们可以确认问题并使主干恢复在线。”。
一些专家估计,Facebook、instagram和WhatsApp全球服务中断一小时将给全球经济造成1.6亿美元的损失。与此同时,Facebook的股价当天暴跌6%,扎克伯格的个人财富每天蒸发60多亿美元。
每天晚上都下雨。在Facebook全球网络服务中断期间,据说黑客论坛出售了超过15亿Facebook用户的数据。但Facebook否认用户数据泄露与服务中断有关。
Janardhan说:“我们想澄清的是,这次停机背后没有恶意活动。根本原因是我们方面错误的配置更改。我们也没有证据表明用户数据因这次停机而受损。”。
架构缺陷
东部时间下午6:33,Facebook在推特上宣布其应用程序和服务已开始恢复运营。恢复每个数据中心区域的主干网连接后,一切都将恢复。但问题并没有真正结束。
同时重启所有服务将带来新的隐患,因为流量激增可能导致新一轮的崩溃。个别数据中心还报告说,由于停机,设施的功耗减少了数十兆瓦,发射带来的功耗突然激增可能会对各种设备(如电气系统和缓存)产生意外影响。
Janardhan表示,尽管Facebook一直在进行“风暴”演习,让服务、数据中心甚至整个地区离线,并对所有相关的基础设施和软件进行压力测试,以模拟重大系统故障,但它没有实践全球主干网的离线情况,并将在未来找到可行的解决办法。
Cisco千家万户产品营销总监Angelique Medina负责监控互联网流量和故障,她表示,这起事件暴露了Facebook架构的一个缺点:如果出现DNS故障,并且没有备份DNS,则可能会出现长期故障,“因此我认为这起事件的一个重要教训是使用冗余DNS。”
Medina说,一个更健壮的体系结构将具有双DNS服务,因此一个DNS服务可以支持另一个DNS服务。例如,根据Medina的说法,Amazon(其AWS提供DNS服务)的DNS使用两种外部服务:dyn和ultradns。
与此同时,此次断电也使Facebook在反垄断调查中的情况更加糟糕。
美国众议院议员亚历山德里亚·奥卡西奥·科尔特斯(Alexandria ocasio Cortez)表示,Facebook的大规模宕机凸显了该公司在全球通信和其他服务领域的垄断地位。在推特上,该公司表示,周一Facebook的大规模关闭提醒人们该公司垄断了全球通信和其他服务,并再次表明Facebook应该被拆分。
文章标题:Facebook遭遇史上最严重的宕机,刷新了自 2008 年以来的最长宕机时长
文章链接:https://www.btchangqing.cn/324905.html
更新时间:2021年10月09日
本站大部分内容均收集于网络,若内容若侵犯到您的权益,请联系我们,我们将第一时间处理。