周一,Facebook、Instagram和WhatsApp发生了近6个小时的重大故障,之后,这家社交媒体巨头的旗舰服务正在蹒跚恢复。Facebook、Instagram、WhatsApp、Messenger和Oculus VR在美国东部时间上午11:30左右一度从互联网上全部消失,原因似乎是Facebook的DNS服务器配置错误。
经过近六个小时的停机,Facebook的服务开始重新出现在一些用户面前,但预计在一段时间内不会完全恢复。
正如Cloudflare的一篇博文所详述的那样,这个问题可以追溯到边界网关协议(BGP)的更新出了问题,影响了流量路由并导致域名系统(DNS)的故障。BGP是一个网络用来向其他网络公布其存在的系统,并据此对流量进行路由。如果没有Facebook公布的路由信息,DNS解析器就无法对facebook.com和instagram.com等IP地址的查询作出回应。
据报道,一位正在从事恢复工作的消息人士告诉记者,BGP更新阻止了对Facebook系统的远程访问,这意味着场外技术人员无法及时完成恢复工作。那些能够访问受影响系统的人也无法进行修复,一切只能交给时间慢慢解决。
《纽约时报》报道说,安全工程师说他们无法接触到受影响的服务器,因为他们的数字身份认证系统同时也停止了工作,这使问题更加复杂。更不用说其他员工报告说,Facebook的内部通信平台Workplace也随着大范围的故障而下线,使他们之间难以及时联络。
《泰晤士报》获得的一份内部备忘录显示,Facebook向其位于加州圣克拉拉的数据中心派出了一队员工,试图对服务器进行"手动重置"。这一努力显然起了作用,因为服务正在慢慢恢复。