从绝望到希望:微盟的惊魂168小时
“我们幸免于这次‘天灾’,却不料一场‘人祸’让我们处于无比艰难的境地。”2月27日,微盟创始人孙涛勇说出这句话时,微盟正面临公司历史上最大的危机。
2月25日,微盟在港交所发布一则自愿性公告,对外公布2月23日19点以后公司SaaS业务生产环境和数据遭到破坏的消息;2月28日,微盟恢复了所有的SaaS业务生产环境,但没有找回全部的备份数据,而是仅恢复了微站产品的备份数据;3月1日20点,数据才全部找回。
如果这部分数据无法找回,那对微盟的影响将难以想象。2013年创立的微盟,于2019年1月登陆港交所,根据其2019年中期财报,SaaS业务的收入占微盟总收入33.4%,毛利润占比48.5%。
事实上,微盟此次遇到的并非员工误操作导致的数据丢失,而是一次人为恶意破坏。此前,有位多业内人士向记者表示,这种情况下想完全恢复如此大规模的数据,几乎是不可能的事情,但微盟很幸运。从数据丢失到数据找回,微盟经历了惊魂168小时。
数据消失
2月23日下午6点多,微盟服务器发出故障报告,排查后发现,所有服务器都处于服务无法响应的状态。紧接着,技术人员重启了其中一台服务器,结果发现系统内所有的数据都不见了。
“这个时候情况已经非常紧张,因为服务器是大面积出现故障,这可能有两个原因,一是被入侵,二是被故意破坏。”腾讯云运维中心和客户服务部门负责人徐勇州表示。
腾讯云随即安排两条业务线同时进行进一步排查,一条线是服务器团队,他们继续对服务器进行检查,最终确定,微盟服务器上所有文件已全部丢失;另一条线是安全团队,他们通过与微盟的技术人员合作,定位到是一个经授权的账号进入数据库进行了删除操作。
做技术工作的人有时相互开玩笑会提到“rm -rf /* ”,这是Linux系统下的文件删除命令,它将删除包括系统和数据在内的所有文件,且不可恢复。
而微盟,正是遭遇了这一黑天鹅事件。据介绍,微盟除了数据库被删除外,备份的服务器也无法登录,这意味着备份数据也被一并删除。原因是公司一位核心运维员工删除了相关业务数据。
数据恢复其实是一个非常专业的领域,正常来说,都是由企业主导,云厂商作为协助。但微盟当时已经没有更多办法,只能依靠腾讯云,而腾讯方面面对这个情况,其实信心也不大。
“数百T的数据,连备份都被删除了,还想在较短的时间内恢复,这在过往的历史上还没发生过。我们咨询了几家数据恢复公司,他们均表示这种情况能恢复20%左右的数据就非常不错了。”徐勇州坦言。
紧急救援
通常来说,数据恢复工作可以分为三个阶段:第一步,是控制受损面,这是要保证那些有机会找回数据的服务器不要再发生任何问题;第二步,就是通过专业软件找回数据;第三步,则是公司进行数据验证、上线联调等操作。
其中,最关键的是前两步,如果前两步能顺利完成,那数据也就顺利找回了。这次微盟的数据找回工作,也基本是按照这个流程。
徐勇州表示,按照第一步,他们首先要为源数据做镜像拷贝,以保护好源数据。但通过对微盟情况的分析,他们觉得无论是传统的网络对拷还是硬件对拷,在时效性和安全性上都无法满足。
于是,腾讯云团队做了一个大胆的决定:越过镜像拷贝的步骤,将另外一块系统盘安装到原有服务器上,通过新系统盘加载OS和数据恢复软件,直接对服务器进行扫描。
“在进行操作时,很多同事无法到达现场,我们一群人就通过视频连线,对前方的每一步操作进行确认”,徐勇州回忆说,整个过程非常紧张,因为这是不可逆的过程,做错任何一步,都无法挽回。
好在最后有惊无险,源数据的读取工作顺利完成,接下来的挑战是数据提取。2月26日,腾讯云团队拿到第一批次数据,导入验证后也正常,这让他们非常兴奋,感觉胜利近在咫尺。但他们很快发现,这些都是截至2月17日的数据,即便这份数据完整,也仍有一周的数据丢失。
整个团队的心情随即再次落入谷底。但事实上,通过前面的一系列操作,已经证明数据仍然存在,只不过当时希望找回的是全部数据。
于是,腾讯云团队又重新制定了“打捞”方案。这次,他们决定按照数据公司的恢复方案,对磁盘的每一“块(block)”都进行扫描,与此同时,腾讯云团队还制定了一个B计划,即从服务器的OS层进入打捞数据。
“B计划是备用方案,它需要海量的尝试和数据验证,非常耗时。一旦需要采用B计划,那微盟的数据肯定无法按预期完成,具体的时间也难以确定。”徐勇州说。
幸运的是,第一台服务器的第一“块(block)”便扫描成功,拿到的数据经验证也是完整的,这说明A计划可行。只不过,通过这个方式得到的数据大小,都远远小于微盟核心数据的大小,这就像被打乱了的巨大拼图,想要获得完整数据,需要进行拼接。
“数据越大,拼接的难度也越大。但好在微盟的备份机制比较完整,数据类型也相对统一,最后通过一系列技术手段,终于完成了拼接工作,微盟的数据也成功找回。”徐勇州说。
3月2日,微盟发布公告称,截至2020年3月1日晚8点,在腾讯云的协助下,公司备份的数据已经找回,并将于3月2日凌晨2点至上午8点进行数据恢复上线演练,于3月2日晚10点至3月3日上午9点,进行数据恢复上线。
3月3日上午,微盟宣布,截至2020年3月3日上午6点,公司的SaaS业务数据已恢复上线。
敲响警钟
数据丢失,微盟损失惨重。在2月25日正式披露数据丢失后,微盟的股价连续三日大幅下跌,从6.18港元一度跌至4.8港元,跌幅超20%。而针对商家,微盟则准备了1.5亿元的赔付资金,并提供了现金赔付和流量赔付两种赔付方式。
一位信息安全专家告诉记者,人为因素,现在已经是引发企业数据安全问题的最主要导火索,有些就是员工的一个误操作,导致服务器崩溃或者删除了核心数据库,另外还有就是像微盟遇到的恶意破坏,这种危害性更大。
针对这一问题,徐勇州向记者表示,企业的数据安全不能仅依靠哪一项单独策略,而是要有一整套完整的体系,且每一个环节都不能有疏忽。相比传统的数据管理,在云上,数据的安全将会得到更多保障。
比如通过云账号管理权限的管控,可以让企业对账户下资源的访问权限做到粒度可控,比如允许某些子账号只拥有某个COS存储桶的读权限,而另外一个账号拥有该COS存储对象的写权限等,这样可以大大降低误操作或非必要操作引起的数据损坏、丢失的风险。
- 标签:
- 编辑:金泰熙
- 相关文章