在去年5月21日,有用户通过邮件联系到我说ColorBroad无法访问,我通过手机检查发现属实,随即访问同服务器下挂载的其他几个网站,经检测ALL DIE,此时我以为只是网络波动导致,便在GoodKvm控制台发起工单询问...
等我得知数据彻底损坏的消息的时候,已经是当天晚上,以下是官方通知:
- HK-Lite3節點故障通知,因磁盤出現不可抗拒因素,出現掉盤,先已安排機房駐場人員進行緊急處理,耐心等待恢復
- 2023.5.21 09.00
駐場人員已經到達機房進行處理 - 2023.5.21 10.31
經技術確定,slot2/slot3/slot5 ,slot2 foreign,但是已經掉盤,slot3/slot5 MISSING,嘗試修復中。 - 2023.5.21 14.56
經確定,無法Import,因為我們的Raid10,只允許損壞2個磁盤,現已三塊損壞。 - 2023.5.21 22.00
硬盤徹底損壞,數據已經無法恢復,我們將在7個工作日了給出賠付方案。
我不清楚为什么一个正规运营的机房会出现这种影响恶劣的故障,还是说机房上线的硬盘全是洋垃圾?
这一次搞得我损失惨重,数个网站近一年的数据清零,本来有两个网站处于持续盈利的状态,一个月净利润能够有个小几K,现在...毛都没有了。
不过庆幸的一点,几个工具类的网站我都是使用的NoSql结构开发的,全静态没有数据库,产生的数据也是使用JSON文件存储在分布式的OSS上面,此次得以幸免。
有了这次事件,我是再也不敢相信小厂商也能稳定运营机房了这种话了,也不敢宝塔自动备份一开却放在上面几个月不下载了。
哭泣。
厉害。
备份太重要了。
现在三小时一备份,然后由另一台机器下载下来存档并上传到分布式OSS上面