经典案例:艺龙旅行网宕机的灾备所想
灾备 宕机经典案例:艺龙旅行网宕机的灾备之思
导读:分布式存储与集中共享式存储各有利弊,并无绝对的优劣之分,只是各有侧重。那么对于灾备到底是选择分布式存储,还是集中共享式存储呢?
7月11日艺龙旅游网出现持续的访问故障。事故源于EMC存储设备出现故障,而由于存储灾备的不完善导致长时间无法修复。
此次宕机可谓是2011年最大的宕机事件。对于艺龙旅行网这样的在线服务提供商,其时刻在线与稳定性是至关重要的,而此次事件也给艺龙旅行网带来了巨大的损失,仅是营业收入就损失了14.7万,更何况其潜在的影响也是不可估量的。
这使我们不得不思考:此次事件只是单纯的EMC硬件问题吗?
业界的技术架构人员对EMC持支持态度,认为如果仅是硬件问题,EMC不会持续这么长时间得不到恢复。我们只能说
是EMC的存储硬件出现故障而引发了这次事件。其根本问题是艺龙缺乏对数据库的备份,存储层没有灾备方案,导致系统恢复缓慢。即使其硬件故障得到及时的解决,其内在数据的丢失使其业务不能马上运作。
所以此次事件引起业界对灾备的重视。千里之堤毁于蚁穴,细节决定成败,套用一句成语,勿以“细小”而不为。
其实艺龙这次宕机事件之所以这么严重,主要是因为其仅仅采用了集中共享式存储方式,造成了单点故障。这么说请大家不要误解为集中共享式存储不好,只是有更好的、更全面的灾备解决方案。请听我细细道来。
所谓集中共享存储,是指建立一个庞大的数据库,把各种信息存入其中,各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。其可扩展性较差,很容易引发单点故障。也正因为此,针对此次艺龙旅行网宕机事件,不少网友指出艺龙应该采用较多的PC或服务器组成集群,将数据分散存储,避免专用的存储设备成为单点故障。
其实此类网友观点正式与集中共享式存储相对应的概念——分布式存储。分布式存储采用可扩展的系统结构,利用多台存储服务器分担存储负荷。多台服务器之间的数据互为镜像,避免单台服务器故障导致数据丢失。
虽然这不失为一种解决方案,但分布式存储存在的问题我们也不能忽视。分布式存储无负载均衡,例如发生热点时,部分流媒体服务器忙或部分闲置,利用率比较低。其成本比集中存储成本要高。
总之,分布式存储与集中共享式存储各有利弊,并无绝对的优劣之分,只是各有侧重。那么对于灾备到底是选择分布式存储,还是集中共享式存储呢?这并不是“鱼与熊掌不可兼得”的问题。集中共享式存储就好比把所有鸡蛋放进一个大篮子,一旦大篮子出项问题,所以鸡蛋就都碎了。而分布式存储就好比将所有鸡蛋分装到多个小篮子中。最安全保险的方法就是既用大篮子,大篮子下又有小篮子,分布式存储与集中共享式存储双剑合一。
页:
[1]