从去年开始,我们项目组两台小机经常无故重启,搞得我们和局方很是老火。请神码和IBM的工程师,一直未找到原因,提心吊胆的过了一年,中间出现了两次故障。最后请oracle原厂工程师解决,别告之,RAC的时间不能向后调。超过30S就有宕机的可能。据日志分析,只要是时间跳动超过30秒,全部都宕机过。查看NTP配置,当时神码的兄弟做系统时未做修改,采用步进式调整,一次性调整,故RAC直接宕机。经做模拟测试,故障重现,NTP配置修改后,故障消失。
关于这个故障,分析总结了很多原因,但是由于不具强有力说服力,一直未做整改操作。
其中最为具有迷惑力的原因为:一光一电不能做成一个team,如果不是oracle快速的找到原因,我可能就要拆除这个组了。做单点直连了。 |