... Beitrag vom Sonntag dem, 16.05.2010

Cluster-Ausfall Nürnberg

Ausfall von Web-Präsenzen und Internet-Zugängen des Unternehmens RSM Freilassing dauerten 28 Stunden an. Neue Hot-Standby-Server schützen vor weiteren Ausfällen, eine CLOUD-Plattform hält Internet-Zugänge online. ...

Nürnberg, den 14.05.2010: Seit wenigen Tagen meldete der Primary-Cluster-Server der Firma RSM Freilassing einen Festplattenausfall. Das RAID-Array mit dem Status DEGRADED sollte von einem Techniker der Firma RSM Freilassing, der sich gegen 07:00 Uhr von Freilassing auf den Weg in das Rechenzentrum Nürnberg begab, wieder Instand gesetzt werden, um ein hohes Maß an Verfügbarkeit des Cluster-Servers gewährleisten zu können.

Zwei in einem Cluster verbundene Server teilten sich die ihnen gestellten Aufgaben, um Datenbankabfragen und dynamische Webseiten schnell und effektiv abarbeiten und ausgeben zu können.

Neue Infrastruktur

Beide Systeme verfügten dafür über ein 500 GB RAID-1-Array zur Spiegelung aller Daten auf dem eigenem System. Per Clustering über beide Systeme wurde ein einziges 1 TB RAID-10 Array exportiert. Mit dieser Art und Weise des dargestellten Mirrorings stellt man sicher, dass eine Festplatte ausfallen und das ganze System dennoch mit der vollen Rechenleistung ihre Arbeit vollrichten kann.

Der Festplattentausch am halb defekten Cluster stellte keine großen Probleme dar, doch der Controller, welcher das RAID-Array des Systems verwaltete, konnte mit der neuen Situation nicht umgehen. Nach einem HotPlug stand das Serversystem still. Ein Reboot des Systems endete in einem RAID-Failure. Der RAID-Controller erkannte die bisher verwendete und noch intakt gewesene Festplatte nicht mehr.

Jetzt war schnelles Handeln gefragt, doch es vergingen mehrere Stunden, in denen mehrere Kombinationen versucht wurden, die Festplatten am System wieder in Betrieb zu bekommen. Das RAID-Array ließ sich jedoch nicht mehr ordnungsgemäß starten, was den Totalausfall des Clusters zu bedeuten hatte.

Kunden der RSM Freilassing, die ihre Web-Präsentation auf diesen beiden Servern zur effektiven Lastverteilung betrieben, mussten mit einem Ausfall von 28 Stunden vorlieb nehmen. Am darauf folgenden Samstag gegen 20:30 Uhr konnten alle Services ohne Datenverlust wieder wie gewohnt betrieben und fortgeführt werden.

Während des Ausfalls mussten auch RSM Connect Kunden auf ihren Internet-Zugang verzichten, denn die Infrastruktur wurde zu dieser Zeit noch über die beiden Cluster-Systeme betrieben.

Vor der Reparatur des defekten RAID-Arrays wurden zwei neue Hochverfügbarkeits-Server im Rechenzentrum installiert, die die Infrastruktur auf Basis eines CLOUD-Systems zur Verfügung stellt. Nach erfolgter Reparatur des defekten RAID-Arrays wäre die Migration der Infrastruktur auf die neuen Hochverfügbarkeits-Server angestanden, was sich leider aufgrund der oben beschriebenen Problematik dementsprechend verzögert hat.

RSM Connect Kunden konnten bezüglich der Migration auf die neue Infrastruktur insgesamt 18 Stunden lang nicht im Internet surfen. Gegen 04:30 Uhr konnte die alte Infrastruktur auf die neuen Server übernommen werden. Die komplette Migration dauerte aufgrund verschiedener Routing-Problemen jedoch bis 11:00 Uhr an.

Ausfälle der gleichen Art sind nicht mehr zu erwarten. Im Zuge des Ausfalles wurden sogenannte HotStandby-Server installiert, die bei Ausfall eines kritischen Cluster-Servers sofort die Arbeit des Cluster-Servers übernehmen.