Was ist Disaster Recovery?
Disaster Recovery (DR) umfasst die Verfahren, Richtlinien oder Prozesse, die die lebenswichtige IT-Infrastruktur eines Unternehmens darauf vorbereiten, sich effektiv von natürlichen oder vom Menschen verursachten Katastrophen zu erholen und die Geschäftskontinuität sicherzustellen.Von Cyberangriffen und Geräteausfällen bis hin zu Hurrikanen oder anderen Naturkatastrophen – DR muss jedes mögliche Szenario abdecken, das die Verfügbarkeit der IT-Infrastruktur gefährdet. In den letzten Jahren hat die Notfallwiederherstellung eine zunehmend vorherrschende Rolle in den Budgets für Unternehmenscomputer übernommen und macht häufig 20-25% der IT-Computerkosten aus.
Den richtigen Disaster Recovery Plan haben
Ein Disaster Recovery Plan (DRP) beschreibt, wie eine Organisation auf ein bestimmtes Katastrophenszenario reagiert, mit dem Ziel, zeitkritische Geschäftsprozesse und -funktionen zu unterstützen und die vollständige Geschäftskontinuität aufrechtzuerhalten.Ein DRP enthält sowohl reaktive als auch präventive Elemente und ist ein wichtiger Bestandteil der Business Continuity Planning (BCP) eines Unternehmens. Auf der Reaktionsseite beschreibt ein DRP zahlreiche Katastrophenszenarien und definiert die detaillierten Reaktionen auf jedes einzelne Ereignis mit dem Ziel, die negativen Auswirkungen dieses Ereignisses zu minimieren. Auf der präventiven Seite zielt ein DRP darauf ab, die negativen Auswirkungen bestimmter Szenarien zu minimieren, indem definiert wird, was die Organisation tun muss, um sie zu vermeiden.
Genauer gesagt muss ein DRP einen Aktionsplan als Reaktion auf den Verlust von unternehmenskritischen IT-Komponenten und -Diensten wie:
- Komplette Computerraumumgebungen
- Kritische IT-Hardware einschließlich Netzwerkinfrastruktur, Server, Desktop- oder Laptop-Computer, drahtlose Geräte und Peripheriegeräte
- Service Provider connectivity
- Enterprise-Softwareanwendungen
- Datenspeichergeräte oder -anwendungen
Um maximale Effizienz zu erzielen und die Kosten im Zaum zu halten, sollten Unternehmen planen, eine Kombination aus internen Ressourcen und herstellergestützten Lösungen in ihrer Notfallwiederherstellungsplanung zu nutzen. Der optimale interne/ Anbietermix hängt von den spezifischen Disaster Recovery-Zielen des Unternehmens ab, die in Bezug auf das Recovery Time Objective (RTO) und das Recovery Point Objective (RPO) gemessen werden. Das Ziel der Wiederherstellungszeit kann grob als die Zeit definiert werden, die ein Unternehmen ohne Systemverfügbarkeit arbeiten kann, während das Ziel des Wiederherstellungspunkts ausdrückt, wie alt die Daten sein werden, sobald sich die Systeme erholen.
Data Center Disaster Recovery
Um die RTO- und RPO-Ziele eines Unternehmens zu erreichen, stehen Rechenzentrumsbetreiber vor zahlreichen Herausforderungen. Eine zentrale Herausforderung ist die Datensynchronisation. Mit anderen Worten: Wie kann am besten sichergestellt werden, dass die Daten an allen alternativen Standorten aktuell sind, um die Servicekonsistenz und Geschäftskontinuität auch im Katastrophenfall zu gewährleisten?
Bis zu einem gewissen Grad liegt die Antwort auf diese Frage in der Replikationsebene, die als die Häufigkeit definiert werden kann, mit der das empfangende System (die Sicherungsumgebung) den Empfang von Daten vom sendenden System (der Produktionsumgebung) bestätigt. Die gebräuchlichsten Replikationsmethoden sind:
- Synchrone Replikation – Die sicherste und gleichzeitig ressourcenintensivste Replikationsmethode. In einem Szenario der synchronen Replikation bestätigt das empfangende System jede einzelne Änderung, die vom sendenden System empfangen wird. Die Anwendung dieser Methode erfordert die Wartung einer „Hot“ -Backup-Site und ist am effektivsten in Kombination mit „Hot“ -Failover-Lösungen und Global Server Load Balancing (GSLB) -Lösungen.
- Halbsynchrone Replikation – Das empfangende System sendet eine Bestätigung erst, nachdem eine Reihe von Änderungen empfangen wurde. Diese Synchronisationsmethode ist parallel zum „warmen“ Failover–Ansatz und kann die richtige Wahl für Dienste sein, die im Katastrophenfall einen gewissen Datenverlust und eine angemessene Ausfallzeit ermöglichen können.
- Asynchrone Replikation – Die Datenreplikation dieser Methode ist schneller, aber weniger sicher, da das sendende System einfach weiterhin Daten sendet, ohne eine Antwort zu erhalten. Parallel zum „kalten“ Failover-Ansatz eignet sich diese Methode am besten für statische Ressourcen oder Szenarien, in denen Datenverlust akzeptabel ist.
Beim Erstellen eines DRP müssen Unternehmen sicherstellen, dass ihre Failover-Richtlinie vollständig mit der Synchronisierungsmethode ihrer Wahl übereinstimmt.
Die Synchronisations- /Failover-Richtlinie „hot-Hot“ stellt beispielsweise sicher, dass die Daten immer zu 100% synchronisiert sind und dass ein paralleles System immer bereit ist, das Produktionssystem mit minimaler Latenz oder Ausfallzeit zu übernehmen.
Wenn sich ein Rechenzentrum jedoch für die asynchrone Replikation entschieden hat, sind die Kosten für die Wartung eines Hot-Failover-Servers möglicherweise nicht gerechtfertigt, da die Daten zu einem bestimmten Zeitpunkt des Ausfalls nicht unbedingt vollständig repliziert werden.
Schließlich ist es für eine effektive Notfallwiederherstellung im Rechenzentrum wichtig, ein externes Failover-Gerät zu warten, das den Systemzustand überwacht und den Datenverkehr im Falle eines Ausfalls in Echtzeit an ein Backup-Rechenzentrum umleitet.