co to jest disaster recovery ?
Disaster Recovery (DR) obejmuje procedury, polityki lub procesy, które przygotowują niezbędną infrastrukturę IT organizacji do skutecznego odzyskiwania po klęskach żywiołowych lub spowodowanych przez człowieka oraz zapewniają ciągłość działania.
od cyberataków i awarii sprzętu, poprzez huragany lub inne klęski żywiołowe-DR musi uwzględnić każdy możliwy scenariusz, który zagraża dostępności infrastruktury IT. W ostatnich latach Disaster Recovery odgrywa coraz większą rolę w budżetach przedsiębiorstw na informatykę, często pokrywając 20-25% wydatków na informatykę.
posiadanie odpowiedniego planu disaster recovery
Plan disaster recovery (DRP) określa, w jaki sposób organizacja zareaguje na dany scenariusz katastrofy, mając na celu wspieranie procesów i funkcji biznesowych wrażliwych na czas oraz utrzymanie pełnej ciągłości działania.
DRP zawiera zarówno elementy responsywne, jak i zapobiegawcze i jest kluczowym elementem planowania ciągłości działania firmy (BCP). Po stronie responsywnej DRP określa liczne scenariusze katastrof i określa szczegółowe odpowiedzi na każde z nich, w celu zminimalizowania negatywnego wpływu tego zdarzenia. Po stronie prewencyjnej DRP ma na celu zminimalizowanie negatywnych skutków konkretnych scenariuszy, określając, co organizacja musi zrobić, aby ich uniknąć.
mówiąc dokładniej, DRP musi przewidzieć i określić plan działania w odpowiedzi na utratę takich krytycznych komponentów i usług IT, jak:
- kompletne środowiska pomieszczeń komputerowych
- krytyczny sprzęt IT, w tym infrastruktura sieciowa, serwery, komputery stacjonarne lub laptopy, urządzenia bezprzewodowe i urządzenia peryferyjne
- łączność z dostawcami usług
- Aplikacje dla przedsiębiorstw
- urządzenia lub aplikacje do przechowywania danych
aby osiągnąć maksymalną skuteczność i kontrolować koszty, organizacje powinny planować wykorzystanie kombinacji zasobów wewnętrznych i rozwiązań wspieranych przez dostawców w planowaniu odzyskiwania po awarii. Optymalna mieszanka wewnętrzna/dostawcy zależy od konkretnych celów organizacji w zakresie odzyskiwania po awarii, które są mierzone w kategoriach celu czasu odzyskiwania (RTO) i celu punktu odzyskiwania (RPO). Cel czasu odzyskiwania można z grubsza zdefiniować jako czas, przez jaki firma może funkcjonować bez dostępności systemu, podczas gdy cel punktu odzyskiwania określa, ile lat będą dane po odzyskaniu systemów.
Data center disaster recovery
aby spełnić cele RTO i RPO organizacji, operatorzy centrów danych stoją przed licznymi wyzwaniami. Kluczowym wyzwaniem jest synchronizacja danych. Innymi słowy: jak najlepiej zapewnić świeżość danych we wszystkich alternatywnych lokalizacjach, aby zagwarantować spójność usług i ciągłość działania, nawet w przypadku katastrofy?
do pewnego stopnia odpowiedź na to pytanie leży w poziomie replikacji, który można zdefiniować jako częstotliwość, z jaką system odbierający (środowisko zapasowe) potwierdza odbiór danych z systemu wysyłającego (środowisko produkcyjne). Najczęstsze metody replikacji to:
- replikacja Synchroniczna – najbezpieczniejsza, ale najbardziej wymagająca zasobów metoda replikacji. W scenariuszu replikacji synchronicznej system odbierający potwierdza każdą zmianę otrzymaną z systemu wysyłającego. Zastosowanie tej metody wymaga utrzymania „gorącej” witryny kopii zapasowych i jest najbardziej skuteczna w połączeniu z rozwiązaniami „gorącej” pracy awaryjnej i rozwiązaniami globalnego równoważenia obciążenia serwera (Gslb).
- replikacja Półsynchroniczna – system odbierający wysyła potwierdzenie dopiero po otrzymaniu serii zmian. Ta metoda synchronizacji jest równoległa do” ciepłego ” podejścia do przełączania awaryjnego i może być właściwym wyborem dla usług, które – w przypadku awarii – mogą pozwolić na pewną utratę danych i rozsądną ilość przestojów.
- replikacja asynchroniczna-replikacja danych w tej metodzie jest szybsza, ale mniej bezpieczna, ponieważ system wysyłający po prostu kontynuuje wysyłanie danych, nie otrzymując żadnej odpowiedzi. Równolegle do podejścia” zimnego ” przełączania awaryjnego, metoda ta najlepiej nadaje się do statycznych zasobów lub scenariuszy, w których utrata danych jest akceptowalna.
podczas tworzenia DRP organizacje muszą upewnić się, że ich zasady przełączania awaryjnego są w pełni zgodne z wybraną metodą synchronizacji.
na przykład zasada synchronizacji/przełączania awaryjnego „hot-hot” zapewnia, że dane są zawsze w 100% zsynchronizowane, a system równoległy jest zawsze gotowy do przejęcia systemu produkcyjnego z minimalnym opóźnieniem lub przestojem.
Jeśli jednak centrum danych wybrało replikację asynchroniczną, koszty utrzymania serwera gorącego przełączania awaryjnego mogą nie być uzasadnione, ponieważ dane nie muszą być w pełni replikowane w danym momencie awarii.
wreszcie, dla skutecznego odzyskiwania po awarii centrum danych ważne jest utrzymanie zewnętrznego urządzenia przełączania awaryjnego, które będzie monitorować stan systemu i przekierowywać ruch w czasie rzeczywistym do zapasowego centrum danych w przypadku awarii.