¿Qué es la recuperación ante desastres?
La recuperación ante desastres (DR) abarca los procedimientos, políticas o procesos que preparan la infraestructura de TI vital de una organización para recuperarse eficazmente de desastres naturales o provocados por el hombre y garantizar la continuidad del negocio.
Desde ataques cibernéticos y fallas de equipos, pasando por huracanes u otros desastres naturales, DR debe cubrir cualquier escenario posible que amenace la disponibilidad de la infraestructura de TI. En los últimos años, la Recuperación ante desastres ha asumido un papel cada vez más predominante en los presupuestos de informática empresarial, a menudo representando entre el 20 y el 25% de los gastos de informática de TI.
Tener el plan de recuperación ante desastres adecuado
Un plan de recuperación ante desastres (DRP) describe cómo una organización responderá a cualquier escenario de desastre dado, con el objetivo de respaldar procesos y funciones empresariales sensibles al tiempo y mantener la continuidad comercial completa.
Un DRP contiene elementos tanto de respuesta como preventivos, y es una parte clave de la Planificación de Continuidad del Negocio (BCP) de la empresa. En el lado de la respuesta, un DRP delinea numerosos escenarios de desastre y define las respuestas detalladas a cada uno, con el objetivo de minimizar el impacto negativo de ese evento. En el lado preventivo, un DRP tiene como objetivo minimizar los efectos negativos de escenarios específicos definiendo lo que la organización necesita hacer para evitarlos.
Más específicamente, un DRP necesita anticipar y delinear un plan de acción en respuesta a la pérdida de componentes y servicios de TI críticos para la misión, como:
- Entornos completos de sala de ordenadores
- Hardware de TI crítico, que incluye infraestructura de red, servidores, computadoras de escritorio o portátiles, dispositivos inalámbricos y periféricos
- Conectividad con proveedores de servicios
- Aplicaciones de software empresariales
- Dispositivos o aplicaciones de almacenamiento de datos
Para lograr la máxima eficacia y mantener los costos bajo control, las organizaciones deben planear aprovechar una combinación de recursos internos y soluciones compatibles con el proveedor en su planificación de recuperación ante desastres. La combinación óptima de proveedores e internos depende de los objetivos específicos de recuperación ante desastres de la organización, que se miden en términos de Objetivo de Tiempo de Recuperación (RTO) y Objetivo de Punto de recuperación (RPO). El Objetivo de tiempo de recuperación se puede definir aproximadamente como la cantidad de tiempo que una empresa puede funcionar sin disponibilidad del sistema, mientras que el objetivo de punto de recuperación expresa la antigüedad de los datos una vez que los sistemas se recuperen.
Recuperación ante desastres de centros de datos
Para cumplir los objetivos de RTO y RPO de una organización, los operadores de centros de datos se enfrentan a numerosos desafíos. Un desafío clave es la sincronización de datos. En otras palabras: ¿Cuál es la mejor manera de garantizar que los datos en todas las ubicaciones alternativas estén actualizados, para garantizar la coherencia del servicio y la continuidad del negocio, incluso en caso de desastre?
Hasta cierto punto, la respuesta a esta pregunta radica en el nivel de replicación, que se puede definir como la frecuencia con la que el sistema receptor (el entorno de copia de seguridad) reconoce la recepción de datos del sistema de envío (el entorno de producción). Los métodos de replicación más comunes son:
- Replicación síncrona: el método de replicación más seguro pero que requiere más recursos. En un escenario de replicación sincrónica, el sistema receptor reconoce cada cambio recibido del sistema de envío. La adopción de este método requiere el mantenimiento de un sitio de copia de seguridad «en caliente», y es más eficaz en combinación con soluciones de conmutación por error «en caliente» y soluciones de Equilibrio de carga de servidor Global (GSLB).
- Replicación semi-síncrona: El sistema receptor envía un acuse de recibo solo después de recibir una serie de cambios. Este método de sincronización es paralelo al enfoque de conmutación por error «cálido», y puede ser la opción correcta para servicios que, en caso de desastre, pueden permitir cierta pérdida de datos y una cantidad razonable de tiempo de inactividad.
- Replicación asíncrona: La replicación de datos de este método es más rápida pero menos segura, ya que el sistema de envío simplemente continúa enviando datos, sin recibir ninguna respuesta. Paralelamente al enfoque de conmutación por error «en frío», este método es el más adecuado para recursos estáticos o escenarios en los que la pérdida de datos es aceptable.
Al crear un DRP, las organizaciones deben asegurarse de que su política de conmutación por error esté completamente en línea con el método de sincronización que elijan.
Por ejemplo, la política de sincronización / conmutación por error «en caliente» garantiza que los datos estén siempre sincronizados al 100% y que un sistema paralelo esté siempre listo para asumir el control del sistema de producción con una latencia o tiempo de inactividad mínimos.
Sin embargo, si un centro de datos ha elegido la replicación asíncrona, es posible que no se garantice el gasto de mantener un servidor de conmutación por error en caliente, ya que los datos no necesariamente se replicarán completamente en un momento dado de error.
Por último, para una recuperación ante desastres eficaz del centro de datos es importante mantener un dispositivo de conmutación por error fuera de las instalaciones, que supervisará el estado del sistema y redirigirá el tráfico en tiempo real a un centro de datos de copia de seguridad en caso de fallo.