A la hora de definir un plan de recuperación ante desastres, DRP (Disaster Recovery Plan), una vez recopilado los activos y sus niveles de criticidad en la organización, nos encontramos con una serie de métricas que habrá que tener en cuenta en la definición de los objetivos de recuperación.

RPO, RTO, WRT y MTD son las métricas usadas en esta fase del plan de recuperación y que a continuación vamos a explicar de una forma sencilla.

RPO: Recovery Point Objective. Nos indica la cantidad de información que la organización está dispuesta a perder durante una interrupción de servicio. Dependiendo de la criticidad de los procesos y el tipo de negocio de la empresa, será desde cero datos hasta varias horas o días. Poniendo un ejemplo rápido, en un problema con los sistemas bursátiles, no pueden permitirse la pérdida de ninguna operación, es decir, RPO=0.

RTO: Recovery Time Objective. Fija el tiempo que la aplicación podrá estar no operativa sin afectar a la continuidad de negocio de la empresa. Este tiempo será el utilizado para recuperar los servicios/sistemas para, posteriormente, comprobar la integridad de los datos recuperados.

Estas dos métricas son las que más confusión suelen crear. RPO se basa en la información que estamos dispuestos a perder dependiendo de la frecuencia de nuestro backup y RTO es el tiempo que se va a tardar en recuperar la actividad.

WRT: Work Recovery Time. Es el tiempo que nos conllevará comprobar la integrad del estado de los sistemas y datos, así como realizar las tareas necesarias de actualización, una vez recuperados los sistemas antes de ponerlos en producción. En la generación del DRS, esta métrica se puede llegar a incluir dentro del RTO si el impacto en tiempo es bajo o muy bajo.

MTD: Maximum Tolerable Downtime. Tiempo máximo que una organización puede tener sus procesos de negocio parados sin llegar a sufrir un impacto irreparable. Este tiempo tendrá que calcularse desde que el desastre se ha producido hasta la puesta en producción de nuevo de los sistemas. Resumiendo, MTD=RTO+WRT

¿Y el coste?

Una vez establecido con los responsables de negocio el nivel de tolerancia a la pérdida de información máxima dispuestos a asumir o que son capaces de afrontar en la organización, hay que ir acotando las diferentes soluciones que se tendrán que implantar para poder tener los tiempos objetivos solicitados, principalmente para RTO y RPO. Cuanto más cercanas a cero se quieran estas métricas, los costes de la solución irán aumentando.

A continuación, exponemos algunos de los factores que se deben de tener en cuenta para calcular RTO y RPO y las diferencias entre ellos:

RTO

  • Soluciones de restauración en el mercado y su coste/beneficio
  • Coste hora servicio interrumpido
  • Pasos a seguir para la recuperación del desastre (o su mitigación)

RPO

  • Máxima cantidad de información tolerable para la organización
  • Coste de implantación de las soluciones de restauración
  • El coste de la pérdida de información o de operaciones

En la categorización de los diferentes servicios para el negocio, se genera una tabla con la criticidad para cada uno de ellos, siendo habitualmente divididas entre tres o cuatro categorías:

Críticos:  Operativos en un máximo de 0h a 12h

Importantes: Operativos entre 1 y 2 días

Menores: Más de 2 días

A partir de la categorización que se ha dado a los diferentes servicios, se plantean diferentes soluciones que puedan cumplir con las necesidades de la organización. Evidentemente, cuando menos pérdida de datos esté soportada y más rápido se quiera recuperar la actividad, los costes irán aumentado. Como ejemplos de posibles soluciones, podríamos tener:

Críticos: RPO y RTO de 5m: Posibles soluciones: Replicación local, Cluster, replicación remota.

Críticos: RPO 1h y RTO 4h: Backup local o remoto, con copias incrementales cada 1h.

Para finalizar, os dejamos una gráfica que resume de forma muy sencilla los costes de recuperación deseados y los costes que supondría la interrupción de la actividad para la organización. Ambas curvas convergen en un punto que puede ser un buen punto de partida para adoptar la solución de respaldo adecuada.