Las 4 reglas de oro en Ops.

Las 4 reglas de oro consisten en el mismo número de SLIs que son mínimamente requeridos para operar plataformas OLTPs. Esto quiere decir que ante cualquier definición de monitoreo puntual, éstos van de facto.
  1. Disponibilidad
  2. Fiabilidad
  3. Performance
  4. Transacciónes/unidad de tiempo
 Todos tienen una función de dar respuestas ante cualquier condición de error o incluso para datos meramente informativos. 

Disponibilidad

Este refiere a la capacidad de una aplicación web para ejecutar tareas para la que fue programada. Es muy sencillo identificar si una aplicación está disponible.

Por lo normal se mide con la regla de los nueves, la cual consta del tiempo en que se estuvo abajo, en unidades porcentuales.

 

Fiabilidad

Es la razón de transacciones correctas contra las transacciones incorrectas. La fiabilidad es sumamente importante, porque conlleva un complejo diseño de bitácoras. A diferencia de la disponibilidad, ésta refleja estadísticas reales de cómo la aplicación está resolviendo todas y cada una de las operaciones.

Este rubro se puede expresar en número de transacciones o porcentualmente, dependiendo de la elección y visibilidad que se desee brindar.

Performance

Esta es uno de los pilares más divertidos, puesto que tiene muchas interpretaciones y genera tensiones entre las áreas de Ops y Dev, inclusive la usuaria. En algún momento alguien dirá que la aplicación está lenta, para que alguien de ingeniería pregunte ¿Qué es lenta?. Dependiendo de los SLOs y SLAs pactados es que la pregunta cobra sentido y la respuesta conllevará varías dimensiones, como promedios, máximos, mínimos, medias y modas. Normalmente su unidad de medida son los milisegundos, pero eso dependerá mucho del sistema en cuestión.

Transacciones/unidad de tiempo

En inglés es mucho más conocido como througput, el cual es el número de tareas/unidad de tiempo. En mi opinión, de las 4 anteriores, es el SLI al que menos se le presta atención debido a que es un SLI compuesto, (Fiabilidad + Performance).

Conclusiones


Cuando decidas evaluar cualquier herramienta de monitoreo es importante que pienses en términos de cómo obtener tal información y cómo tratarás toda aquella que provenga de archivos de bitácoras, bases de datos, etcétera.

Comentarios

Entradas populares de este blog

Análisis de conexiones TIME_WAIT

Agregar un usuario a un grupo secundario

Pluging de HAProxy para Collectd.