Monitoreo en clusters HPC

Presentación  

El monitoreo es parte importante del trabajo cotidiano de un administrador de sistemas. Realizar las actividades de monitoreo en un cluster HPC es un reto pues se compone de múltiples elementos. La idea de este taller es dar un panorama general de cómo implementar el monitoreo del cluster utilizando node exporter, prometheus y grafana. 

 Objetivo

El participante conocerá la estructura básica de un cluster HPC y los elementos recolectores de información que puede utilizar para realizar el monitoreo, además se dará un ejemplo de cómo implementar un portal básico con node exporter, prometheus y grafana, así como añadir elementos personalizados al monitoreo. 

Temario

  1. MONITOREO (2h)
    1. Introducción al monitoreo en sistemas HPC
    2. Comandos básicos proporcionados por el sistema operativo GNU/Linux
    3. Herramientas de monitoreo
  2. CONSTRUCCIÓN DE UN PORTAL BÁSICO DE MONITOREO (4h)
    1. Recolectores
      1. Python Exporter
      2. Node exporter
    2. Prometheus
      1. Introducción
      2. Configuración básica
    3. Grafana
      1.  Introducción
      2. Configuración básica
      3. Conexión con prometheus
      4. Alertas

Requisitos previos

El participante debe tener experiencia en administración de sistemas GNU/Linux, manejo de la línea de comandos y programación en BASH.

Otros requisitos: El participante debe tener una computadora con cliente ssh instalado y un navegador que permita la configuración de un proxy personalizado (se recomienda firefox o firefox nightly).

Duración

6 h