Entendiendo la alta disponibilidad (HA) en SUSE Linux

La alta disponibilidad y la continuidad del negocio son cruciales para mantener las aplicaciones y servicios siempre operativos. Los clústeres de alta disponibilidad permiten que los servicios críticos sigan funcionando, incluso si fallan servidores o componentes de hardware. SUSE Linux ofrece un conjunto de herramientas robustas para la creación y gestión de estos clústeres. En este artículo, exploramos la alta disponibilidad en SUSE Linux: el estado actual de los clústeres en SUSE Linux, con un enfoque en tecnologías clave como Pacemaker, Corosync, DRBD y otras. Estas, con pequeñas diferencias están disponibles en x86 y en ppc64le.

Pacemaker: el cerebro del clúster

Pacemaker es el motor que gestiona los clústeres de alta disponibilidad en SUSE Linux. Su función principal es administrar los recursos del clúster, asegurando que los servicios críticos estén operativos y se recuperen rápidamente en caso de fallo. Pacemaker monitoriza continuamente los recursos (bases de datos, servicios web, sistemas de archivos, etc.) y, si detecta un problema, migra esos recursos a otros nodos del clúster para mantenerlos en funcionamiento.

Pacemaker destaca por su flexibilidad y capacidad para gestionar una amplia variedad de recursos. Desde servicios sencillos hasta sistemas distribuidos más complejos, es capaz de manejar la mayoría de los escenarios de alta disponibilidad que una empresa puede necesitar.

Corosync: el sistema nervioso del clúster

Corosync es responsable de la comunicación entre los nodos del clúster. Asegura que todos los nodos tengan la misma visión del estado del clúster en todo momento, lo cual es esencial para la toma de decisiones coordinadas. También gestiona el quorum, que determina si hay suficientes nodos activos para que el clúster opere de manera segura. Si se pierde el quorum, se pueden tomar medidas para evitar la pérdida de datos o incluso la caída del servicio.

DRBD: la columna vertebral de los datos

DRBD (Distributed Replicated Block Device) es una solución de replicación de almacenamiento a nivel de bloques que replica datos entre nodos en tiempo real. Con DRBD, los datos de un servidor se replican en otro servidor casi instantáneamente, creando una copia exacta. Esto es especialmente útil en escenarios donde es crucial que los datos críticos estén siempre disponibles, incluso si un nodo falla. Combinado con Pacemaker, DRBD permite que los servicios sigan operando con acceso a los mismos datos, aunque estén en diferentes nodos.

Otras tecnologías clave en clústeres SUSE Linux

Además de Pacemaker, Corosync y DRBD, existen otras tecnologías esenciales para construir clústeres robustos en SUSE Linux:

SBD (Storage-Based Death): SBD es una herramienta de fencing que aísla un nodo que no se comporta correctamente para evitar que cause problemas en el clúster. Esto se logra utilizando un dispositivo de almacenamiento compartido que los nodos usan para comunicarse su estado.
OCF (Open Cluster Framework): Los scripts OCF son la base de los recursos gestionados por Pacemaker. Definen cómo iniciar, detener y verificar el estado de un recurso, proporcionando la flexibilidad necesaria para integrar una amplia gama de servicios en el clúster.
Csync2: Es una herramienta para la sincronización de archivos entre nodos en un clúster. Asegura que los archivos de configuración y otros datos críticos estén siempre actualizados en todos los nodos.

Estado actual y tendencias futuras

Los clústeres en SUSE Linux han madurado y se están adaptando a nuevas demandas empresariales. Con la adopción creciente de entornos de contenedores y con partes en las diferentes nubes, los clústeres en SUSE Linux están evolucionando para integrarse mejor con ellos. Esto incluye soporte mejorado para la orquestación de contenedores y aplicaciones distribuidas que requieren alta disponibilidad más allá de replicar dos discos por DRBD y manter una IP virtual con vida :)

Aún así, en la actualidad, la combinación de Pacemaker, Corosync, DRBD y otras herramientas proporciona una base sólida para crear clústeres de alta disponibilidad que pueden escalar y adaptarse a las necesidades de SAP HANA y otras soluciones que requieren una alta cuando no total disponibilidad. Si necesitas ayuda en SIXE os ayudamos.

Cheatsheet para la creación y administración de clústeres con Pacemaker en SUSE Linux

Aquí te dejamos una modesta cheatsheet para ayudarte en la creación y administración de clústeres con Pacemaker en SUSE Linux. Sharing is caring!

Tarea	Comando / Descripción
Instalación de paquetes
Instalar Pacemaker y Corosync	`zypper install -y pacemaker corosync crmsh`
Configuración básica
Configurar el archivo de Corosync	Edita `/etc/corosync/corosync.conf` para definir el transporte, las interfaces y la red.
Iniciar servicios	`systemctl start corosync && systemctl start pacemaker`
Habilitar servicios en el arranque	`systemctl enable corosync && systemctl enable pacemaker`
Administración del clúster
Ver estado del clúster	`crm status`
Ver detalles de los nodos	`crm_node -l`
Añadir un nuevo nodo	`crm node add <nombre_del_nodo>`
Expulsar un nodo	`crm node remove <nombre_del_nodo>`
Ver logs del clúster	`crm_mon --logfile <ruta_del_log>`
Configuración de recursos
Crear un recurso	`crm configure primitive <nombre_recurso> <tipo_agente> params <parámetros>`
Eliminar un recurso	`crm configure delete <nombre_recurso>`
Modificar un recurso	`crm configure edit <nombre_recurso>`
Mostrar configuración completa del clúster	`crm configure show`
Configuración de grupos y conjuntos
Crear un grupo de recursos	`crm configure group <nombre_grupo> <recurso1> <recurso2> ...`
Crear un conjunto ordenado	`crm configure colocation <nombre_conjunto> inf: <recurso1> <recurso2>`
Crear una orden de ejecución	`crm configure order <orden> <recurso1> then <recurso2>`
Restricciones y colocaciones
Crear restricción de colocación	`crm configure colocation <nombre_restricción> inf: <recurso1> <recurso2>`
Crear restricción de ubicación	`crm configure location <nombre_ubicación> <recurso> <puntaje> <nodo>`
Failover y recovery
Forzar migración de un recurso	`crm resource migrate <nombre_recurso> <nombre_nodo>`
Limpiar estado de un recurso	`crm resource cleanup <nombre_recurso>`
Inhabilitar un recurso temporalmente	`crm resource unmanage <nombre_recurso>`
Habilitar un recurso después de deshabilitarlo	`crm resource manage <nombre_recurso>`
Configuración avanzada
Configurar el quorum	`crm configure property no-quorum-policy=<freeze
Configurar fencing	`crm configure primitive stonith-sbd stonith:external/sbd params pcmk_delay_max=<tiempo>`
Configurar timeout de un recurso	`crm configure primitive <nombre_recurso> <tipo_agente> op start timeout=<tiempo> interval=<intervalo>`
Validación y pruebas
Validar configuración del clúster	`crm_verify --live-check`
Simular una falla	`crm_simulate --run`
Gestión de políticas
Configurar política de recuperación	`crm configure rsc_defaults resource-stickiness=<valor>`
Configurar prioridad de recursos	`crm configure resource default-resource-stickiness=<valor>`
Detención y arranque del clúster
Detener todo el clúster	`crm cluster stop --all`
Arrancar todo el clúster	`crm cluster start --all`

sixe

Siguiente Instalar Windows en IBM Power (por diversión) »

Anterior « SIXE: tu partner de IBM de confianza

Publicado por

sixe

12 meses hace

QRadar no estaba muerto, solo de parranda | Los rumores sobre su venta a Palo Alto
En los últimos meses se ha extendido un rumor alarmante: "IBM ha vendido QRadar a…
Terraform + AWS: De estados gigantes a deploys de 3 minutos
"Llevamos 3 meses sin tocar nuestra infraestructura AWS por miedo a romper algo". ¿Te suena?…
¿Tu servidor necesita reemplazo? El derecho a reparar dice que no
La nueva Directiva Europea sobre el derecho a reparar está poniendo fin a uno de…

QRadar no estaba muerto, solo de parranda | Los rumores sobre su venta a Palo Alto

En los últimos meses se ha extendido un rumor alarmante: "IBM ha vendido QRadar a…

6 días hace

Noticias

Terraform + AWS: De estados gigantes a deploys de 3 minutos

"Llevamos 3 meses sin tocar nuestra infraestructura AWS por miedo a romper algo". ¿Te suena?…

7 días hace

Noticias

Cómo corregir el error más común en Ceph

Ceph es una solución potente y flexible para almacenamiento distribuido, pero como toda herramienta compleja,…

1 semana hace

Noticias

¿Tu servidor necesita reemplazo? El derecho a reparar dice que no

La nueva Directiva Europea sobre el derecho a reparar está poniendo fin a uno de…

3 semanas hace

Noticias

IBM Power11 | Descubre todas las novedades

🆕 IBM Power11 ya está aquí La espera ha terminado: hoy se presenta oficialmente IBM…

1 mes hace

Noticias

Aprende a construir y desplegar agentes de IA con LangGraph usando watsonx.ai

La inteligencia artificial ya no solo responde, también toma decisiones. Con frameworks como LangGraph y…

2 meses hace