Resumen de la alta disponibilidad y la recuperación ante desastres
- Última actualización2023/11/22
Resumen de la alta disponibilidad y la recuperación ante desastres
La alta disponibilidad (HA) proporciona un mecanismo de conmutación por error si un servicio o servidor de IQ Bot falla. La recuperación ante desastres (DR) habilita la recuperación en una distancia separada geográficamente en el caso de que un desastre provoque la falla de todo un centro de datos.
IQ Bot utiliza un mínimo de 3 nodos y un máximo de 5 nodos en un clúster para la alta disponibilidad (HA).
Solución de HA y DR de IQ Bot
En el contexto de IQ Bot, la implementación de la Alta disponibilidad (HA) y la Recuperación ante desastres (DR) reducen el tiempo de inactividad y mantienen la continuidad del negocio (CoB) para sus actividades con de bot.
- Alta disponibilidad (HA): la alta disponibilidad es un diseño de sistema arquitectónico que intenta salvaguardar un sistema contra ciertos escenarios de fallo. Esto significa que incluso si partes de un sistema están fallando, en su conjunto todavía están disponibles y son utilizables. Las soluciones de alta disponibilidad suelen proteger contra escenarios específicos como: fallos de servidor, fallos de un solo componente, fallos de dependencia, aumentos de carga variables y divisiones de redes cuando dependen de componentes del sistema que se vuelven inalcanzables en una red.
- Recuperación ante desastres (DR): involucra un conjunto de políticas y procedimientos para habilitar la recuperación o continuación de la infraestructura y los sistemas vitales después de un desastre natural o provocado por el hombre. La recuperación ante desastres aborda muchas causas diferentes de fallos en un sistema en el que la alta disponibilidad suele ser una de las pocas predecibles. La recuperación ante desastres se centra en restablecer los servicios después de un incidente, no sólo en la conmutación por error. La recuperación de un sistema incluye escenarios tales como: reiniciar un servicio o sistema, restaurar archivos de configuración o una base de datos a partir de copias de seguridad.
Elementos de infraestructura requeridos para la HA y la DR
- Enfoque distribuido: además del agrupamiento en clústeres de IQ Bot y los componentes relacionados del centro de datos, también recomendamos que implemente el IQ Bot en múltiples máquinas o servidores virtuales.
- Balanceo de carga: realizado por un balanceador de carga, este es el proceso de distribuir el tráfico de red o de aplicaciones entre varios servidores para proteger las actividades de servicio y que permite que las cargas de trabajo se distribuyan entre varios servidores. Esto garantiza la actividad de bots continúa en servidores agrupados en clústeres.
-
Bases de datos: las bases de datos utilizan su propia conmutación por error integrada para proteger los datos. Esto asegura la recuperación de datos de la base de datos.
- Entre las agrupaciones de alta disponibilidad (HA), configure la replicación sincrónica entre las instancias de Microsoft SQL Server agrupadas primarias (activas) y secundarias (pasivas) en el centro de datos. Esto garantiza la coherencia en caso de que falle un nodo de base de datos.
Para la replicación asincrónica de alta disponibilidad obligatoria, configure una de las siguientes opciones:
- Respalde una réplica a los grupos de disponibilidad de Modo de confirmación síncrona del servidor SQL siempre activado
- SQL para la Duplicación de la base de datos del servidor
- Entre los sitios de DR, configure su base de datos para proporcionar una replicación asincrónica desde el sitio de DR primario (producción) al sitio de DR secundario (recuperación) que se encuentra en una ubicación separada geográficamente del sitio de DR primario.
- Entre las agrupaciones de alta disponibilidad (HA), configure la replicación sincrónica entre las instancias de Microsoft SQL Server agrupadas primarias (activas) y secundarias (pasivas) en el centro de datos. Esto garantiza la coherencia en caso de que falle un nodo de base de datos.
Escenario de muestra
Apunte todas las instancias de IQ Bot ubicadas en el mismo clúster a los mismos archivos de base de datos y repositorio. Esto es necesario para habilitar el uso compartido de datos entre varios servidores y garantizar que la integridad de los datos se mantenga en todos los servidores de IQ Bot dentro de un clúster.
Modelos de implementación de HA y DR
Para asegurarse de que su IQ Bot está protegido por HA o DR, configure sus centros de datos de acuerdo con los modelos de implementación descritos en:
Requisitos de implementación de HA
- Instalar IQ Bot en varios servidores.
- El acceso a IQ Bot es a través de un balanceador de carga.
- Abra un puerto de sincronización RabbitMQ v3.8.18 entre servidores de IQ Bot.
- Configure el Microsoft SQL Server en modo en alta disponibilidad.
Requisitos de configuración de HA y DR de instalación
- El instalador de IQ Bot no admite directamente la instalación del clúster. Siga estos pasos para configurar un clúster:
- Ejecute el instalador en cada nodo del servidor de aplicaciones.
- Comparta la
output folder
usando el rol de accesoEveryone
. - Después de la instalación, ejecute
messagequeue_cluster_configuration.bat
junto con los argumentos de línea de comandos apropiados.
- Configurar IQ Bot en una configuración de alta disponibilidad.
- Abra los puertos para conexión de firewall: 4369 y 25672.
- Instale RabbitMQ v3.8.18 en cada nodo de IQ Bot en el clúster.
El nodo principal de IQ Bot es el nodo donde RabbitMQ v3.8.18 se instaló primero. El nombre del host del nodo principal se usará para la configuración del clúster de RabbitMQ v3.8.18.
- El balanceador de carga es necesario para distribuir un tráfico a todos los nodos de servidor de IQ Bot.
- Configurar Microsoft SQL Server para una alta disponibilidad. Use la opción Microsoft SQL Server Siempre activado.
- Para una instalación específica de RabbitMQ v3.8.18, consulte la documentación de RabbitMQ v3.8.18.
Limitaciones conocidas de la HA y la DR
- Para detectar la disponibilidad de instancias de instancias de IQ Bot, un balanceador de carga envía periódicamente pings, intenta conexiones o envía solicitudes para probar las instancias de IQ Bot. Estas pruebas se denominan comprobaciones de estado.
- Las comprobaciones de estado no verifican la disponibilidad de las instancias de RabbitMQ v3.8.18.