El sábado 25 de mayo, desde las primeras horas de la mañana (UTC -5), nuestro equipo de Soporte comenzó a recibir reportes sobre el mal funcionamiento de nuestros asistentes virtuales de LILI. Al intentar establecer la llamada, algunos clientes recibían el mensaje: "Lo siento, en este momento no puedo continuar con la llamada". En respuesta a esta situación, se activó el protocolo de emergencia para diagnosticar y corregir la falla, involucrando a los equipos especialistas correspondientes.
Se activó el protocolo de gestión de incidentes y se notificaron los equipos a las 08:00 AM (UTC -5). Tras revisar sistemas de monitoreo y no encontrar alertas relevantes, se investigó más a fondo y se descubrió que el problema estaba en el servicio LinkerD de la aplicación LILI.
LinkerD es un certificado de seguridad el cual gestiona servicios en aplicaciones distribuidas basadas en microservicios.
Dicho certificado estaba próximo a vencer, por lo cual al realizar la actualización de este mismo genero un corrupción es este certificado tomando una fecha errónea, lo cual afecto el servicio e interrupción del mismo. ya que la comunicación entre los microservicios no estaba activa provocando que LILI no pudiera procesar llamadas.
Una vez identificado el inconveniente, se decidió desactivar el servicio de LinkerD en el clúster de la aplicación LILI. Además, se realizaron ajustes necesarios para restablecer la comunicación entre los servicios y se reiniciaron individualmente.
Posteriormente, verificamos que esta acción restableciera la operación habitual de la plataforma, iniciando una etapa de pruebas de las principales funciones de la aplicación LILI. El resultado de esta intervención fue exitoso, confirmando la restauración completa del servicio a las 08:35 AM UTC -5.
Acciones que están en curso
Sabemos que nuestros clientes confían en nuestra solución para el soporte de sus operaciones y nos disculpamos sinceramente por cualquier inconveniente causado por este incidente.
Estamos comprometidos con la disminución de fallos y la reducción del impacto en los servicios mediante el fortalecimiento de nuestra infraestructura y procesos, con el objetivo de prevenir eventos similares en el futuro y asegurar un servicio confiable para nuestros clientes.
Atentamente,
Vozy Support Team