VOZY - Novedades en el procesamiento de llamadas (Inbound/Outbound) para algunas cuentas
Incident Report for Vozy
Postmortem

Informe RCA - Inconveniente servicio LinkerD

‌El sábado 25 de mayo, desde las primeras horas de la mañana (UTC -5), nuestro equipo de Soporte comenzó a recibir reportes sobre el mal funcionamiento de nuestros asistentes virtuales de LILI. Al intentar establecer la llamada, algunos clientes recibían el mensaje: "Lo siento, en este momento no puedo continuar con la llamada". En respuesta a esta situación, se activó el protocolo de emergencia para diagnosticar y corregir la falla, involucrando a los equipos especialistas correspondientes.

Causa raíz

Se activó el protocolo de gestión de incidentes y se notificaron los equipos a las 08:00 AM (UTC -5). Tras revisar sistemas de monitoreo y no encontrar alertas relevantes, se investigó más a fondo y se descubrió que el problema estaba en el servicio LinkerD de la aplicación LILI.

LinkerD es un certificado de seguridad el cual gestiona servicios en aplicaciones distribuidas basadas en microservicios.

Dicho certificado estaba próximo a vencer, por lo cual al realizar la actualización de este mismo genero un corrupción es este certificado tomando una fecha errónea, lo cual afecto el servicio e interrupción del mismo. ya que la comunicación entre los microservicios no estaba activa provocando que LILI no pudiera procesar llamadas.

Solución

‌Una vez identificado el inconveniente, se decidió desactivar el servicio de LinkerD en el clúster de la aplicación LILI. Además, se realizaron ajustes necesarios para restablecer la comunicación entre los servicios y se reiniciaron individualmente.

Posteriormente, verificamos que esta acción restableciera la operación habitual de la plataforma, iniciando una etapa de pruebas de las principales funciones de la aplicación LILI. El resultado de esta intervención fue exitoso, confirmando la restauración completa del servicio a las 08:35 AM UTC -5.

Plan de remediación

Acciones que están en curso

  • Configurar alertas automáticas que notifiquen con suficiente antelación la próxima expiración de certificados de seguridad para el servicio. Estas alertas deben ser enviadas tanto a los equipos técnicos como a los responsables de la gestion de infraestructura.
  • Mejorar los sistemas de monitoreo actuales para incluir la supervisión del estado y la salud de los servicios críticos como LinkerD. Esto permitirá detectar problemas potenciales antes de que afecten a los usuarios finales.
  • Revisar y actualizar los protocolos de gestión de incidentes y la documentación relacionada para reflejar las lecciones aprendidas de este incidente.
  • Desarrollar y documentar un plan de contingencia específico para la rápida renovación de certificados expirados como los del servicio LinkerD.

Sabemos que nuestros clientes confían en nuestra solución para el soporte de sus operaciones y nos disculpamos sinceramente por cualquier inconveniente causado por este incidente.

Estamos comprometidos con la disminución de fallos y la reducción del impacto en los servicios mediante el fortalecimiento de nuestra infraestructura y procesos, con el objetivo de prevenir eventos similares en el futuro y asegurar un servicio confiable para nuestros clientes.

Atentamente,

Vozy Support Team

Posted May 31, 2024 - 11:19 GMT-05:00

Resolved
This incident has been resolved.
Posted May 25, 2024 - 10:50 GMT-05:00
Monitoring
Hola,

Nos complace informarte que la afectación con nuestros servicios de asistente virtual ha sido solucionada. Nuestro equipo técnico ha trabajado diligentemente para asegurar que todas las cuentas estén funcionando correctamente y que las llamadas (Inbound/Outbound) se procesen sin inconvenientes.

Vamos a estar haciendo un monitoreo diferenciado durante las siguientes horas para asegurar el correcto funcionamiento de los servicios.

Agradecemos tu paciencia y comprensión durante este tiempo.

Si experimentas algún problema adicional o tienes cualquier inquietud, no dudes en contactarnos a través de support@vozy.co.

Una vez contemos con el informe RCA asociado a este evento, lo estaremos publicando aquí mismo.


Saludos,

El equipo de Vozy
Posted May 25, 2024 - 08:58 GMT-05:00
Identified
Hola,

Queremos informarte que nuestro equipo técnico está completamente dedicado a resolver esta incidencia lo antes posible.

Estamos muy cerca de restablecer el servicio y te proporcionaremos más detalles en cuanto los tengamos.

Para cualquier inquietud o comentario, no dudes en contactarnos a través de support@vozy.co.

Saludos,

El equipo de Vozy
Posted May 25, 2024 - 08:42 GMT-05:00
Investigating
Hola,

Nos parece importante que sepas que en este momento se tiene identificada una afectación con nuestros servicios de asistente virtual, está afectando varias cuentas; no se están procesando correctamente algunas llamadas (Inbound/Outbound)

Ahora mismo tenemos todos los esfuerzos de nuestro equipo técnico enfocados para normalizar el servicio en todas las cuentas lo antes posible.

Tan pronto tengamos más detalles los estaremos compartiendo.

Cualquier inquietud o comentario relacionado, lo puedes enviar a support@vozy.co

Saludos,

Vozy Team
Posted May 25, 2024 - 08:03 GMT-05:00
This incident affected: Incoming Calls, Outgoing Calls, API, Vozy Apps, and Public Website.