El 31 de agosto, uno de los componentes fundamentales de nuestro servicio, la plataforma VoIP, se vio afectado por un evento que tuvo un impacto negativo en nuestras operaciones, especialmente en el procesamiento de llamadas entrantes y salientes. El diagnóstico reveló que el problema principal fue el llenado completo de los volúmenes de la base de datos del sistema de telefonía, lo que impidió tanto el procesamiento de solicitudes como el almacenamiento de registros CDR (Call Detail Records). La causa raíz de este incidente se relacionó con un fallo en el script de aumento automático debido a restricciones de capacidad en el volumen aprovisionado.
El evento se inició el 31 de agosto a las 16:00 UTC -5, cuando se detectó un incremento repentino en los rechazos de solicitudes API en nuestro sistema de alarmas y monitoreo.
Tras realizar una revisión exhaustiva de nuestra infraestructura, identificamos que el factor principal detrás de estos rechazos de solicitudes API fue el llenado completo de los volúmenes de la base de datos del sistema de telefonía. Esto resultó en la imposibilidad de procesar nuevas solicitudes y almacenar registros de CDR en este cluster.
Simultáneamente, se llevaron a cabo análisis detallados de las alertas relacionadas, lo que condujo a la validación de un fallo en un script de aumento automático de capacidad en disco. Aunque este script estaba diseñado para permitir el aumento automático del volumen del cluster, no pudo hacerlo debido a limitaciones en la capacidad de aprovisionamiento de almacenamiento en las máquinas virtuales correspondientes.
Para corregir la situación en cuestión, se implementaron varias acciones y se estarán implementando algunas más en el corto plazo.
Sabemos que nuestros clientes confían en nuestra solución para el soporte de sus operaciones y nos disculpamos sinceramente por cualquier inconveniente causado por este incidente.
Estamos comprometidos con la disminución de fallos y la reducción del impacto en los servicios mediante el fortalecimiento de nuestra infraestructura y procesos, con el objetivo de prevenir eventos similares en el futuro y asegurar un servicio confiable para nuestros clientes.
Atentamente,
Vozy Support Team