VOZY - Inconvenientes con el procesamiento de llamadas (Inbound/Outbound)
Incident Report for Vozy
Postmortem

Informe RCA - Novedades con el procesamiento de llamadas - 31 de agosto

El 31 de agosto, uno de los componentes fundamentales de nuestro servicio, la plataforma VoIP, se vio afectado por un evento que tuvo un impacto negativo en nuestras operaciones, especialmente en el procesamiento de llamadas entrantes y salientes. El diagnóstico reveló que el problema principal fue el llenado completo de los volúmenes de la base de datos del sistema de telefonía, lo que impidió tanto el procesamiento de solicitudes como el almacenamiento de registros CDR (Call Detail Records). La causa raíz de este incidente se relacionó con un fallo en el script de aumento automático debido a restricciones de capacidad en el volumen aprovisionado.

Causa raíz

El evento se inició el 31 de agosto a las 16:00 UTC -5, cuando se detectó un incremento repentino en los rechazos de solicitudes API en nuestro sistema de alarmas y monitoreo.

Tras realizar una revisión exhaustiva de nuestra infraestructura, identificamos que el factor principal detrás de estos rechazos de solicitudes API fue el llenado completo de los volúmenes de la base de datos del sistema de telefonía. Esto resultó en la imposibilidad de procesar nuevas solicitudes y almacenar registros de CDR en este cluster.

Simultáneamente, se llevaron a cabo análisis detallados de las alertas relacionadas, lo que condujo a la validación de un fallo en un script de aumento automático de capacidad en disco. Aunque este script estaba diseñado para permitir el aumento automático del volumen del cluster, no pudo hacerlo debido a limitaciones en la capacidad de aprovisionamiento de almacenamiento en las máquinas virtuales correspondientes.

Para corregir la situación en cuestión, se implementaron varias acciones y se estarán implementando algunas más en el corto plazo.

Plan de remediación

Acciones ya implementadas

  1. Se realizó la copia de la información y se transfirió a un nuevo volumen con capacidad suficiente para restablecer el servicio y garantizar su correcta operación.
  2. Se actualizó el script de aumento automático para asegurar el aumento del volumen del cluster cuando sea necesario.
  3. Se ajustó el sistema de monitoreo para detectar y alertar problemas de llenado en disco con mayor antelación.

Acciones que están en curso

  1. Depuración y mantenimiento continuo del archivo de los CDRs presentes en el cluster de telefonía.
  2. Evaluación e implementación de un plan de contingencia específico para el componente de telefonía IP con el fin de garantizar la continuidad del servicio en caso de futuras fallas.

Sabemos que nuestros clientes confían en nuestra solución para el soporte de sus operaciones y nos disculpamos sinceramente por cualquier inconveniente causado por este incidente.

Estamos comprometidos con la disminución de fallos y la reducción del impacto en los servicios mediante el fortalecimiento de nuestra infraestructura y procesos, con el objetivo de prevenir eventos similares en el futuro y asegurar un servicio confiable para nuestros clientes.

Atentamente,

Vozy Support Team

Posted Sep 04, 2023 - 18:20 GMT-05:00

Resolved
Hola,

Nos complace comentarte que se ha intervenido y solucionado el inconveniente que se estaba presentando con el procesamiento de llamadas.


Si estabas presentando inconvenientes con la ejecución de llamadas/campañas, te invitamos a probar de nuevo en este momento.

Vamos a estar haciendo monitoreo del correcto funcionamiento de la aplicación

Ofrecemos disculpas por las dificultades que esta situación hubiera podido ocasionar en la operación de tu negocio.

Cuenta con que seguiremos trabajando duro para mitigar la ocurrencia futura de novedades como la que se estaba presentando.

Cualquier inquietud o comentario relacionado, lo puedes enviar a support@vozy.co

Una vez contemos con el informe RCA, lo estaremos publicando aquí mismo

Saludos,

Vozy Team
Posted Sep 01, 2023 - 01:54 GMT-05:00
Update
Hola,

De acuerdo con los avances que tenemos al momento sobre la intervención de la novedad que venimos presentando, estamos a unas horas de resolverlo; nos encantaría publicar mejores noticias, pero nos parece importante contarte que seguimos trabajando duro para el pronto restablecimiento del servicio.

Una vez tengamos más detalles los estaremos compartiendo.

Cualquier inquietud o comentario relacionado, lo puedes enviar a support@vozy.co

Saludos,

Vozy Team
Posted Aug 31, 2023 - 20:50 GMT-05:00
Identified
Hola,

Seguimos trabajando para que se puedan procesar correctamente la totalidad de las llamadas

Continuamos teniendo afectación con el servicio de telefonía del Asistente Virtual para algunas de las cuentas/clientes.

Nuestro equipo de especialistas sigue trabajando enfocado en la normalización del servicio para todas las cuentas lo más pronto posible.

Da por hecho que estamos haciendo todos los esfuerzos necesarios para superar esta situación.

Una vez tengamos más detalles los estaremos compartiendo.

Cualquier inquietud o comentario relacionado, lo puedes enviar a support@vozy.co

Saludos,
Posted Aug 31, 2023 - 16:51 GMT-05:00
Investigating
Hola,

Nos parece importante que sepas que en este momento se tiene identificada una afectación con nuestros servicios de asistente virtual, está afectando varias cuentas tipo Inbound (recepción de llamadas), también cuentas tipo Outbound (salida de llamadas).

NO se están procesando correctamente las llamadas.

Ahora mismo tenemos todos los esfuerzos de nuestro equipo técnico enfocados para normalizar el servicio en todas las cuentas lo antes posible.

Tan pronto tengamos más detalles los estaremos compartiendo.

Cualquier inquietud o comentario relacionado, lo puedes enviar a support@vozy.co

Saludos,

Vozy Team
Posted Aug 31, 2023 - 16:10 GMT-05:00
This incident affected: Incoming Calls, Outgoing Calls, Outgoing Calls (SIP), and Incoming Calls (SIP).