Fallas en los servicios de Dongee

Incident Report for Dongee

Postmortem

Informe de Incidente postmorten

Bogotá, 10 de febrero de 2023

Resumen Ejecutivo

Dongee es un proveedor tecnológico líder, fundado en el año 2004, que ofrece servicios de cloud computing, infraestructura, backup, seguridad, registro de dominio y alojamiento web en diferentes monedas y mercados globales.

Está equipado con personal innovador para brindar soporte técnico, servicio comercial y administrativo a empresas privadas, estatales, colegios, hospitales y otros en 34 países diferentes. Según Semrush, Dongee es el proveedor de alojamiento con el mayor crecimiento y almacena decenas de miles de sitios web, servicios, correos electrónicos y aplicaciones para sus clientes.

Introducción al incidente

El viernes 3 de febrero a las 5:35 am GMT-5 se presentó un incidente sin precedentes causado por un ataque con el ransomware llamado "Nevada" a la infraestructura de Dongee. Normalmente, cuando ocurre un inconveniente con uno o varios servicios, se recibe una notificación en el segundo 30 a través del canal de #uptime en el chat interno de comunicación. Este canal recibe un tráfico moderado, con un promedio de 5 a 10 notificaciones prioritarias por día que todo el equipo puede ver.

Sin embargo, este no era un incidente normal. Se comenzaron a recibir "downtimes" de diferentes servidores y ubicaciones, lo cual no es común, ya que generalmente si un grupo de servicios tiene problemas, se localiza en una región geográfica. En cuestión de minutos, un 15% de la infraestructura de servidores dedicados, VPS y algunos servicios compartidos estaban caídos, aproximadamente 50 máquinas.

Este evento desconcertó y preocupó profundamente al equipo, especialmente porque era casi el comienzo de la jornada. Al verificar la conectividad en el datacenter, todo parecía estar bien, pero las máquinas estaban apagadas. Después de revisar algunos síntomas, al ingresar a la shell de gestión de cada nodo, se encontró el mensaje típico de ransomware que solicitaba 2 bitcoins para liberar la información. Este mensaje fue frío y escueto, con algunas particularidades que describiré más adelante.

Se estableció que el ataque estaba relacionado con ransomware, que infectaba los sistemas y encriptaba los datos importantes, bloqueándolos a los usuarios y empresas. Los atacantes exigían un rescate en criptomonedas a cambio de la descifración de los datos.

La investigación mostró que el malware se había propagado a través de un ataque orquestado por bots hacia un servicio llamado OpenSLP (este procedimiento se describirá en las notas).

Es importante reconocer que los clientes fueron víctimas de un delito de secuestro de información. Este fue un evento catastrófico para muchas empresas en todo el mundo. Aquí jugó la experiencia y habilidades del equipo para poner en operación rápidamente. Es importante entender que un evento de ransomware puede ocurrirte en cualquier proveedor, la diferencia es que el cliente debe tener la experticia para recuperar la operación rápidamente in house.

Afortunadamente no hubo ingreso a datos o robo de datos, debido a que los archivos de disco de VMware son imagenes de disco y no pueden ser accedidas sin que la máquina esté encendida y que haya un rompimiento de la clave de acceso, situación que no ocurrió.

El ataque causó un impacto significativo en la economía global, con empresas y organizaciones que perdieron grandes sumas de dinero debido a la paralización de sus sistemas y la necesidad de pagar el rescate. Algunas empresas incluso tuvieron que cerrar sus puertas debido a la pérdida irreparable de datos críticos.

La comunidad internacional se unió para trabajar en soluciones y prevenir futuros ataques similares. Los esfuerzos incluyen la colaboración entre gobiernos, empresas y organizaciones de seguridad para fortalecer las defensas contra esta vulnerabilidad específica.

Acerca del Ransomware

El ransomware es una técnica ilícita de secuestro de datos, en la que los ciberdelincuentes encriptan la información almacenada en discos duros u otros medios y exigen un rescate a cambio, a menudo a través de activos digitales no rastreables como el bitcoin. A nivel global, existen mafias millonarias dedicadas a este tipo de actividad, principalmente en China y Rusia. Según Business Insider, en 2022 se pagaron aproximadamente 500 millones de dólares en rescates, lo que representa una disminución del 40% en comparación con 2021.

Debido a la cantidad de variables que involucra, se ha determinado que la mejor manera de protegerse del ransomware es disponer de copia de respaldo en diferentes medios.

Vector de ataque

Se identificó la explotación de la vulnerabilidad CVE-2020-3992 y CVE-2021-21974 usando para ello el servicio OpenSLP de la ip de gestión principal de los servidores ESXi de Vmware mediante el uso masivo de bots.

Alcance

A la fecha se han contabilizado más de 1700 organizaciones afectadas según Shodan, en más de 30 países, habiendo alcanzado en Dongee 50 servidores privados, dedicados y compartidos.

Timeline del Evento

La siguiente información está en horario GMT-5 (NY, Lima, Bogotá). Viernes 3 de Febrero.

El primer evento fue detectado a las 5:35 AM.
La primera comunicación con el centro de datos se realizó a través de chat a las 5:40 AM.
Se confirmó el ataque como ransomware a las 6:05 AM.
Comenzó la investigación y las pruebas a las 6:05 AM.
Se hizo el primer anuncio sobre el status del servicio a las 6:08 AM.
La primera reunión de emergencia se llevó a cabo a las 6:30 AM.
La primera reunión de coordinación de equipos tuvo lugar a las 7:30 AM.
El segundo anuncio sobre el estado del servicio se hizo a las 8:40 AM.
Se aisló el entorno de gestión de copias de seguridad a las 10:00 AM.
Se iniciaron algunas restauraciones a partir de las copias de seguridad a las 11:00 AM.
Se incrementó la infraestructura de copias de seguridad instalando más proxies para acelerar la carga a la 1:00 PM.
Investigadores turcos descubrieron cómo mitigar el problema, lo que permitió encontrar una solución que no fuera reiniciar todo desde las copias de seguridad a las 4:37 PM.
Se inició el plan de recuperación manual a las 5:00 PM.
El 90% de las máquinas afectadas están operativas, solo 5 aún están en proceso a las 7:00 PM.
Algunas de las máquinas dedicadas fueron afectadas por variantes de encriptación de discos VMDK. Fueron desencriptadas con el método del grupo de investigación YoreGroup Tech con un final satisfactorio. 11 pm.
El proceso de restauración de 4 máquinas compartidas se dilató hasta el día 5 debido a cuellos de botella en centro de datos y acceso al storage de backup.

Preparación para un ataque de Ransomware

‌

Para protegerse contra el ransomware, es fundamental contar con copias de respaldo confiables. Debido a que no existe un sistema que sea completamente seguro (según el Teorema de Gödel de Completitud), siempre existe la posibilidad de ser vulnerado. Estos ataques aprovechan las vulnerabilidades del sistema para cifrar los archivos o bloquear el acceso al dispositivo con el objetivo de exigir un rescate.

Infortunadamente, este tipo de ataques suelen tener éxito debido a la falta de soluciones de seguridad completas, lo que significa que hay problemas sin resolver que podrían ser aprovechados por los atacantes.

Aunque pueda parecer alarmante, solo un 16% de las empresas realizan copias de respaldo en promedio. Para ayudar a proteger a nuestros clientes, en Dongee hemos evolucionado nuestra política de copias de respaldo hasta ofrecer copias de respaldo gratuitas para toda nuestra infraestructura en todos nuestros servicios.

En el pasado, hemos visto algunos casos de ransomware especialmente en servidores Windows, pero gracias a la tecnología más moderna que usamos en Dongee, llamada CBT (Seguimiento de Cambios de Bloques), hemos logrado superar estos desafíos con éxito. Con CBT, a partir de una copia de respaldo, solo se revisan los bloques del disco que han cambiado y se realizan copias muy rápidamente. Por el contrario, las copias a nivel de archivo suelen ser funcionales a nivel de usuario final, siempre es recomendable contar con ambas soluciones: CBT (proporcionada por Dongee), Copias a nivel de archivo (Responsabilidad del cliente)

En el pasado, clientes que han sufrido un ataque, la restauración se ha realizado en minutos gracias a que el delta (el espacio de tiempo en el que los datos han cambiado) se restaura de la misma manera, pasando solo los bloques que han cambiado. CBT representa un salto cuántico en la realización de copias de respaldo.

En nuestros servicios, incluimos copias de respaldo gratuitas en los términos y condiciones, lo cual es una rareza en comparación con la mayoría de servicios que no incluyen copias debido a que la infraestructura es muy costosa y compleja. Solo ofrecen copias de respaldo para servicios especializados.

Por esta razón, según los términos, guardamos tres copias de respaldo semanales de nuestros servicios, y en realidad disponemos de copias de respaldo con antigüedades de 24 a 48 horas en la mayoría. En servicios privados se realizan copias a nivel de imagen de disco, en compartidos a nivel de imagen de disco y archivos.

Acerca de Vmware

VMware es una empresa líder en tecnologías de cloud en el sector privado, y es ampliamente utilizada por muchas de las compañías en la lista Forbes Top 100. Con su tecnología de vanguardia, VMware ha sido un pionero en el campo y ha inspirado a otras nubes públicas como AWS y Google Cloud.

Los productos de VMware permiten a las empresas crear plataformas informáticas multicapa para mejorar la seguridad, reducir costos y aumentar la eficiencia, lo que los convierte en una solución ideal para empresas con requisitos de rendimiento elevado. En 2015, Dell realizó el acuerdo tecnológico más grande de todos los tiempos al adquirir VMware por 67 mil millones de dólares.

Actualmente, VMware es uno de los cinco principales jugadores en la gestión de cloud a nivel mundial y soporta más del 30% de las nubes privadas y públicas en todo el mundo. La infraestructura basada en VMware es versátil, moderna y segura, ofreciendo una solución confiable para la gestión de cloud.

‌

Principales retos

A continuación, se describen los retos más importantes que surgieron durante este evento:

Infraestructura de respaldo y restauración insuficiente: Debido a la falta de preparación para restaurar copias de respaldo de cientos de servidores simultáneamente, se generaron cuellos de botella en la infraestructura. Este problema resultó especialmente evidente en el centro de datos, donde se apoyaron muchas restauraciones simultáneas, especialmente entre aquellos clientes que tenían la posibilidad de realizar copias de respaldo o tenían copias de respaldo actualizadas.
Respuesta a las necesidades de información de los clientes: Durante este evento, se recibieron muchas consultas por parte de los clientes preocupados y frustrados. Para responder a estas necesidades, se utilizaron dos tecnologías eficaces: el sitio web de estatus (status.dongee.com) y el manejo en tiempo real de chats, WhatsApps y correos electrónicos. En este último caso, a pesar de que en eventos similares de otros proveedores la comunicación se desvía exclusivamente a la web de estatus y las respuestas pueden tardar días en llegar, en este evento se logró responder a todas las conversaciones con un tiempo máximo de 2 horas en la primera respuesta.
Coordinación del equipo: Durante este evento, el equipo debió coordinarse para atender tanto la recuperación como las necesidades específicas de los clientes. El ataque incluyó diferentes variantes, como la encriptación de discos en algunos clientes y daños en archivos de configuración en otros. Por esta razón, algunos servicios tuvieron que ser restaurados desde copias de respaldo, y alrededor de 6 servidores debieron ser reconstruidos.

Este ataque incluyó variantes donde a algunos clientes se les encriptó los discos y a la mayoría solo se encriptaron archivos de configuración, los cuales son reparados posteriormente. Por este motivo algunos servicios y debieron ser restaurar desde copias de respaldo, alrededor de 6 servidores.

‌

Equipos de acción

Durante una reunión de emergencia, se constituyeron cuatro equipos de acción con el objetivo de abordar la situación de manera efectiva:

Operación sin afectación: Un equipo se encargó de atender los requerimientos de la operación normal para un 85% de los clientes que no experimentaron ningún incidente.
Manejo del incidente: Un segundo equipo se concentró en recuperar y mejorar la situación del incidente, con el fin de reducir el tiempo de respuesta (RTO).
Atención a afectados: Un tercer equipo respondió a las necesidades de comunicación de aquellos que se vieron afectados por el incidente.
Prevención e investigación: Un equipo se enfocó en tareas de prevención e investigación para evitar la propagación de la afectación, apagando servicios e investigando la mejor manera de restaurar el servicio.

‌

Recomendaciones estratégicas de mitigación para Dongee

A continuación, se presentan algunas recomendaciones estratégicas para mitigar futuros riesgos en Dongee:

Desactivar los servicios vulnerables de VMware, como LSPI, que vienen activados por defecto. Acción realizada.
Revisar las rutinas de copias de seguridad y garantizar que un atacante no pueda acceder a ellas; protegerlas mediante acceso vía VPN. Esta estrategia ha sido implementada hace varios años.
Realizar copias de seguridad de la consola de copias de seguridad, ya que es una clave importante. En caso de que la consola de copias de seguridad que funciona en Windows sea atacada o experimente una interrupción, se tendrá una copia en una ubicación alternativa.
Mantener copias de seguridad externas para garantizar la posibilidad de recuperación en todo momento, incluso en caso de incendios en el centro de datos. Esta estrategia ha sido implementada hace varios años.
Crear una red aislada para ESXi/vCenter, que requiere una auditoría de acceso, utilizando un servidor de salto. Esta estrategia ha sido implementada hace varios años.
Mantener controles de acceso por IP para vCenter y ESXi. Esta estrategia ha sido implementada hace varios años.
Mantener SSH desactivado en todos los hosts ESXi (aunque esto no garantizaría una protección completa). Acción realizada.
Mantener campañas internas para educar sobre el phishing;
Use 2FA siempre que sea posible, especialmente en cuentas de administrador. Estrategia ya implementada desde hace varios años.
Aplicar parches a los servidores de Windows, estaciones de trabajo, servidores ESXi, servidores de respaldo, vCenter con la mayor frecuencia posible y de la manera más automatizada posible, revisando los informes sobre la instalación de parches fallidos para garantizar que todo el equipo esté actualizado.

En este punto debido a la naturaleza heterogénea del hardware, se debe optar por estrategias de bloqueo de acceso o acceso restringido debido a que Vmware y algunos parches de seguridad no son compatible con todo el hardware, poniendo en riesgo algunos servidores se quedan indisponibles. Es decir, se corre el riesgo de aplicar parches que van a inhabilitar servicios como los drivers de tarjetas de red, RAID y otros componentes.
Mantener campañas internas para educar a nuestro personal sobre la prevención del phishing. El objetivo es fortalecer la seguridad de nuestra información y garantizar un ambiente seguro para todos.
La implementación de la autenticación de dos factores (2FA) siempre que sea posible, especialmente en las cuentas de administrador, es una estrategia que ha sido aplicada con éxito en los últimos años. Es importante seguir fortaleciendo nuestras medidas de seguridad para proteger nuestra información y sistemas. Actualmente, en Dongee esta estrategia está implementada desde hace más de 7 años.
Debemos aplicar parches de forma regular a los servidores de Windows, estaciones de trabajo, servidores ESXi, servidores de respaldo y vCenter, utilizando los métodos más automatizados y eficientes. Revisaremos regularmente los informes de parches fallidos para garantizar la actualización de todos los sistemas. Debido a la heterogeneidad de hardware, es posible que se requieran estrategias de bloqueo o acceso restringido para algunos servidores. La compatibilidad de Vmware con todo tipo de hardware no debe poner en riesgo la disponibilidad de los servidores.

‌

Recomendaciones Estratégicas para Mitigar Riesgos para los Clientes

Importancia de Realizar Copias de Respaldo: Es importante destacar que es fundamental que los clientes realicen sus propias copias de respaldo de sus datos. Aunque en Dongee ofrecemos copias de respaldo de manera gratuita, con una antigüedad máxima de un día, es importante que los clientes tomen la responsabilidad de tener una copia de seguridad actualizada de sus datos. Para ello, existen servicios de pago que se pueden contratar, como Dongee Backup, Codeguard o similares.
Renovación de Servidores: Es importante considerar la renovación de servidores a nuevas gamas para garantizar una mayor seguridad. Un hardware con 5 años de operación puede ya no tener soporte y no permitir aplicar parches de seguridad, lo que pone en riesgo la información almacenada. En caso de que se presente la necesidad de adquirir nuevas gamas de servidores, es fundamental considerar la migración para mantener una plataforma segura y actualizada.
Educación sobre Phishing: Debido a incidentes previos de phishing con algunos clientes, es necesario promover una educación activa para detectar correos fraudulentos y prevenir ataques a través de este vector.
Uso de Mecanismos de Seguridad: Es recomendable utilizar mecanismos de seguridad disponibles en los servicios, como el almacenamiento seguro de contraseñas, la autenticación de doble factor y el uso de VPN para acceder a portales de gestión. Esto ayuda a proteger la información y aumentar la seguridad de las cuentas.

‌

Conclusiones

Es importante reconocer que el incidente fue causado por un atacante malintencionado y que los clientes fueron víctimas de un ciberataque.

Este tipo de ataque no hubo ingreso de atacantes a los discos o hubo robo de archivos.

A pesar de ello, el esfuerzo y dedicación del personal de Dongee, incluyendo el equipo de TI y operaciones, y de los profesionales de gestión TI en varios países, permitió responder de manera efectiva al incidente y minimizar su impacto.

El trabajo conjunto de ingenieros de todo el mundo también resultó crucial para prevenir un impacto aún mayor en el sistema. La planificación de emergencias y crisis tradicionalmente se enfoca en escenarios comunes que pueden generar un aumento temporal en la demanda de infraestructura de respaldo, pero un evento a escala es muy diferente y requiere una mayor capacidad de resiliencia.

Para aprovechar al máximo los aprendizajes de este incidente, es necesario ampliar las iniciativas existentes y diseñar una estrategia de restauración óptima que elimine cuellos de botella. Cabe destacar que en el 90% de los casos, no fue necesario recurrir a copias de respaldo ni a mecanismos de reparación y descifrado.

Notas:
Web de gestión del incidente https://status.dongee.com/incidents/vtzgcn3vc7ty

Mecanismo de acción del Ransomware de este incidente https://www.varonis.com/blog/vmware-esxi-in-the-line-of-ransomware-fire

Qué es el Ransomware https://www.dongee.com/tutoriales/que-es-ransomware-ejemplo/
Medios
https://thehackernews.com/2023/02/new-wave-of-ransomware-attacks.html

https://www.voanews.com/a/ransomware-attacks-in-europe-target-old-vmware-agencies-say/6949349.html

https://www.armis.com/blog/ransomware-attack-targets-vmware-esxi-servers-worldwide/

https://www.cert.ssi.gouv.fr/alerte/CERTFR-2023-ALE-015/

https://www.redhotcyber.com/post/attacco-ransomware-su-larga-scala-acn-allerta-differenti-organizzazioni-ad-effettuare-le-mitigazioni/

Comunidad
https://enes.dev/

https://www.bleepingcomputer.com/forums/t/782193/esxi-ransomware-help-and-support-topic-esxiargs-args-extension/page-15

Contexto

https://www.marketwatch.com/press-release/cloud-computing-market-latest-research-and-development-2023-to-2030-amazon-web-services-vmware-microsoft-azure-aliyun-2023-01-30?mod=search_headline

https://cnnespanol.cnn.com/2015/10/12/historica-transaccion-dell-compra-emc-por-67-mil-millones-de-dolares/

https://twitter.com/ExplotadoDel/status/1622288294229995521

Posted Feb 10, 2023 - 12:33 GMT-05:00

Resolved

Luego de trabajar 2 servicios que tenían algún tipo de dificultad, llevamos la operación al 100%. Esta semana publicaremos el informe post morten con los detalles.

Posted Feb 05, 2023 - 03:36 GMT-05:00

Monitoring

En este momento se ha restablecido la mayoría de los servicios afectados.

Luego de la investigación del incidente y la recopilación de los laboratorios de investigación que trabajaron para una pronta solución, se enviará un informe post morten.

👉 Si existe aún tienes una dificultad en tu servicio, por favor retoma la conversación ahora mismo en el ticket que estaba en curso. (por favor da clic en continuar para no abrir un ticket nuevo).

Agradecemos su paciencia y el equipo Dongee en su totalidad se encuentra feliz y satisfecho, comprometidos de principio a fin en una situación que aquejo al mundo antero, agradece su paciencia, comprensión y mensajes de apoyo.

Es un gusto poder lograr, lo que se logró hoy a pesar de las dificultades.

Posted Feb 03, 2023 - 20:48 GMT-05:00

Update

El proceso avanza satisfactoriamente y muy rápido. Se logró tener en cero el delta de pérdida de datos en la mayoría, algunas pocas máquinas (alrededor de 5) tienen un pequeño delta del backup de anoche 3 de enero.

Pronto estarán todas las máquinas al aire. Gracias por tu paciencia.

Posted Feb 03, 2023 - 19:11 GMT-05:00

Update

Estamos trabajando en la infraestructura de restauración, diseñada para eventos generales, creando más servidores de restauración proxys para acelerar el trabajo, incrementando los hilos para disminuir el tiempo.

Posted Feb 03, 2023 - 15:55 GMT-05:00

Identified

Una nueva variante de Ransomware, un tipo de ataque sofisticado, alcanzo varios de nuestros clientes en servidores de nuestra infraestructura de Canadá haciendo que debamos acudir a nuestras copias de respaldo.

Disponemos de 2 tipos de copias de respaldo confirmadas que están en curso de restauración.

Debido a la gravedad (el ataque es una noticia mundial que afecta masivamente a varios centros de datos en Canadá y Europa, principalmente Francia) el ETA es incierto debido al volumen de datos a restaurar.

Estamos trabajando duro, con apoyo extra, para restaurar lo más pronto posible a clientes afectados.

Lamentamos el hecho, que nos preocupa debido a que es una situación global, pero tenemos copias de respaldo, algo importante.

Actualizaremos pronto.

Posted Feb 03, 2023 - 13:51 GMT-05:00

Update

Se identificó el inconveniente que afecta a varias cajas de servidores. Se está trabajando para restaurar pronto el mismo.

Por favor, suscríbase a notificaciones SMS para conocer detalles generales cuando se produzca una actualización.

Posted Feb 03, 2023 - 08:40 GMT-05:00

Investigating

Debido a una falla en nuestra infraestructura algunos servicios ofrecidos por Dongee no se encuentran disponibles.

Nuestro equipo técnico está trabajando con el fin de identificar lo ocurrido.

Posted Feb 03, 2023 - 06:08 GMT-05:00