A medida que las organizaciones de la región de Asia Pacífico continúan acelerando la transformación digital, enfrentan una presión significativa para mantener todo funcionando sin problemas en un entorno de TI cada vez más complejo. Podría decirse que los riesgos son mayores en esta región que en cualquier otro lugar del mundo. El informe de Perspectivas de Monitoreo 2023 de New Relic encontró que la región de Asia y el Pacífico tiene el costo promedio de interrupción anual más alto por un amplio margen: más del doble que en Europa y aproximadamente 16 veces el de América del Norte.
Sus equipos de TI no sólo son responsables de encontrar y solucionar incidentes lo más rápido posible; También deben evitar que se repitan esos costosos accidentes. Naturalmente, muchos líderes de TI en la región están observando el surgimiento de la IA, la evolución de los grandes modelos de lenguaje (LLM) y su potencial para cambiar la respuesta a incidentes tal como la conocemos.
La prevención es la estrella del norte de la respuesta a incidentes con IA, pero la experiencia importa
Muchos equipos ya están empezando a ver cómo la tecnología AIOps puede ayudar a obtener beneficios al reducir los problemas o el impacto en la experiencia del cliente, como la detección proactiva de anomalías, la correlación de incidentes para reducir el ruido de las alertas y el análisis automático de posibles causas raíz.
La promesa de la IA para reducir los incidentes de TI parece interminable, y algunos incluso sugieren que eventualmente logrará el objetivo de prevenir interrupciones e interrupciones por completo. Sin embargo, omitir cualquier paso clave en ese viaje o limitar la experiencia de los equipos de TI que trabajan hoy en día en respuestas a incidentes podría ser perjudicial para el progreso del MBA.
Para muchos equipos de TI, todavía lleva mucho tiempo detectar posibles problemas antes de que se conviertan en incidentes. Los equipos suelen trabajar de forma reactiva, combatiendo los incidentes de extinción de incendios, sin encontrar nunca tiempo para implementar procesos que les permitan identificar los problemas antes de que causen interrupciones.
Para dominar la prevención con el apoyo de los LLM, los equipos deben tener experiencia en encontrar y solucionar incidentes. Este paso No puedo La capacitación en resolución de problemas de incidentes permitirá a los equipos adquirir las habilidades necesarias para implementar estrategias de mitigación y tomar medidas preventivas. Esta experiencia enriquecerá la capacidad de los equipos humanos y de los expertos en gestión de incidentes para comprender y justificar conjuntos de datos a gran escala y realizar una variedad de tareas dentro del ciclo de vida de respuesta a incidentes.
Tres formas en que LLM cambiará la respuesta a incidentes
El ciclo de vida de respuesta a incidentes puede variar de una organización a otra, e incluso de un equipo a otro. A continuación se presentan algunas posibilidades dentro de las tareas clave a lo largo del ciclo de vida de respuesta a incidentes:
- investigación: Cuando ocurre un accidente, el primer paso que da un ingeniero es recopilar información e investigar el espacio problemático. Los LLM tienen un papel importante que desempeñar en este proceso. Con acceso a datos actuales e históricos, los LLM podrán analizar el incidente, investigar incidentes pasados para aprovechar experiencias pasadas y reflexionar sobre estos datos para recomendar un posible camino a seguir. Al actuar como investigadores, los equipos de SRE ahorrarán importantes horas de trabajo manual.
- Solución de problemas y diagnóstico: A medida que se desarrollen los programas LLM, los equipos podrán aprovechar la misma funcionalidad de búsqueda utilizando bases de conocimiento más amplias para ayudar en la investigación de un incidente, incluida la identificación de manuales aplicables al incidente. A medida que la base de conocimientos se extienda más allá de la organización hacia el conocimiento externo, los agentes de IA podrán realizar análisis automatizados de la causa raíz mediante la evaluación iterativa de hipótesis basadas en la experiencia local y el conocimiento global. Podrán simular la percepción humana, hacer inferencias, actuar a través del diálogo con equipos humanos para llenar los vacíos de etapas anteriores y luego ayudar haciendo sugerencias. El valor para la ingeniería radica en un tiempo promedio más corto para comprender el impacto y la causa de los incidentes, mientras que el valor para las empresas radica en un tiempo promedio más corto para la resolución.
- Anatomía y documentación del accidente: Después de un accidente, es común que los ingenieros recopilen, resuman y produzcan un informe post mortem. Una autopsia de accidente implica analizar fallas para obtener información sobre por qué ocurrieron, cómo afectaron las operaciones y, lo más importante, cómo prevenirlas en el futuro. Este proceso puede tardar semanas. A través de capacidades de investigación, resumen y razonamiento, un LLM puede facilitar las etapas iniciales de la creación de una revisión posterior al incidente mediante la recopilación, comparación, resumen y análisis de datos, y luego hacer recomendaciones sobre estrategias de mitigación. Esto reduce la carga cognitiva de los ingenieros y les ahorra una cantidad significativa de tiempo.
A medida que el software de gestión de riesgos se vuelve más complejo, las organizaciones y sus equipos de TI ciertamente pueden aprovecharlo para gestionar y, en última instancia, prevenir incidentes. Pero la advertencia aquí es que no hay atajos para este proceso y, lo que es más importante, no hay sustituto para la experiencia vivida por los equipos humanos.
Los programas LLM requieren que los equipos humanos tengan una gran experiencia en respuesta a incidentes para poder realizar tareas de manera efectiva basadas en el razonamiento lógico. Sólo entonces las herramientas producirán el impacto positivo esperado en los tiempos de respuesta a incidentes, los tiempos de resolución y los resultados generales. El próximo capítulo de la respuesta a incidentes estará respaldado por una mayor eficiencia en la forma en que las organizaciones responden, gestionan y aprenden de los incidentes, con énfasis en la inteligencia, la automatización y la colaboración entre humanos y máquinas.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos