Índice de preparación agéntica

Las 4 palancas que los CIO deben controlar antes de que los agentes lleguen a la producción

Autodiagnóstico gratuito - 20 minutos - Puntos de referencia 2026

La preparación para la IA mide si se puede adoptar la IA. La preparación agenética mide si se pueden utilizar sistemas que actúen por sí solos. Cuatro palancas operativas deciden la respuesta, y no son las que destacan la mayoría de los marcos de gobernanza de la IA.

Ejecutar el diagnóstico O la auditoría completa de 30 días

Ilustración editorial: escalera que asciende desde la sombra hacia un horizonte ámbar que representa la madurez agéntica.

POR QUÉ UN MARCO INDEPENDIENTE

Los incidentes con agentes no se parecen en nada a los incidentes con IA

A finales de 2025, todos los incidentes importantes de IA empresarial que analizamos respondían a uno de estos cuatro patrones. Una política demasiado tosca para impedir que el agente realizara una acción técnicamente permitida que ningún humano habría aprobado. Una cadena de herramientas que se fracturó porque dos agentes compitieron en el mismo punto final o porque un proveedor introdujo un cambio de esquema perjudicial. Un traspaso que apareció en un panel de control que nadie estaba viendo. Un desencadenante de costes que se disparó una vez finalizada la ejecución, no durante la misma. Ninguno de ellos fue un fallo de gobernanza en el sentido tradicional. Los documentos de gobernanza estaban en su sitio. El modelo de madurez situaba a la organización en el nivel 3. Los agentes fallaron de todos modos.

Las cuatro palancas siguientes son las que diferencian a las organizaciones que pueden ejecutar agentes en producción de las organizaciones que tienen copilotos y los llaman agentes. Una puntuación inferior a 60 en cualquiera de las palancas significa que los despliegues de agentes deben realizarse en modo supervisado hasta que se corrija la palanca. Una puntuación superior a 80 en las cuatro es el listón para los agentes autónomos en producción y, a partir del segundo trimestre de 2026, muy pocas empresas lo superarán.

EL MARCO

Cuatro palancas, puntuadas independientemente

Cada palanca se puntúa de 0 a 100 a partir de las señales operativas que aparecen a continuación. Las palancas son independientes; una política fuerte con una cadena de herramientas débil sigue produciendo una preparación débil de los agentes. Corrige primero la palanca más débil: define el límite práctico de lo que puedes enviar.

¿Puede su política distinguir entre las acciones que el agente debería emprender y las que técnicamente podría emprender?

La mayoría de las políticas de IA están escritas para humanos que utilizan herramientas de IA. Dicen "no compartir datos de clientes con sistemas externos" y "revisar los resultados antes de publicarlos" Los agentes no revisan sus propios resultados, y la cuestión de qué cuenta como "compartir" se colapsa cuando el agente está leyendo un CRM, escribiendo un borrador de correo electrónico, llamando a una API de búsqueda y presentando un ticket en la misma ejecución. La granularidad de la política es si sus reglas son lo suficientemente específicas como para dar al agente algo sobre lo que actuar.

Strong signals (scores 80+)

La política se redacta a nivel de acción: herramientas específicas, operaciones específicas (lectura, escritura, supresión), clases de datos específicas
Cada agente de producción tiene una lista documentada de herramientas permitidas y una lista explícita de denegación de operaciones destructivas o visibles desde el exterior
La política distingue entre los modos supervisado (copiloto) y autónomo (agente) y aplica normas diferentes a cada uno de ellos
Las excepciones requieren una solicitud documentada, una justificación del riesgo y un aprobador designado, no un aviso silencioso

Weak signals (scores below 40)

La política de IA es un documento que abarca indistintamente el uso de ChatGPT, las herramientas de copilotaje y los agentes de producción
Los agentes heredan los permisos de la cuenta de servicio en lugar de los permisos específicos del agente
Las excepciones a las políticas se gestionan en DMs de Slack u hojas de cálculo
La respuesta a "¿qué puede hacer este agente?" es "lo que permita la API"

¿Sus herramientas pueden sobrevivir al acceso simultáneo de agentes, a la desviación de protocolos y a la rotación de proveedores?

MCP se convirtió en el protocolo de agente-herramienta dominante en 2025. Casi todos los grandes proveedores lo han implantado. Esa estandarización oculta un problema más grave: las herramientas se rompen de una forma que la infraestructura de la era del copiloto nunca tuvo que gestionar. Dos agentes que se encuentran en el mismo punto final compiten entre sí. El esquema de una herramienta cambia en mitad de la ejecución porque un proveedor ha enviado una actualización de última hora. Un agente escrito para el MCP de Anthropic se fragmenta cuando se apunta a una implementación ligeramente diferente. La interoperabilidad de la cadena de herramientas mide si su infraestructura de herramientas es de carga o incidental.

Strong signals (scores 80+)

Las definiciones de las herramientas están versionadas, y los agentes declaran la versión con la que se han probado
La limitación de velocidad se aplica a la identidad del agente, no a la cuenta de servicio
Las herramientas exponen la semántica de la idempotencia y los agentes saben cómo utilizarlas
Los cambios en los esquemas de las herramientas se someten al mismo ciclo de eliminación que los cambios en las API externas: notificación con 90 días de antelación, calce de compatibilidad, telemetría sobre el uso de la versión antigua..
Puede intercambiar el modelo subyacente (Claude a GPT a Gemini) sin reescribir la cola de herramientas

Weak signals (scores below 40)

Las herramientas son añadidas a los agentes por "quien las necesite esa semana" sin registro
Dos agentes comparten una misma cuenta de servicio; los registros de auditoría no pueden distinguirlos
Las definiciones de las herramientas se almacenan en cadenas de comandos en lugar de en esquemas versionados
La actualización de un proveedor quebró a un agente y la primera señal fue una queja de un cliente

Cuando el agente escala, ¿lo detecta un humano a tiempo?

En algún momento, todo agente de producción tomará una decisión que no debería tomar. Los protocolos de transferencia determinan lo que ocurre a continuación. Los traspasos débiles aparecen en los paneles de control que nadie mira, llaman a ingenieros de guardia que no tienen contexto, o expiran en silencio y dejan que el agente continúe. Los traspasos eficaces se dirigen a la persona adecuada con el seguimiento completo, bloquean la acción hasta su resolución e incluyen una alternativa ensayada para cuando no se puede contactar con la persona. Esta es la palanca en la que las autopsias revelan con más frecuencia que la organización pensaba que tenía un traspaso y no era así.

Strong signals (scores 80+)

Cada agente dispone de disparadores de escalada documentados (confianza por debajo del umbral, llamada ambigua a una herramienta, acción novedosa no incluida en la distribución de formación)
Las escaladas se dirigen a una persona de guardia con un contexto completo (acciones recientes, la decisión en cuestión y una denegación con un solo clic)
Se definen y controlan los SLA del traspaso: tiempo medio hasta la intervención humana, tiempo medio hasta la decisión, tasa de tiempos de espera
Un simulacro mensual comprueba la ruta de traspaso de extremo a extremo, incluido el caso de que el aprobador principal no esté localizable
Los agentes hacen una pausa en la escalada; no proceden a una retirada tras un tiempo de espera

Weak signals (scores below 40)

Las escaladas van a un canal de Slack con 200 miembros y sin propietario
Tiempos de espera por defecto "el agente procede con la mejor estimación"
La rotación de guardia de los sistemas agénticos es la misma que la de la plataforma general
Nadie ha comprobado lo que ocurre cuando el aprobador principal está de baja

¿Sabrá que el agente está quemando presupuesto antes de que se acabe el presupuesto?

La quema de fichas de agente es bimodal. La mayoría de las ejecuciones son baratas. Una pequeña fracción - los que golpean una recursión, una espiral de ventana de contexto, o una búsqueda ilimitada - consumen más tokens en minutos que una ejecución normal consume en un mes. Los disparadores de aumento de costes determinan si se detectan estas ejecuciones mientras se están ejecutando, no después. Los disparadores débiles se activan en la revisión mensual de facturas. Los disparadores fuertes se activan en los presupuestos por ejecución, los presupuestos por agente y la velocidad de gasto entre agentes, con interruptores de desactivación automáticos antes incluso de que se lea la alerta.

Strong signals (scores 80+)

Cada agente tiene un presupuesto de fichas por ejecución y un límite máximo de gasto por hora; ambos se aplican en el código, no en la política
Una ejecución que se aproxima a su presupuesto desencadena una parada suave (el agente resume el estado y se retira) en lugar de una parada dura
Las alertas de velocidad de gasto se disparan en los 5 minutos siguientes a un aumento de la función de paso
Los incumplimientos presupuestarios tienen responsables documentados y una cadencia de revisión posterior al incidente
Finanzas e ingeniería comparten un cuadro de mando de costes en tiempo real

Weak signals (scores below 40)

El coste del agente se revisa mensualmente a partir de la factura del proveedor de la nube
Una sola carrera podría superar todo el presupuesto mensual antes de que nadie se diera cuenta
Los interruptores de seguridad existen sobre el papel, pero nunca se han utilizado
Nadie puede responder en 30 segundos a la pregunta "¿cuánto gastamos ayer en agentes?

EL DIAGNÓSTICO

12 preguntas, una puntuación por palanca

Responde a cada pregunta para tu sistema de IA de producción más autónomo. Sí = 33 puntos para esa palanca. Parcial = 17. No = 0. Si no tiene agentes de producción, puntúe el sistema que esté más cerca de desplegar. Una palanca con cualquier "no" tiene un tope de 66 puntos, independientemente de las demás respuestas: un solo bloqueador anula la palanca.

Policy Granularity

¿Puede elaborar, en menos de cinco minutos, la lista exacta de herramientas y operaciones que cada agente de producción puede invocar?
¿Distingue su política entre las normas para copilotos (comprometidos humanos) y las normas para agentes (comprometidos agentes)?
¿Existe un proceso documentado para añadir, modificar o eliminar permisos de agente, con aprobadores designados y registro de auditoría?

Toolchain Interoperability

¿Están las definiciones de las herramientas versionadas, con agentes vinculados a versiones probadas?
¿Pueden sus registros de auditoría distinguir qué agente (no qué cuenta de servicio) realizó una acción determinada?
¿Ha cambiado con éxito el modelo subyacente de un agente de producción en los últimos 12 meses sin reescribir la cola de herramientas?

Human-Agent Handoff

Cuando un agente pasa a un nivel superior, ¿se dirige a una persona de guardia con el contexto completo o a un canal compartido?
¿Ha ensayado, en los últimos 90 días, qué ocurre cuando el aprobador principal está ilocalizable?
¿Hace un seguimiento del tiempo hasta la decisión humana como un SLA de primera clase, con objetivos y alertas?

Cost Escalation Triggers

¿Existe un presupuesto de fichas por ejecución aplicado en código para cada agente de producción?
¿Puede responder a la pregunta "¿cuánto hemos gastado en agentes en la última hora?" desde un cuadro de mandos en directo?
¿Se ha utilizado el interruptor de corte en un simulacro (no sólo en un incidente) en el último trimestre?

Leer su puntuación

80-100 en las cuatro palancas: Listo para la producción para agentes autónomos en dominios delimitados. Expanda con cautela; controle la palanca más débil a medida que escala.
60-79 en las cuatro palancas: Sólo autonomía supervisada. Ejecutar agentes en producción con un humano en el bucle de aprobación para cada acción en el dominio de la palanca más débil.
Por debajo de 60 en cualquier palanca: No ejecute agentes autónomos en el dominio que gobierna la palanca. Los copilotos están bien; la autonomía, no.
Por debajo de 40 en cualquier palanca: Detener el despliegue de agentes en ese ámbito y remediarlo. La corrección suele medirse en trimestres, no en semanas.

PUNTOS DE REFERENCIA Q2 2026

Puntuación real de sus homólogos

Puntuaciones agregadas de organizaciones que hemos evaluado, revisado o comparado con revelaciones públicas. La brecha entre "empresa con programa de IA maduro" y "laboratorios de IA fronterizos" no es la visión o el talento, sino la infraestructura operativa que se mide aquí.

Segmento	Política	Cadena de herramientas	Traspaso	Coste
Laboratorios de IA fronterizos / tecnología de primer nivel (2026)	85	80	75	85
Empresa con programa de IA maduro	60	55	45	50
Empresa con despliegue de copilotos	40	35	25	30
Sólo empresas con política ChatGPT	15	10	10	10

El traspaso es sistemáticamente la palanca más débil en todos los segmentos, excepto en los laboratorios fronterizos. También es la palanca que la mayoría de las organizaciones sobrestiman: la brecha entre "tenemos una vía de escalada" y "se ha ejercido la vía de escalada" es donde se produjeron la mayoría de los incidentes con agentes de 2025-2026.

MARCOS ADYACENTES

Cuál es su posición en relación con la madurez de la gobernanza y la auditoría de preparación

El Índice de Disponibilidad de Agentes complementa, no sustituye, a los marcos más amplios. Utilícelo para responder a una pregunta concreta: ¿puede esta organización poner agentes en producción, ahora mismo, sin crear incidentes que el modelo de gobernanza no pueda atajar?

	Índice de preparación agéntica	Modelo de madurez de la gobernanza	auditoría de 30 días de preparación para la IA
Qué mide	Capacidad operativa para ejecutar agentes autónomos en producción	Andamiaje de gobernanza institucional para la IA en general	Seis dimensiones de la preparación de toda la organización para la adopción de la IA
Público principal	Director Técnico, Jefe de Plataforma, CAIO	CAIO, CRO, Consejero General	CEO, consejo, equipo ejecutivo
Salida	puntuación de 0 a 100 por palanca + medidas correctoras específicas	Posicionamiento de nivel 1-5 + libro de jugadas de transición	Informe listo para la Junta + hoja de ruta de 6 a 12 meses
Coste	Autoevaluación gratuita	Autoevaluación gratuita	25.000-50.000 dólares de compromiso remunerado
Plazo de ejecución	20 minutos	15 minutos	30 días
Profundidad	Profundizar en cuatro palancas operativas	Amplios controles de gobernanza	Profundidad en seis dimensiones organizativas

Dos artículos relacionados para leer al lado:Retorno de la inversión en Inteligencia Artificial cubre el caso económico una vez que los agentes están en marcha;Seguridad de la Inteligencia Artificial cubre la dimensión adversarial. En cuanto a los patrones de arquitectura propiamente dichos, la referencia autorizada sigue siendoArquitectura de IA Agenética: Patrones, diagramas y la decisión de orquestación.

ORDEN DE REPARACIÓN

Arregla primero la palanca más débil, siempre

Los programas de remediación con múltiples palancas obtienen sistemáticamente peores resultados que los programas de remediación con una sola palanca, seguidos de la palanca más débil. La razón es la fragilidad del trabajo: la política, la cadena de herramientas, el traspaso y el coste funcionan como un sistema, e intentar hacer tres cosas a la vez produce tres proyectos a medio terminar. La secuencia es la siguiente.

Identificar la palanca más débil. Si dos palancas tienen una diferencia de 10 puntos entre sí, elija la que sus agentes utilicen con más frecuencia en su carga de trabajo actual.
Establece un techo, no un suelo. Limitar la autonomía de los agentes en el dominio que gobierna la palanca hasta que ésta supere los 70. Esto no es negociable y debería ser visible para todos los equipos que envían agentes.
Realice un sprint de corrección de 90 días. Granularidad de la política: reescribir la sección de agentes de la política de IA con herramientas y operaciones con nombre. Cadena de herramientas: versionar cada definición de herramienta, instrumentar registros de auditoría de identidad de agentes, añadir ciclos de eliminación de esquemas. Traspaso: nombrar a los humanos de guardia, establecer SLA, realizar un simulacro mensual. Coste: implementar presupuestos por ejecución y por hora en el código, construir el panel de control en vivo.
Vuelva a puntuar y a planificar. Vuelva a ejecutar el diagnóstico en el día 90. La palanca debe cruzar 70. Si no lo hace, el plan era erróneo; amplíelo 60 días antes de pasar a la siguiente palanca.
Pasa a la siguiente palanca más débil. Repetición. Una corrección completa de cuatro palancas suele llevar entre 9 y 15 meses en una empresa mediana, y más tiempo en los sectores regulados.

Frequently Asked Questions

¿Qué es la preparación agéntica?

La preparación agéntica es la capacidad de una organización para desplegar y operar agentes autónomos de IA que emprenden acciones de varios pasos por sí mismos, no sólo chatbots aumentados por RAG. Mientras que la preparación tradicional para la IA pregunta si se puede adoptar la IA, la preparación agéntica hace una pregunta más difícil: ¿se pueden operar sistemas que deciden, actúan, gastan fichas, llaman a herramientas y ocasionalmente fallan de forma inesperada sin la revisión humana de cada paso? Cuatro palancas operativas determinan la respuesta: la granularidad de las políticas, la interoperabilidad de la cadena de herramientas, los protocolos de traspaso agente-humano y los activadores de la escalada de costes.

¿En qué se diferencia del modelo de madurez de la gobernanza de la IA?

El modelo de madurez de la gobernanza mide el andamiaje institucional en torno a la IA: políticas, registros de riesgos, mapas de cumplimiento, informes a los consejos de administración. El índice de preparación agéntica mide la infraestructura operativa necesaria para una clase específica de sistema de IA: el que actúa de forma autónoma. Una organización puede alcanzar el nivel 3 de madurez de gobernanza y seguir sin estar preparada para la inteligencia artificial porque sus registros de llamadas a herramientas son objeto de muestreo, sus disparadores de costes se activan sólo a posteriori y nadie ha comprobado lo que ocurre cuando un agente entra en bucle.

¿En qué se diferencia de la auditoría de preparación para la IA de 30 días?

La Auditoría de Preparación para la IA es un compromiso de pago de 30 días que evalúa seis dimensiones organizativas (entrega, personal, arquitectura, datos, gobernanza, liderazgo) comparándolas con los puntos de referencia de Gartner. El Agentic Readiness Index es un diagnóstico de autoevaluación gratuito centrado específicamente en las cuatro palancas operativas necesarias para ejecutar agentes en producción. La mayoría de las organizaciones que completan la auditoría obtienen una buena puntuación en la preparación general para la IA y una puntuación baja en la preparación agéntica: las capacidades son adyacentes, no se solapan. Los equipos suelen empezar con este índice y encargan la auditoría cuando necesitan una hoja de ruta para toda la empresa.

¿Por qué sólo cuatro palancas en lugar de un marco mayor?

Todos los fallos de los agentes que hemos observado en 2024-2026 pertenecen a una de estas cuatro categorías: una política demasiado tosca (el agente hizo algo técnicamente permitido que nadie habría aprobado), una cadena de herramientas que se fracturó bajo carga (dos agentes peleándose por la misma herramienta, o una herramienta que cambió de forma en mitad de una llamada), un traspaso que falló silenciosamente (el agente escaló a un humano que no estaba mirando), o un activador de costes que se disparó demasiado tarde (la ejecución terminó antes de que llegara la alerta de presupuesto). Todo lo demás -calidad de los datos, selección de modelos, diseño de avisos- importa, pero no diferencia la preparación del agente de la preparación de la IA en general. Cuatro palancas es lo suficientemente ajustado como para recordarlo y lo suficientemente específico como para actuar en consecuencia.

¿Qué puntuación indica que estamos listos para escalar agentes en producción?

Una puntuación de 80+ en las cuatro palancas, sin ninguna por debajo de 70. En ese umbral, una organización tiene una política lo suficientemente granular como para evitar la sobreactuación, una infraestructura de herramientas que sobrevive a la concurrencia de agentes, protocolos de traspaso que detectan los fallos antes de que se agraven y activadores de costes que se disparan antes de que se disparen los presupuestos. Por debajo de 60 en cualquiera de las palancas, los despliegues de agentes deben permanecer en modo piloto supervisado. Por debajo de 40 en cualquier palanca, no ejecute agentes autónomos en producción en absoluto: ejecute copilotos con cada paso aprobado por humanos hasta que se solucione la palanca.

Ya tenemos copilotos en producción. ¿Necesitamos esto?

Los copilotos y los agentes son categorías de riesgo diferentes. Un copiloto sugiere; un humano se compromete. Un agente se compromete; un humano audita. El salto de copiloto en producción a agente en producción es donde se produjeron la mayoría de los incidentes de 2025-2026: la misma infraestructura que era segura para las sugerencias se volvió insegura cuando el mismo sistema empezó a actuar. El índice es más útil precisamente en esta transición, cuando la dirección cree que la organización está preparada para los agentes porque los copilotos funcionan, pero la infraestructura operativa no se ha puesto al día.

¿Se ha autocalificado y no está seguro de lo que significa la puntuación?

La auditoría de preparación para la IA de 30 días toma las mismas cuatro palancas y otras siete dimensiones organizativas, las valida con entrevistas a las partes interesadas y una revisión de la arquitectura, y elabora una hoja de ruta lista para la junta directiva. La mayoría de los equipos ejecutan primero el índice; la auditoría se realiza cuando la puntuación muestra una brecha demasiado grande para cerrarla internamente.

Ver la auditoría de 30 días O un compromiso fraccionado

Las 4 palancas que los CIO deben controlar antes de que los agentes lleguen a la producción

Los incidentes con agentes no se parecen en nada a los incidentes con IA

Cuatro palancas, puntuadas independientemente

Granularidad de las políticas

Strong signals (scores 80+)

Weak signals (scores below 40)

Interoperabilidad de la cadena de herramientas

Strong signals (scores 80+)

Weak signals (scores below 40)

Traspaso humano-agente

Strong signals (scores 80+)

Weak signals (scores below 40)

Factores desencadenantes de la escalada de costes

Strong signals (scores 80+)

Weak signals (scores below 40)

12 preguntas, una puntuación por palanca

Policy Granularity

Toolchain Interoperability

Human-Agent Handoff

Cost Escalation Triggers

Leer su puntuación

Puntuación real de sus homólogos

Cuál es su posición en relación con la madurez de la gobernanza y la auditoría de preparación

Arregla primero la palanca más débil, siempre

Frequently Asked Questions

¿Se ha autocalificado y no está seguro de lo que significa la puntuación?