Índice de Prontidão Agêntica

As 4 alavancas que os CIOs devem controlar antes que os agentes cheguem à produção

Diagnóstico gratuito com autoavaliação - 20 minutos - 2026 benchmarks

A prontidão para IA mede se você pode adotar a IA. A prontidão para a agenticidade mede se você pode operar sistemas que agem por conta própria. Quatro alavancas operacionais decidem a resposta - e não são as que a maioria das estruturas de governança de IA enfatiza.

Executar o diagnóstico Ou a auditoria completa de 30 dias

Ilustração editorial: escada que sobe da sombra em direção a um horizonte âmbar representando a maturidade autêntica

POR QUE UMA ESTRUTURA SEPARADA

Os incidentes de agente não se parecem em nada com os incidentes de IA

Até o final de 2025, todos os principais incidentes de IA corporativa que analisamos se enquadraram em um dos quatro padrões. Uma política que era muito rígida para impedir o agente de realizar uma ação tecnicamente permitida que nenhum ser humano teria aprovado. Uma cadeia de ferramentas que se rompeu porque dois agentes correram para o mesmo endpoint ou porque um fornecedor enviou uma alteração de esquema que quebrou. Um handoff que apareceu em um painel que ninguém estava observando. Um acionador de custos que foi disparado após o término da execução, e não durante. Nenhuma dessas situações foi uma falha de governança no sentido tradicional. Os documentos de governança estavam em vigor. O modelo de maturidade classificou a organização no Nível 3. De qualquer forma, os agentes falharam.

As quatro alavancas abaixo são o que diferencia as organizações que podem executar agentes na produção das organizações que têm copilotos e os chamam de agentes. Uma pontuação abaixo de 60 em qualquer alavanca significa que as implementações de agentes devem estar no modo supervisionado até que a alavanca seja corrigida. Uma pontuação acima de 80 em todas as quatro alavancas é o padrão para agentes de produção autônomos - e, a partir do segundo trimestre de 2026, pouquíssimas empresas conseguirão atingi-lo.

A ESTRUTURA

Quatro alavancas, marcadas de forma independente

Cada alavanca é pontuada de 0 a 100 com base nos sinais operacionais abaixo. As alavancas são independentes; uma política forte com uma cadeia de ferramentas fraca ainda produz uma prontidão agêntica fraca. Corrija primeiro a alavanca mais fraca - ela define o limite prático do que você pode enviar.

Sua política pode distinguir entre as ações que o agente deve tomar e as ações que o agente poderia tecnicamente tomar?

A maioria das políticas de IA é escrita para humanos que usam ferramentas de IA. Elas dizem "não compartilhe dados de clientes com sistemas externos" e "revise os resultados antes de publicá-los" Os agentes não revisam seus próprios resultados, e a questão do que conta como "compartilhamento" entra em colapso quando o agente está lendo um CRM, escrevendo um rascunho de e-mail, chamando uma API de pesquisa e preenchendo um tíquete na mesma execução. A granularidade da política é se suas regras são específicas o suficiente para dar ao agente algo para agir.

Strong signals (scores 80+)

A política é escrita no nível da ação: ferramentas específicas, operações específicas (leitura, gravação, exclusão), classes de dados específicas
Todo agente de produção tem uma lista documentada de ferramentas permitidas e uma lista explícita de operações destrutivas ou visíveis externamente negadas
A política distingue os modos supervisionado (copiloto) do autônomo (agente) e aplica regras diferentes a cada um deles
As exceções requerem uma solicitação documentada, uma justificativa de risco e um aprovador nomeado, e não um sinalizador silencioso

Weak signals (scores below 40)

A política de IA é um documento que abrange o uso do ChatGPT, ferramentas de copiloto e agentes de produção de forma intercambiável
Os agentes herdam as permissões da conta de serviço em vez de permissões específicas do agente
As exceções de política são gerenciadas em DMs ou planilhas do Slack
A resposta para "o que esse agente pode fazer?" é "o que a API permitir"

Suas ferramentas conseguem sobreviver ao acesso simultâneo de agentes, à variação de protocolos e à rotatividade de fornecedores?

O MCP tornou-se o protocolo de ferramenta de agente dominante em 2025. Quase todos os principais fornecedores o implementaram. Essa padronização esconde um problema mais difícil: as ferramentas quebram de maneiras que a infraestrutura da era do copiloto nunca precisou lidar. Dois agentes que atingem o mesmo endpoint competem entre si. O esquema de uma ferramenta é alterado no meio da execução porque um fornecedor enviou uma atualização de ruptura. Um agente escrito para o MCP da Anthropic se fragmenta quando apontado para uma implementação ligeiramente diferente. A interoperabilidade da cadeia de ferramentas mede se a infraestrutura de sua ferramenta é de suporte ou incidental.

Strong signals (scores 80+)

As definições de ferramentas são versionadas e os agentes declaram a versão em que foram testados
A limitação de taxa tem como escopo a identidade do agente, não a conta de serviço
As ferramentas expõem a semântica da idempotência e os agentes sabem como usá-las
As alterações de ruptura nos esquemas de ferramentas passam pelo mesmo ciclo de depreciação que as alterações externas de API - aviso de 90 dias, shim de compatibilidade, telemetria sobre o uso da versão antiga
Você pode trocar o modelo subjacente (Claude para GPT para Gemini) sem reescrever a cola da ferramenta

Weak signals (scores below 40)

As ferramentas são adicionadas aos agentes por "quem quer que precise delas naquela semana", sem registro
Dois agentes compartilham uma única conta de serviço; os registros de auditoria não conseguem diferenciá-los
As definições de ferramentas residem em cadeias de prompt em vez de esquemas com versão
Uma atualização de fornecedor quebrou um agente e o primeiro sinal foi uma reclamação de cliente

Quando o agente aumenta a escala, um humano realmente a detecta - a tempo?

Todo agente de produção chegará, eventualmente, a uma decisão que não deveria tomar. Os protocolos de transferência determinam o que acontece em seguida. As transferências fracas são exibidas em painéis que ninguém vê, chamam engenheiros de plantão que não têm contexto ou dão um tempo silencioso e deixam o agente prosseguir. As transferências sólidas encaminham para a pessoa certa com o rastreamento completo, bloqueiam a ação até a resolução e incluem um recurso alternativo ensaiado para quando a pessoa não puder ser contatada. Essa é a alavanca em que os post-mortems mais frequentemente revelam que a organização pensou que tinha uma transferência e não tinha.

Strong signals (scores 80+)

Cada agente tem gatilhos de escalonamento documentados (confiança abaixo do limite, chamada de ferramenta ambígua, ação nova que não está na distribuição de treinamento)
Encaminhamento de escalonamentos para uma pessoa de plantão nomeada com contexto completo (ações recentes, a decisão em questão e uma recusa com um clique)
Os SLAs de Handoff são definidos e monitorados: tempo médio até o ser humano, tempo médio até a decisão, taxa de timeouts
Um exercício mensal testa o caminho de transferência de ponta a ponta, incluindo o caso em que o aprovador principal não pode ser acessado
Os agentes fazem uma pausa no escalonamento; eles não prosseguem com um fallback após um tempo limite

Weak signals (scores below 40)

As escalações vão para um canal do Slack com 200 membros e sem proprietário
Os tempos limite são padronizados como "o agente prossegue com a melhor estimativa"
O rodízio de plantão para sistemas agênticos é o mesmo que o rodízio geral da plataforma
Ninguém testou o que acontece quando o aprovador principal está em PTO

Você saberá que o agente está queimando o orçamento antes que o orçamento acabe?

A queima de fichas do agente é bimodal. A maioria das execuções é econômica. Uma pequena fração - aquelas que atingem uma recursão, uma espiral de janela de contexto ou uma pesquisa sem limites - consome mais tokens em minutos do que uma execução normal consome em um mês. Os acionadores de escalonamento de custos determinam se você detecta essas execuções enquanto elas estão sendo executadas, e não depois. Os acionadores fracos são disparados na revisão mensal da fatura. Os acionadores fortes são disparados em orçamentos por execução, orçamentos por agente e velocidade de gastos entre agentes, com kill-switches automatizados antes mesmo de o alerta ser lido.

Strong signals (scores 80+)

Cada agente tem um orçamento de token por execução e um teto de gasto por hora; ambos são aplicados no código, não na política
Uma execução que se aproxima de seu orçamento aciona uma parada suave (o agente resume o estado e desliga) em vez de uma interrupção total
Alertas de velocidade de gasto disparam em até 5 minutos após um aumento da função de passo
As violações orçamentárias têm proprietários documentados e uma cadência de revisão pós-incidente
Finanças e engenharia compartilham um painel de custos agênticos em tempo real

Weak signals (scores below 40)

O custo do agente é revisado mensalmente pela fatura do provedor de nuvem
Uma única corrida descontrolada poderia exceder todo o orçamento mensal antes que alguém percebesse
Os interruptores de desligamento existem no papel, mas nunca foram usados
Ninguém consegue responder "quanto gastamos com agentes ontem?" em 30 segundos

O DIAGNÓSTICO

12 perguntas, uma pontuação por alavanca

Responda a cada pergunta do seu sistema de IA de produção mais autônomo. Sim = 33 pontos para essa alavanca. Parcial = 17. Não = 0. Se você não tiver agentes de produção, pontue o sistema que estiver mais próximo de implantar. Uma alavanca com qualquer "não" tem um limite de 66 pontos, independentemente das outras respostas - um único bloqueador anula a alavanca.

Policy Granularity

Você consegue produzir, em menos de cinco minutos, a lista exata de ferramentas e operações que cada agente de produção tem permissão para invocar?
Sua política distingue regras para copilotos (comprometidos por humanos) de regras para agentes (comprometidos por agentes)?
Existe um processo documentado para adicionar, modificar ou remover permissões de agente, com aprovadores nomeados e trilha de auditoria?

Toolchain Interoperability

Suas definições de ferramentas são versionadas, com agentes fixados em versões testadas?
Seus logs de auditoria podem distinguir qual agente (e não qual conta de serviço) executou uma determinada ação?
Você conseguiu trocar o modelo subjacente de um agente de produção nos últimos 12 meses sem reescrever a cola da ferramenta?

Human-Agent Handoff

Quando um agente é escalado, ele é encaminhado para uma pessoa de plantão nomeada com contexto completo ou para um canal compartilhado?
Você ensaiou, nos últimos 90 dias, o que acontece quando o aprovador principal não pode ser contatado?
Você acompanha o tempo até a decisão humana como um SLA de primeira classe, com metas e alertas?

Cost Escalation Triggers

Há um orçamento de token por execução aplicado no código para cada agente de produção?
Você pode responder "quanto gastamos com agentes na última hora?" em um painel em tempo real?
O seu kill-switch foi utilizado em um exercício (não apenas em um incidente) no último trimestre?

Leitura de sua pontuação

80-100 em todas as quatro alavancas: Pronto para produção de agentes autônomos em domínios limitados. Expanda com cautela; monitore a alavanca mais fraca à medida que você aumenta a escala.
60-79 em todas as quatro alavancas: Somente autonomia supervisionada. Execute agentes em produção com um humano no ciclo de aprovação para cada ação no domínio weakest-lever.
Abaixo de 60 em qualquer alavanca individual: Não execute agentes autônomos no domínio que o lever governa. Copilotos são bons; autonomia, não.
Abaixo de 40 em qualquer alavanca individual: Interrompa a implementação autêntica nesse domínio e faça a correção. A correção geralmente é medida em trimestres, não em semanas.

BENCHMARKS DO SEGUNDO TRIMESTRE DE 2026

Onde seus colegas realmente pontuam

Pontuações agregadas de organizações que avaliamos, revisamos ou comparamos com divulgações públicas. A diferença entre "empresa com programa de IA maduro" e "laboratórios de IA de fronteira" não é a visão ou o talento - é a infraestrutura operacional medida aqui.

Segmento	Política	Cadeia de ferramentas	Transferência	Custo
Laboratórios de IA de fronteira/tecnologia de nível 1 (2026)	85	80	75	85
Empresa com programa de IA maduro	60	55	45	50
Empresa com implementações de copiloto	40	35	25	30
Empresa com política da era do ChatGPT apenas	15	10	10	10

A transferência é consistentemente a alavanca mais fraca em todos os segmentos, exceto nos laboratórios de fronteira. É também a alavanca que a maioria das organizações superestima - a lacuna entre "temos um caminho de escalonamento" e "o caminho de escalonamento foi exercido" é onde ocorreu a maioria dos incidentes com agentes em 2025-2026.

ESTRUTURAS ADJACENTES

Onde isso se situa em relação à maturidade da governança e à auditoria de prontidão

O Agentic Readiness Index complementa, e não substitui, as estruturas mais amplas. Use-o para responder a uma pergunta específica: esta organização pode executar agentes na produção, agora mesmo, sem criar incidentes que o modelo de governança não consiga detectar?

	Índice de Prontidão Agêntica	Modelo de maturidade da governança	auditoria de prontidão de IA de 30 dias
O que ele mede	Capacidade operacional para executar agentes autônomos na produção	Estrutura de governança institucional para IA em geral	Prontidão de seis dimensões em toda a organização para a adoção de IA
Público principal	CTO, diretor de plataforma, CAIO	CAIO, CRO, Conselho Geral	CEO, diretoria, equipe executiva
Saída	pontuação de 0 a 100 por alavanca + medidas específicas de correção	Posicionamento de nível 1-5 + manual de transição	Relatório pronto para a diretoria + roteiro de 6 a 12 meses
Custo	Autoavaliação gratuita	Autoavaliação gratuita	uS$ 25.000 a US$ 50.000 de engajamento pago
Tempo para concluir	20 minutos	15 minutos	30 dias
Profundidade	Profundo em quatro alavancas operacionais	Amplo controle de governança	Profundo em seis dimensões organizacionais

Dois artigos relacionados para ler ao lado:ROI da IA autêntica abrange o caso econômico quando os agentes estão em operação;Segurança de IA agêntica abrange a dimensão adversarial. Para os padrões de arquitetura em si, a referência autorizada continua sendoArquitetura de IA agêntica: Patterns, Diagrams, and the Orchestration Decision (Padrões, Diagramas e Decisão de Orquestração).

ORDEM DE REMEDIAÇÃO

Conserte a alavanca mais fraca primeiro, sempre

Os programas de correção com várias alavancas têm desempenho consistentemente inferior aos programas de correção com uma única alavanca, seguidos pela alavanca mais fraca seguinte. O motivo é a natureza frágil do trabalho: a política, o conjunto de ferramentas, a transferência e o custo funcionam como um sistema, e tentar fazer três de uma só vez produz três projetos incompletos. A sequência é a seguinte.

Identificar a alavanca mais fraca. Se duas alavancas tiverem uma diferença de 10 pontos entre si, escolha a que seus agentes usam com mais frequência em sua carga de trabalho atual.
Defina um teto, não um piso. Limite a autonomia do agente no domínio que a alavanca governa até que a alavanca ultrapasse 70. Isso não é negociável e deve estar visível para todas as equipes que enviam agentes.
Execute um sprint de remediação de 90 dias. Granularidade da política: reescreva a seção do agente da política de IA com ferramentas e operações nomeadas. Cadeia de ferramentas: versão de cada definição de ferramenta, registros de auditoria de identidade de agente de instrumento, adição de ciclos de depreciação de esquema. Handoff: nomear humanos em serviço, definir SLAs, executar um exercício mensal. Custo: implemente orçamentos por execução e por hora no código, crie o painel de controle ao vivo.
Repontue e planeje novamente. Execute novamente o diagnóstico no 90º dia. A alavanca deve passar de 70. Se isso não acontecer, o plano estava errado; prorrogue por 60 dias antes de passar para a próxima alavanca.
Passe para a próxima alavanca mais fraca. Repetir. A correção completa de quatro alavancas normalmente leva de 9 a 15 meses em uma empresa de médio porte, e mais tempo em setores regulamentados.

Frequently Asked Questions

O que é prontidão agêntica?

A prontidão para a agenticidade é a capacidade de uma organização de implantar e operar agentes autônomos de IA que realizam ações em várias etapas por conta própria, e não apenas chatbots com RAGs. Enquanto a prontidão tradicional de IA pergunta se você pode adotar a IA, a prontidão agêntica faz uma pergunta mais difícil: você pode operar sistemas que decidem, agem, gastam tokens, chamam ferramentas e, ocasionalmente, falham de maneiras inesperadas sem a revisão humana de cada etapa? Quatro alavancas operacionais determinam a resposta: granularidade da política, interoperabilidade da cadeia de ferramentas, protocolos de transferência entre humanos e agentes e acionadores de escalonamento de custos.

Qual é a diferença em relação ao Modelo de Maturidade de Governança de IA?

O modelo de maturidade de governança mede a estrutura institucional em torno da IA - políticas, registros de risco, mapeamento de conformidade, relatórios da diretoria. O índice de prontidão agêntica mede a infraestrutura operacional necessária para uma classe específica de sistema de IA: um que atue de forma autônoma. Uma organização pode atingir o Nível 3 de maturidade de governança e ainda assim não estar pronta para a agenticidade porque seus registros de chamadas de ferramentas são amostrados, seus gatilhos de custo são acionados somente após o fato e ninguém testou o que acontece quando um agente entra em loop.

Qual é a diferença entre isso e a Auditoria de Prontidão de IA de 30 dias?

A AI Readiness Audit é um compromisso pago de 30 dias que avalia seis dimensões organizacionais (entrega, força de trabalho, arquitetura, dados, governança, liderança) em relação aos benchmarks do Gartner. O Agentic Readiness Index é um diagnóstico gratuito de autoavaliação focado especificamente nas quatro alavancas operacionais necessárias para executar agentes na produção. A maioria das organizações que concluem a auditoria obtém uma boa pontuação na prontidão geral de IA e uma pontuação ruim na prontidão agêntica - os recursos são adjacentes, não se sobrepõem. Normalmente, as equipes começam com esse índice e encomendam a auditoria quando precisam de um roteiro para toda a empresa.

Por que apenas quatro alavancas em vez de uma estrutura maior?

Cada falha agêntica que observamos em 2024-2026 se enquadrava em uma das quatro categorias: uma política que era muito grosseira (o agente fez algo tecnicamente permitido que ninguém teria aprovado), uma cadeia de ferramentas que se rompeu sob carga (dois agentes brigando pela mesma ferramenta ou uma ferramenta mudando de forma no meio da chamada), uma transferência que falhou silenciosamente (o agente escalou para um humano que não estava observando) ou um gatilho de custo que disparou tarde demais (a execução terminou antes que o alerta de orçamento chegasse). Todo o resto - qualidade dos dados, seleção de modelos, design de prompt - é importante, mas não diferencia a prontidão do agente da prontidão da IA em geral. Quatro alavancas são suficientes para lembrar e específicas o suficiente para agir.

Que pontuação indica que estamos prontos para escalonar os agentes na produção?

Uma pontuação de 80+ em todas as quatro alavancas, sem nenhuma alavanca individual abaixo de 70. Nesse patamar, a organização tem uma política suficientemente granular para evitar ações excessivas, uma infraestrutura de ferramentas que sobrevive à simultaneidade de agentes, protocolos de transferência que detectam falhas antes que elas aumentem e gatilhos de custo que são acionados antes que os orçamentos sejam estourados. Abaixo de 60 em qualquer alavanca, as implementações agênticas devem permanecer no modo piloto supervisionado. Abaixo de 40 em qualquer alavanca, não execute agentes autônomos na produção - execute copilotos com cada etapa aprovada por humanos até que a alavanca seja corrigida.

Já temos copilotos em produção. Precisamos disso?

Copilotos e agentes são categorias de risco diferentes. Um copiloto sugere; um humano se compromete. Um agente se compromete; um humano audita. O salto do copiloto em produção para o agente em produção é onde ocorreu a maioria dos incidentes de 2025-2026: a mesma infraestrutura que era segura para sugestões tornou-se insegura quando o mesmo sistema começou a agir. O índice é mais útil justamente nessa transição - quando a liderança acredita que a organização está pronta para o agente porque os copilotos funcionam, mas a infraestrutura operacional não se atualizou.

Fez uma autoavaliação e não tem certeza do que a pontuação significa?

A Auditoria de Prontidão de IA de 30 dias utiliza as mesmas quatro alavancas e sete outras dimensões organizacionais, valida-as com entrevistas com as partes interessadas e revisão da arquitetura e produz um roteiro pronto para a diretoria. A maioria das equipes executa o índice primeiro; a auditoria entra em ação quando a pontuação revela uma lacuna grande demais para ser fechada internamente.

Veja a auditoria de 30 dias Ou um compromisso fracionário

As 4 alavancas que os CIOs devem controlar antes que os agentes cheguem à produção

Os incidentes de agente não se parecem em nada com os incidentes de IA

Quatro alavancas, marcadas de forma independente

Granularidade da política

Strong signals (scores 80+)

Weak signals (scores below 40)

Interoperabilidade da cadeia de ferramentas

Strong signals (scores 80+)

Weak signals (scores below 40)

Transferência humano-agente

Strong signals (scores 80+)

Weak signals (scores below 40)

Acionadores de escalonamento de custos

Strong signals (scores 80+)

Weak signals (scores below 40)

12 perguntas, uma pontuação por alavanca

Policy Granularity

Toolchain Interoperability

Human-Agent Handoff

Cost Escalation Triggers

Leitura de sua pontuação

Onde seus colegas realmente pontuam

Onde isso se situa em relação à maturidade da governança e à auditoria de prontidão

Conserte a alavanca mais fraca primeiro, sempre

Frequently Asked Questions

Fez uma autoavaliação e não tem certeza do que a pontuação significa?