Anthropic lança Claude Opus 4.8: mais honesto, mais rápido e pelo mesmo preço

Claude Opus 4.8AnthropicIAClaude CodeLLMMythosAutomação

🧠 Modelo melhor não é só modelo mais inteligente. É modelo que admite quando não sabe.

A Anthropic lançou nesta quinta-feira (28/05) o Claude Opus 4.8, a nova versão do modelo principal. Curiosamente, ele chega apenas 41 dias depois do Opus 4.7, um ritmo de atualização bem mais acelerado do que a empresa costuma adotar. Mas a mudança mais interessante não está na velocidade nem nos benchmarks. Está na honestidade do modelo.

A grande aposta: um modelo mais honesto

Um problema comum dos LLMs é a tendência de tirar conclusões precipitadas, afirmando com confiança que fizeram progresso mesmo quando as evidências são fracas. Segundo a Anthropic, os testadores iniciais relatam que o Opus 4.8 tende a sinalizar incertezas sobre o próprio trabalho e é menos propenso a fazer afirmações sem fundamento.

Na prática, isso tem impacto direto em quem programa: o Opus 4.8 é cerca de quatro vezes menos propenso que seu antecessor a deixar passar falhas no código que ele mesmo escreveu. Para quem usa o modelo em fluxos autônomos de engenharia, é a diferença entre confiar e ter que revisar tudo manualmente.

A empresa também afirma que, na avaliação de alinhamento, o Opus 4.8 atinge novos picos em traços pró-sociais como apoiar a autonomia do usuário e agir no melhor interesse dele. Tudo isso com taxas de comportamento desalinhado substancialmente menores que o 4.7.

Ganhos de desempenho

O Opus 4.8 evoluiu em coding, raciocínio e tarefas de conhecimento prático. Alguns números divulgados:

Avaliação 4.7 4.8
Coding agêntico 64,3% 69,2%
Raciocínio multidisciplinar com ferramentas 54,7% 57,9%
Uso de navegador (Online-Mind2Web) 84%

A Anthropic afirma que o modelo supera o GPT-5.5 e o Gemini 3.1 Pro em vários benchmarks de coding, análise financeira e uso de computador.

Os recursos que vêm junto

O lançamento não se resume ao modelo. Três novidades chegam no mesmo dia:

1. Controle de esforço (effort control). Agora dá para escolher quanto "esforço" o Claude coloca numa resposta. Em configurações mais altas, o Claude pensa com mais frequência e profundidade para dar respostas melhores. Em configurações mais baixas, responde mais rápido e consome os limites de uso mais devagar. Disponível em todos os planos no claude.ai e no Cowork.

2. Dynamic Workflows (preview de pesquisa). No Claude Code, o modelo agora planeja o trabalho e roda centenas de subagentes em paralelo numa única sessão, verificando os próprios resultados antes de reportar. A Anthropic dá um exemplo ambicioso: migrações em codebases com centenas de milhares de linhas, do início até o merge, usando a suíte de testes existente como referência.

3. Modo rápido mais barato. O fast mode do Opus 4.8, onde o modelo trabalha 2,5x mais rápido, agora custa três vezes menos do que custava em modelos anteriores.

Preço e disponibilidade

A boa notícia para o bolso: o preço para uso regular permanece inalterado em relação ao Opus 4.7. US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. O modelo já está disponível em todos os lugares. Desenvolvedores acessam via API usando claude-opus-4-8.

E o que vem por aí?

A Anthropic foi direta: o Opus 4.8 é uma melhoria modesta, porém tangível. Mas o teaser do futuro é o que chama atenção. A empresa planeja lançar uma nova classe de modelos com inteligência ainda maior que a do Opus: a classe Mythos.

Por enquanto, um pequeno número de organizações usa o Claude Mythos Preview para trabalho de cibersegurança, já que modelos desse nível exigem salvaguardas mais fortes antes de um lançamento geral. A promessa: levar os modelos Mythos a todos os clientes "nas próximas semanas".

O que isso muda pra sua operação

Pra quem está implantando IA em vendas, atendimento ou processos críticos, três coisas importam aqui:

  1. Honestidade do modelo vira diferencial competitivo. Agente que admite incerteza é agente que não te enfia em uma decisão errada com confiança. Em fluxos autônomos, isso reduz risco operacional real.
  2. Custo de fast mode caiu 3x. Tarefas que antes eram caras demais pra usar Opus passam a ser viáveis. Hora de revisar o roadmap de automação.
  3. Janela curta antes da próxima classe. Se Mythos chega nas próximas semanas, faz sentido arquitetar com flexibilidade de modelo, sem amarrar prompt ou produto a uma única versão.

O lugar da Revaya nisso

Na Revaya, não vendemos modelo. Vendemos operação rodando IA com previsibilidade. Implantamos com a régua de sempre: prova de valor em semanas, automação que admite quando deve escalar pra humano, métrica clara de antes e depois.

Modelo mais honesto facilita esse trabalho. Mas a parte difícil, definir o que automatizar, onde parar e como medir, continua sendo decisão de negócio, não de IA.

Se você quer entender onde IA realmente cabe na sua operação (e onde ainda não cabe), vamos conversar.