O que um engenheiro faz quando a IA escreve o código

Quando 80% do que sua empresa produz passa a ser escrito por uma máquina, a pergunta sobre o que os humanos fazem deixa de ser filosófica.

jun 06, 2026

Em junho de 2026, a Anthropic publicou que mais de 80% do código mergeado na base de produção foi escrito pelo Claude. Antes do lançamento do Claude Code em fevereiro de 2025, esse número estava nos dígitos simples. Em pouco mais de um ano, a empresa inverteu completamente a proporção entre código humano e código de IA no que talvez seja o repositório mais sensível do mundo: o sistema que treina e opera os próprios modelos de IA da Anthropic.

Gráfico de barras mostrando a contribuição de código por pessoa, por trimestre, começando no segundo trimestre de 2021 e terminando no segundo trimestre de 2026. O gráfico indica as datas de lançamento de oito modelos diferentes: Claude 1, Claude 2, Claude 3, Claude 4, Claude Code, Claude Sonnet 4.5, Claude Opus 4.5, Claude Mythos Preview (acesso interno) e Claude Mythos Preview.

O número bruto chama atenção, mas o que ele implica é mais interessante do que parece na primeira leitura. A Anthropic não demitiu engenheiros para chegar a 80%. Pelo contrário, a produtividade por pessoa multiplicou por 8 no segundo trimestre de 2026 em relação a 2024. O que mudou não foi o tamanho do time, foi o que cada pessoa faz durante o dia.

Numa sprint de abril de 2026, o Claude identificou e corrigiu mais de 800 bugs que reduziam uma classe de erros de API por um fator de mil, numa operação que o engenheiro responsável estimou que levaria quatro anos para um humano completar, porque corrigir bugs de outras pessoas exige absorver contexto de código que você não escreveu, e humanos têm limite real de quanto contexto estranho conseguem manter na cabeça de uma vez. O Claude não tem esse limite da mesma forma, então o engenheiro não ficou quatro anos fazendo aquilo; ficou supervisionando o Claude fazer aquilo, que é uma atividade diferente com uma cadência diferente e um conjunto de habilidades diferente.

Aqui começa a questão que a liderança de produto e de engenharia vai ter que enfrentar de forma bem mais concreta nos próximos meses.

Se escrever código deixou de ser o trabalho, o que é o trabalho?

A Anthropic descreve o papel humano remanescente em termos de “research taste”: escolher quais problemas atacar, decidir quando um resultado é confiável, saber quando uma abordagem chegou num beco sem saída. São habilidades reais, difíceis de treinar e mais difíceis ainda de contratar, mas até recentemente viviam embutidas dentro do trabalho de escrever código, não separadas dele. Um engenheiro sênior desenvolvia julgamento sobre qual problema valia a pena resolver em parte porque passava horas dentro do código, vendo onde as coisas quebravam, entendendo as trocas que cada decisão implicava. Quando o fazer sai da equação, o caminho para desenvolver esse julgamento fica menos óbvio.

Gráfico de linhas mostrando a taxa de sucesso das sessões do Claude Code em quatro tipos diferentes de tarefas — tarefas triviais, tarefas rotineiras, tarefas substanciais e problemas em aberto — com seis modelos diferentes: Claude Sonnet 4.5, Claude Opus 4.5, Claude Opus 4.6, Mythos Preview (acesso interno), Mythos Preview e Claude Opus 4.7.

Um funcionário da Anthropic descreveu o problema de um ângulo que não é fácil de ignorar:

“Nos dias em que tudo funciona bem, não consigo deixar de pensar que nada do que faço importa, que tudo está automatizado, é melhor e mais rápido do que eu jamais serei. Mas então chegam os dias em que tudo quebra e eu não entendo por quê, e percebo que não faço a menor ideia do que tenho feito.”

Isso não é crise existencial de fim de semana, é a descrição de uma pessoa perdendo a legibilidade do próprio trabalho, que é um problema de gestão antes de ser um problema filosófico.

A questão que afeta diretamente quem contrata e quem desenvolve times é esta: o código que o Claude escreve está em paridade com o código humano em qualidade e deve ficar melhor que o humano ainda este ano segundo a própria estimativa da Anthropic, o que coloca “julgamento, direcionamento, revisão” como a única justificativa que sobra para o salário de um engenheiro sênior. O problema é que julgamento e direcionamento são skills que as empresas historicamente desenvolviam em pessoas ao longo de anos de prática, e a prática era escrever código. Se a rota para desenvolver julgamento envolvia fazer as tarefas operacionais primeiro, e as tarefas operacionais foram automatizadas, a empresa ainda não tem um plano para formar a próxima geração de quem vai ter esse julgamento.

O próprio paper da Anthropic aponta para isso quando descreve como o Claude está melhorando na capacidade de propor o próximo passo em sessões de pesquisa abertas: de 51% para 64% dos casos em seis meses, comparado com a escolha humana. Se essa curva continuar, o julgamento que hoje justifica o papel humano vai entrar no mesmo ciclo de substituição que o código entrou, e a Anthropic publicou esses dados em junho sem especificar o que uma empresa faz com o pipeline de carreira quando a esteira que forma lideranças técnicas começa a ser automatizada também.

Gráfico de barras com o título "O modelo consegue escolher um próximo passo melhor do que o humano?" O gráfico de barras mostra o desempenho de nove modelos diferentes: Claude 3 Haiku, Claude Sonnet 4, Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5, Claude Sonnet 4.6, Claude Opus 4.6, Claude Opus 4.7 e Claude Mythos Preview.

Qualquer empresa que adotar Claude Code ou equivalente em escala vai chegar nesse mesmo ponto. A Uber queimou o budget anual de IA em quatro meses porque os agentes rodavam tarefas em background sem supervisão constante. A Amazon precisou criar aprovação obrigatória de sênior para mudanças assistidas por IA depois de uma série de incidentes de alta gravidade, criando um gargalo novo num ciclo que havia sido acelerado exatamente com essas ferramentas.

Os dois casos descrevem empresas que aceleraram o output sem ter clareza sobre o que o humano faz nesse processo além de assinar embaixo, e a Anthropic, que tem mais clareza do que qualquer outra sobre o que está acontecendo, publicou um paper de oito mil palavras sobre o assunto sem resolver essa pergunta para si mesma.

A Stack abriu o Builder Pass essa semana: 7 dias gratuitos com acesso completo ao Pensamento Builder, o curso da PM3 com a Alura pra profissional de Produto e Ops que quer parar de depender de engenharia pra automatizar o próprio trabalho. São 5 módulos, 20 aulas, projeto prático com API real e certificado incluso. Link aqui: https://productgurus.short.gy/uV8PC0

Lucas Santos

Jun 6

Na minha humilde opinião não se trata problema de gestão o problema que a pessoa da Anthropic descreveu. Esse é um problema que boa parte das empresas ignoram ou só não ligam mesmo. Gerar código ou texto nessa velocidade é inviável para que uma pessoa tenho noção de fim a fim. Outro ponto, foram resolvidos 800 bugs, quantos desses bugs podemos atribuir a esse ritmo frenético de criação de código?

Na nossa área de programação existe um ditado que não falha: quanto mais linhas de código você adiciona no seu sistema, mas bugs você terá no futuro. Nem sempre a maneira como humanos resolviam bugs era adicionando mais código, vejo que esse é um padrão bem problemático das AIs.

Enfim... só acho que existiam algumas discussões que realmente são ignoradas, pois elas não vendem o hype. 80% de código escrito por AI não quer dizer nada, "autocompletes" já existiam há um tempo, gerador de "boilerplates" também. Isso não fazia com que a gente ficava nos vangloriando por aí.

Responder

Partilhar

Product Guru's

Discussão sobre este post

Pronto para mais?