O item de backlog que ninguém queria e que valia 100 milhões de dólares
Um dev do Bing estava procurando algo pra fazer numa tarde de 2012. O backlog tinha um item que ninguém queria tocar: mudar o jeito que os títulos dos anúncios apareciam na tela. A proposta era juntar a primeira linha da descrição com o título do anúncio. Um hífen no meio, pronto.
O gerente de produto tinha olhado pra isso meses antes e jogado pro fim da fila. Fazia sentido. Era mexer em formatação. Coisa de CSS. Não tinha nada de algoritmo novo, nada de machine learning, nada que parecesse com inovação de verdade. Então ficou lá, esperando que alguém tivesse tempo sobrando.
E alguém teve.
O dev implementou em dois dias. Botou no ar pra testar com uma parcela dos usuários. Algumas horas depois, o monitoramento disparou um alerta vermelho com a mensagem receita muito alta. A primeira reação de todo mundo foi que tinha bug. Um aumento de 12% na receita não acontece porque você mudou onde fica um texto. Isso não existe em produtos maduros. Tem que estar errado.
Só que não estava.
Depois de checar linha por linha do código, de confirmar que os usuários não estavam sendo enganados, de verificar que a satisfação não tinha caído, o número se manteve. 12% a mais de receita. Só nos Estados Unidos, isso dava mais de 100 milhões de dólares por ano. De uma mudança que custou alguns dias de trabalho e que tinha sido considerada irrelevante por meses.
A Microsoft não é uma startup querendo encontrar product-market fit. Em 2012, o Bing já processava bilhões de buscas. Quando você tem essa escala, cada pixel importa, mas de um jeito que ninguém consegue prever de antemão sem testar na realidade, porque a interação entre design e comportamento humano funciona por caminhos que a intuição não mapeia direito. Um gerente de produto olhando pra proposta de título mais longo não enxerga 100 milhões. Ele vê uma mudança de layout que pode confundir o usuário, que quebra o padrão visual, que vai gerar reclamação do time de design.
E é aí que mora o problema.
A intuição humana é péssima pra prever o que vai funcionar na internet. Ron Kohavi, o cara que liderou por anos experimentação na Microsoft, tem um dado que ele repete sempre:
Apenas um terço das ideias que a empresa testa mostram melhoria. Um terço é neutro. Um terço piora as coisas. Mesmo os especialistas, gente que vive e respira produto digital há anos, erram dois terços das vezes quando tentam adivinhar o que vai dar certo.
O experimento do título funcionou por uma razão que ninguém tinha mapeado direito. Quando você coloca mais informação no link azul em negrito, aquela parte que o usuário clica, você está dando o que os pesquisadores chamam de cheiro de informação mais forte. O cérebro escaneia a página procurando sinais de que aquilo ali vale o clique. Um título curto tipo Compre Sapatos diz pouco. Um título longo tipo Compre Sapatos com Entrega Grátis e 50% de Desconto fecha a venda ali mesmo, na linha, sem precisar que o usuário faça o trabalho mental de ler as duas linhas de descrição que ficam embaixo em letra menor.
Parece óbvio quando você lê assim. Mas não era óbvio o suficiente pra sair do backlog.
Você já deve ter ouvido uma expressão chamada HiPPO. Highest Paid Person’s Opinion. A opinião da pessoa mais bem paga. Na ausência de dados, quem decide é quem ganha mais. E quem ganha mais geralmente chegou lá porque acertou no passado, o que cria a ilusão de que vai continuar acertando no futuro com a mesma taxa de acerto. Só que o comportamento de bilhões de usuários é um sistema complexo demais pra intuição, não importa quantos anos você tenha de experiência.
O caso do Bing virou case porque expõe a diferença entre o que parece valioso e o que é valioso de verdade quando você mede. Projetos grandes, com apresentações bonitas, com roadmaps de seis meses, consomem orçamento e atenção. Ideias pequenas, que cabem num post-it, ficam esquecidas no fundo da lista de prioridades. Mas a realidade é que em produtos de escala massiva, as vitórias gigantes costumam estar escondidas em detalhes que ninguém acha que merecem atenção porque parecem banais demais.
O Google fez algo parecido e igualmente ridículo aos olhos de quem gosta de design com propósito. Eles testaram 41 tons de azul pra ver qual gerava mais cliques. Designers odiaram. Acharam que era matar a criatividade, transformar arte em planilha, reduzir o trabalho deles a ajustar valores hexadecimais sem alma. Resultado: 200 milhões de dólares a mais por ano. Por causa de um azul ligeiramente diferente que o olho humano mal percebe.
Esses números são absurdos quando você pensa no esforço. Mudar um tom de cor? Juntar duas linhas de texto? São coisas que um estagiário faz em meia hora se você der as instruções certas. Mas quando você multiplica uma melhoria de meio ponto percentual na taxa de cliques por um bilhão de impressões de anúncio, o dinheiro aparece do nada, como se você tivesse descoberto uma mina que estava debaixo do escritório o tempo todo.
🔗 Construa uma carreira à prova do futuro, liderando produtos mais inteligentes e eficientes com IA. Acesse: https://go.pm3.com.br/ProductGurus-AI-Specialist
Cupom de 10%: PRODUCTGURUS
O que a Microsoft fez depois do experimento foi mais interessante que o experimento em si. Eles criaram uma cultura de testar tudo. Literalmente tudo. Qualquer pessoa na empresa pode colocar uma ideia pra rodar um teste A/B, desde que consiga implementar ou convencer alguém a implementar. Não precisa convencer gerente de que vai dar certo, não precisa fazer apresentação de impacto, não precisa provar nada antes. Se dá pra testar barato e rápido, testa e deixa os dados falarem. A plataforma de experimentação deles roda mais de 10 mil testes por ano agora.
A lógica é financeira e bastante fria. Se 99% das suas ideias falharem completamente, mas 1% te der um aumento de 12% na receita como aconteceu com o título, você pagou o custo de todos os testes fracassados mil vezes e ainda sobrou dinheiro. É venture capital aplicado a features de produto. Você espalha apostas sabendo que a maioria vai dar errado, mas uma vai pagar a conta inteira e financiar os próximos mil testes.
Tem um lado sombrio nisso que vale mencionar porque não é só festa. Quando você otimiza tudo pra clique, você pode estar otimizando pra coisa errada. Um título mais longo que engana o usuário a clicar em algo que ele não quer também aumenta a receita no curtíssimo prazo, nos primeiros dias do teste. No longo prazo, você destrói confiança e as pessoas param de clicar em anúncio nenhum porque aprenderam que é cilada. Por isso a Microsoft usa o que eles chamam de OEC, que é uma sigla chata pra dizer que eles não medem só receita. Eles medem receita sem destruir satisfação, sem aumentar taxa de rejeição, sem fazer o usuário voltar correndo pro Google depois de clicar.
O experimento do Bing passou nesse teste com folga. A receita subiu 12% e a satisfação ficou estável, às vezes até subiu um pouco em algumas métricas. Isso significa que os usuários estavam clicando mais porque os anúncios eram genuinamente mais úteis pra eles, não porque estavam sendo enganados por um truque de interface. É o tipo de vitória que você pode escalar sem matar o produto aos poucos, sem criar aquela sensação de que o site está virando spam.
Quantas outras ideias de 100 milhões de dólares estão engavetadas nos backlogs de empresas ao redor do mundo neste exato momento? Quantas ideias simples estão sendo ignoradas porque não parecem suficientemente complexas ou estratégicas pra merecer a atenção de quem decide o que entra no roadmap? Quantas vezes a gente descarta o óbvio em nome do sofisticado porque sofisticado soa melhor em reunião?
A resposta provavelmente é muitas, talvez centenas só nas empresas grandes de tecnologia. Porque empresas são feitas de pessoas, e pessoas confundem complexidade com valor de um jeito quase automático. A gente assume que se foi fácil de fazer, não pode valer muito, como se o universo tivesse uma regra que diz que esforço e resultado são proporcionais. Que se não exigiu meses de planejamento e arquitetura, não merece destaque no all-hands da empresa. Que se cabe numa linha de código ou num ajuste de CSS, não é inovação de verdade, é só manutenção.
O Bing provou que isso é mentira em 2012 e ninguém aprendeu direito. Às vezes o ouro está na superfície, bem na frente da sua cara, e você passa por cima dele todo dia a caminho de cavar um buraco mais fundo em outro lugar ou querendo parecer descolado com IA.
🔗 Pingback é a plataforma simples e rápida para automatizar marketing e vendas sem burocracia. Crie formulários, dispare e-mails e WhatsApp, segmente leads e automatize fluxos enquanto seu time acompanha tudo no CRM. Acesse: https://pbck.link/paulo-chiodi






Cara, esse post é o tapa na cara que muita empresa ainda finge que não precisa tomar.
O mais engraçado é que a gente vive repetindo “backlog é prioridade”, mas a real é que ninguém tem a menor ideia do impacto real das coisas até testar de verdade.
E o mais valioso quase sempre está escondido naquele item que todo mundo ignora porque parece simples demais.
Aqui no dia a dia eu tô cansado de ver isso acontecer na prática, componente que levaria horas pra montar sai em minutos com IA, experimentos que antes eram inviáveis agora rodam em paralelo, e decisões que pareciam “pequenas” estão movendo métricas grandes.
A lição é cruel, mas libertadora não é o tamanho da feature é o tamanho do impacto que ela pode ter quando você para de decidir só pela intuição.
E quanto mais a gente junta design + dev + dados + IA no mesmo fluxo, mais evidente fica que tem muito ouro enterrado no backlog…
E que às vezes o maior risco é continuar achando que já sabemos o que vai funcionar!