Métricas que importam

Em 1975, Charles Goodhart, economista britânico, observou um padrão sobre métricas econômicas que ficou conhecido como Lei de Goodhart. A formulação mais elegante veio depois, da antropóloga Marilyn Strathern em 1997:

“Quando uma medida se torna uma meta, ela deixa de ser uma boa medida.”

A frase parece paradoxal, mas é precisa. No momento em que uma métrica vira alvo, as pessoas começam a otimizar especificamente para ela – e essa otimização inevitavelmente distorce o que a métrica originalmente representava.

Você quer engajamento? Coloca como meta. As pessoas começam a inventar formas de inflar engagement sem entregar valor real. A métrica continua subindo. O valor para o cliente, não.

A primeira pergunta: o que vale medir?

Há uma quantidade infinita de coisas que dá para medir num produto digital. Page views. Cliques. Sessões. Tempo de tela. Conversões. Taxa de retorno. Profundidade de scroll. Movimentos de mouse.

Dados são gratuitos. Atenção é cara.

O primeiro filtro: essa métrica, se subir, significa que o produto está melhor? Se a resposta for “depende” ou “não necessariamente”, a métrica é ruído. Page views podem subir porque o cliente está perdido na navegação. Sessões podem aumentar porque o produto está mal projetado e o usuário precisa abrir várias vezes para fazer o que deveria fazer numa.

Métricas de vaidade

Capa do livro Lean Startup, de Eric Ries — Eric Ries

Eric Ries, em Lean Startup, popularizou um termo essencial: vanity metrics – métricas de vaidade.

São números que sobem com o tempo, que ficam bem em apresentação, que dão sensação de progresso. Total acumulado de downloads. Total de usuários cadastrados. Total de impressões. Total de qualquer coisa.

O problema é que totais acumulados sempre sobem. Mesmo um produto em declínio terá total de downloads crescendo (mais devagar, mas crescendo). Mesmo uma empresa em crise terá total de funcionários históricos subindo.

Métricas de vaidade não te ajudam a decidir. Servem só para sentir que o trabalho está dando certo – independentemente de estar.

Em contraste, actionable metrics – métricas acionáveis – te dizem se uma decisão específica funcionou. Conversão de novo onboarding. Retenção D7. Taxa de ativação. Essas você consegue mover. E ao movê-las, sabe se uma mudança funcionou.

A North Star Metric

Times maduros escolhem uma métrica única que representa o valor que entregam. A North Star Metric.

Spotify: minutos ouvidos por mês.

Airbnb: noites reservadas.

Slack: mensagens enviadas em times pagos.

Amazon: número de compras por cliente.

Cada uma dessas tem uma propriedade rara: quando sobe, é quase impossível que não tenha valor real sendo entregue. Não dá para hackear minutos ouvidos no Spotify – se alguém escuta mais, ou o produto ficou melhor, ou o catálogo melhorou, ou ambos. Não dá para hackear noites reservadas no Airbnb sem que alguém tenha de fato decidido se hospedar.

A North Star é o filtro contra Goodhart. Métricas muito específicas (taxa de clique em botão azul) são fáceis de gamear. Métricas que capturam o valor central do produto são quase impossíveis de inflar sem entregar valor.

Camadas de métricas

Uma única métrica não chega para gerenciar produto. Mas hierarquias bagunçadas de métricas geram paralisia. A estrutura que funciona é em três camadas:

North Star (uma métrica). Captura o valor central. Move devagar. Não dá para hackear.
Métricas de produto (3 a 5). Os alavancas que, quando movidas, geralmente movem a North Star. Engajamento, retenção, ativação, frequência de uso, NPS.
Métricas operacionais (várias, por feature). As medidas táticas de cada experimento, cada feature, cada fluxo. Conversões específicas, tempos de carregamento, taxas de erro.

A regra: as decisões diárias movem as métricas operacionais. As decisões semanais olham para as métricas de produto. As decisões trimestrais e anuais olham para a North Star. Priorização eficaz exige saber em que camada você está olhando.

Quando essa hierarquia se inverte – quando todo mundo está olhando para conversões de tela específica todos os dias e ninguém está olhando para a North Star uma vez por mês – a empresa otimiza local sem entender se o global está indo bem.

Goodhart na prática

A história mais famosa do efeito Goodhart vem do Lyft em seus primeiros anos. O time otimizava tempo médio de espera do passageiro. A métrica caía mês a mês. Operacionalmente, parecia melhora.

Só que percepção de espera não caía. Os passageiros continuavam reclamando. O que mudou no diagnóstico foi entender que a métrica certa não era “tempo de espera”. Era “tempo de espera percebido”, que é influenciado por muitas coisas além do tempo real – clareza da estimativa, visualização do carro chegando, notificações progressivas.

A métrica original era mensurável. Mas não era a certa. E o time gastou meses otimizando o número errado.

Outro exemplo clássico: call centers que otimizam “tempo médio de atendimento”. Atendentes começam a desligar mais rápido. A métrica melhora. A satisfação do cliente cai. A retenção também. O número estava certo. A métrica era a errada.

Os números não contam toda a história

Dados quantitativos te dizem o quê aconteceu. Raramente te dizem por quê.

Uma taxa de conversão que caiu 12% pode ser um botão mal posicionado, uma mensagem de erro confusa, um campo novo do formulário que ninguém entende, ou uma mudança no perfil de tráfego depois de uma campanha. Os números mostram que algo mudou. Não mostram o que precisa ser feito.

Por isso uso ferramentas de observabilidade que combinam quantitativo e qualitativo. No meu caso, PostHog – que junta analytics, funnels, feature flags e session replays no mesmo lugar. A combinação de gráficos com replays muda completamente a forma de investigar problemas.

Quando vejo uma métrica caindo, abro alguns replays de sessões reais de usuários no funil afetado. Em cinco minutos assistindo gente de verdade usando o produto, descubro coisas que nenhum dashboard mostraria: o usuário tentando arrastar algo que não é arrastável, hesitando entre dois botões parecidos, scrollando para baixo procurando algo que está em cima.

Não é substituto dos dados. É complemento essencial. Quantitativo sem qualitativo gera otimização cega. Qualitativo sem quantitativo gera decisão por anedota. Os dois juntos viram entendimento real.

O custo de medir

Toda métrica que você decide acompanhar tem um custo. Não financeiro – atencional. O time vai pensar nessa métrica nas decisões. Vai discutir essa métrica nas reuniões. Vai construir dashboards. Vai criar alertas.

Métricas em excesso geram ruído. Times com 40 dashboards diferentes acabam ignorando todos. Times com 3 dashboards bem desenhados tomam decisões melhores.

Antes de adicionar uma métrica, pergunte: que decisão essa métrica vai me ajudar a tomar? Se a resposta for “nenhuma específica”, ela é vaidade – independentemente do que mede.

O que medir sobre o que medir

Métricas, no fim, são uma forma de transformar julgamento em conversa.

Quando duas pessoas discordam sobre o que fazer, sem métricas, sobra hierarquia. Decide quem grita mais alto ou quem é o chefe. Com métricas claras, sobra o experimento. Decide o usuário.

Mas isso só funciona se as métricas representam de verdade o que importa. Métricas erradas geram conversas mais ruidosas, não menos.

A pergunta que precede “como aumentar essa métrica?” é “essa métrica está medindo o que precisa ser medido?”. A primeira é tática. A segunda é estratégica. E é nessa segunda que mora a maior parte do trabalho de produto que vale a pena fazer.