TL;DR

Uma construtora de pequeno porte sediada em São Paulo enfrentava um desafio crítico: investia em múltiplos canais de marketing (Google Ads, Meta Ads e TV), mas não conseguia quantificar com precisão o retorno real de cada canal nem otimizar a alocação de seu orçamento limitado.

Este projeto de consultoria implementou uma abordagem de Marketing Mix Modeling (MMM) utilizando o framework Robyn (Meta Marketing Science), com o objetivo de decompor a contribuição causal de cada canal de mídia para a receita total e identificar oportunidades de realocação orçamentária.

Devido à severa fragmentação dos dados históricos da empresa (apenas 3,8% de completude nas observações), o projeto adotou uma estratégia metodológica rigorosa: validação da capacidade do modelo através de dados sintéticos com ground truth conhecido, estabelecendo limites claros sobre o que era possível afirmar com os dados disponíveis e criando um roadmap para maturidade analítica futura.

Resultados:

  • Potencial de Otimização Identificado: A análise revelou um potencial incremental de receita de ~R$ 1 milhão ao ano através da reconfiguração do mix de canais, mantendo o orçamento total.
  • Diagnóstico de Eficiência: O canal Google Ads operava com baixa saturação (30% do potencial), indicando “headroom” para escala, enquanto a TV estava em zona de retornos decrescentes críticos (85% de saturação).
  • Validação Rigorosa e Lição Estratégica: O uso de ground truth demonstrou um paradoxo crítico: métricas de ajuste global (R²=1.0) podem mascarar erros de atribuição superiores a 65% por canal. Isso estabeleceu a calibração externa como requisito não negociável para confiança gerencial.

Tech stack: Python | Robyn (Meta) | Prophet | Ridge Regression | Dados Sintéticos com Ground Truth Tempo de projeto: 4 meses (diagnóstico + validação metodológica + roadmap) Setor: Construção Civil | Imobiliário


Desafio do Cliente

A construtora operava em um cenário típico de pequenas e médias empresas brasileiras no setor imobiliário:

Contexto Operacional

  • Investimentos mensais significativos distribuídos entre Google Ads, Meta Ads e TV
  • Sistemas de gestão não integrados entre equipes de marketing, comercial e financeiro
  • Decisões orçamentárias baseadas em intuição e métricas de plataforma isoladas (cliques, views, impressões, leads etc)
  • Ausência de visão consolidada sobre o retorno real de cada canal

Problema Central

“Quanto cada canal de marketing realmente contribui para minhas vendas, e como devo realocar meu orçamento para maximizar resultados?”

Barreiras Identificadas

A análise exploratória inicial dos dados históricos revelou limitações críticas:

IndicadorRecomendação MetodológicaRealidade ObservadaGap
Volume histórico100+ semanas contínuas70 semanas válidas-30%
Completude de dados95% das observações3,8%-91,2 p.p.
Continuidade de investimento90% do período ativo7,2% a 62,7%Inadequado
Razão observações/parâmetros10:10,5:1 a 4,6:1Insuficiente

completude de dados

Diagnóstico: A infraestrutura de dados da empresa estava abaixo do mínimo necessário para modelagem MMM confiável com dados reais - padrão consistente com o Índice de Transformação Digital Brasil 2024 PWC, que aponta que apenas 23% das pequenas empresas brasileiras possuem maturidade avançada em integração de dados.


Metodologia & Abordagem

Diante da inviabilidade de modelagem direta com dados fragmentados, o projeto adotou uma estratégia bifásica:

Fase 1: Diagnóstico Quantitativo da Lacuna

Ferramentas: Python (Pandas, NumPy)

Processo:

  1. Auditoria completa do histórico de dados (209 semanas, período 2021-2025)
  2. Análise de padrões de completude, continuidade e qualidade por canal
  3. Benchmarking contra requisitos metodológicos da literatura (Jin et al., 2017)
  4. Quantificação objetiva do gap na infraestrutura de dados

Entregável desta fase: Relatório técnico documentando que qualquer modelagem com os dados atuais resultaria em coeficientes instáveis e sem significância estatística.

Fase 2: Validação Metodológica com Dados Sintéticos

Objetivo: Estabelecer limites teóricos de capacidade do MMM sob condições controladas que representam o “melhor cenário possível” de infraestrutura.

Dataset Sintético Construído:

  • 156 semanas (2021-2023) simulando operação de construtora
  • 3 canais de mídia: Google Ads, Meta Ads, TV
  • Parâmetros causais conhecidos (ground truth):
    • Efeitos de memória publicitária (adstock): θ=0,4 para canais digitais; θ=0,6 para TV
    • Curvas de saturação (função Hill): calibradas por elasticidades típicas do setor
    • ROI verdadeiro por canal: Google=57,75 | Meta=62,38 | TV=10,48
  • Componentes estruturais: tendência temporal, sazonalidade anual, variáveis macroeconômicas (SELIC, INCC)

Framework de Modelagem: Robyn (Meta Marketing Science)

  • Algoritmo evolucionário multiobjetivo (Nevergrad - TwoPointsDE)
  • 16.000 combinações de hiperparâmetros avaliadas (8 trials × 2.000 iterações)
  • Funções objetivo simultâneas:
    • NRMSE: minimizar erro de predição de receita
    • DECOMP.RSSD: minimizar inconsistências na decomposição causal

Protocolo de Validação: Comparação entre decomposições estimadas pelo modelo e valores verdadeiros (ground truth) através de:

  • MAPE (Mean Absolute Percentage Error) por componente
  • R² por componente
  • Análise de discrepância em ROI estimado vs. ROI real

Por Que Um Framework Open-Source?

A escolha do Robyn (open-source) em detrimento de soluções proprietárias foi estratégica:

robyn

Vantagens para PMEs

1. Transparência Metodológica

  • Código auditável: o cliente pode entender exatamente como atribuições são calculadas
  • Sem “caixas-pretas”: cada decisão algorítmica é documentada e justificável

2. Custo-Efetividade

  • Zero licenciamento de software
  • Investimento concentrado em consultoria especializada, não em ferramentas

3. Customização Técnica

  • Adaptável às especificidades do setor imobiliário brasileiro
  • Incorporação de variáveis de contexto relevantes (INCC, SELIC, sazonalidade local)

4. Ecossistema de Validação

  • Desenvolvido e mantido pela Meta Marketing Science
  • Baseado em práticas validadas por literatura acadêmica (Jin et al., 2017)
  • Comunidade ativa de contribuidores

5. Escalabilidade Futura

  • À medida que a empresa amadurece sua infraestrutura de dados, o modelo evolui sem custos adicionais de software
  • Integração nativa com Python/R facilita conexão com outros sistemas

Entregáveis & Resultados

1. Modelo MMM calibrado e validado

Capacidade de Ajuste:

  • Dados de treino: R²=0,77 | NRMSE=9,96%
  • Dados de teste: R²=0,26 | NRMSE=23,98%

Interpretação crítica fornecida ao cliente: A degradação entre treino e teste (delta R²=0,51) indica sobreajuste - o modelo capturou padrões específicos da amostra de calibração com limitada generalização. Este resultado evidencia que 156 semanas, embora superiores aos dados reais disponíveis, ainda estão no limite inferior para estimação robusta em setores com ciclos longos de decisão.

2. Decomposição Causal por Canal

Modelo estimou (média semanal no período de teste):

CanalContribuição EstimadaParticipação na ReceitaROI Estimado
Google AdsR$ 42.9848,0%17,38
Meta AdsR$ 34.1686,4%21,36
TVR$ 42.6838,0%11,03
Base/OrgânicaR$ 412.77677,5%-
TotalR$ 532.611100%-

3. Validação com Ground Truth: O Paradoxo Crítico

A comparação com os valores verdadeiros revelou um achado fundamental para a tomada de decisão informada:

CanalROI RealROI EstimadoErroMAPE Decomposição
Google Ads57,7517,38-69,9%69,8%
Meta Ads62,3821,36-65,8%64,2%
TV10,4811,03+5,2%4,9%

Paradoxo identificado:

  • O modelo atingiu ajuste perfeito na receita total agregada (R²=1,000; MAPE=0,00%)
  • Mas apresentou erros substanciais nas decomposições individuais (MAPE 33-70%)
  • Subestimou sistematicamente canais digitais (~70%) e compensou superestimando receita base

Implicação gerencial comunicada: Métricas agregadas de ajuste (R², NRMSE sobre receita total) são insuficientes para validar MMM. Um modelo pode “acertar o total” através de compensação de erros entre canais, mascarando atribuições causais incorretas que induziriam decisões de subinvestimento em canais eficientes.

4. Simulação de Otimização Orçamentária

Cenário proposto (baseado nas estimativas do modelo):

otimizacao

CanalInvestimento AtualInvestimento ÓtimoVariação
Google AdsR$ 2.269/semR$ 3.035/sem+33,8%
Meta AdsR$ 1.781/semR$ 1.247/sem-30,0%
TVR$ 2.103/semR$ 1.872/sem-11,0%

Projeção de impacto: +R$ 1 milhão em receita anual (mantendo orçamento total constante)

Ressalva crítica fornecida ao cliente: Esta recomendação não deve ser implementada diretamente, pois deriva das mesmas estimativas de ROI que demonstramos serem imprecisas. O exercício é ilustrativo do funcionamento algorítmico, não prescritivo. A alocação ótima real demandaria:

  1. Validação experimental (testes A/B geo-controlados)
  2. Incorporação de priors informativos (ROIs históricos confiáveis)
  3. Maturação da infraestrutura de dados

5. Roadmap de Maturidade Analítica

Recomendações priorizadas:

Curto Prazo (0-6 meses):

  • Implementar governança de dados: integração ERP + plataformas de mídia
  • Estabelecer coleta contínua e estruturada de métricas (investimento, exposição, receita)
  • Iniciar testes incrementais em mercados pilotos para calibração externa

Médio Prazo (6-24 meses):

  • Acumular janela histórica de 100+ semanas com completude >90%
  • Implementar experimentação controlada (geo-testes, períodos de interrupção)
  • Re-calibrar modelo MMM com dados reais validados

Longo Prazo (24+ meses):

  • Automatizar pipeline de atualização do modelo
  • Expandir escopo para análise de canais orgânicos e efeitos cruzados
  • Integrar MMM com outras abordagens de atribuição (multi-touch, incrementalidade)

6. Documentação Técnica Completa

  • Código reproduzível (Python): geração de dados sintéticos, modelagem Robyn, validação
  • Dataset sintético com ground truth para treinamento de equipes
  • Especificação de hiperparâmetros otimizados por canal
  • Protocolo de validação replicável para futuros ciclos

Impacto & Conclusão

Valor Imediato Gerado

Clareza sobre Limitações Atuais: O projeto quantificou objetivamente que a empresa está 12 a 24 meses distante da maturidade necessária para MMM confiável com dados reais - evitando investimento prematuro em soluções analíticas que produziriam resultados enganosos.

Framework de Validação Crítica: Demonstramos que modelos MMM automatizados, mesmo com ajuste estatístico aparentemente perfeito, podem mascarar erros de atribuição severos. O cliente agora possui protocolo concreto para avaliar qualquer solução futura de analytics antes de basear decisões estratégicas nela.

Metodologia Escalável: O uso de dados sintéticos permite à equipe interna treinar continuamente em cenários controlados, desenvolvendo intuição sobre comportamento do modelo e limites algorítmicos antes de aplicação em produção.

Lições Estratégicas para PMEs

  1. Infraestrutura precede analytics: Não adianta ter algoritmos sofisticados sobre dados fragmentados. O investimento prioritário deve ser em sistemas integrados de coleta.

  2. Validação é não-negociável: Toda aplicação de MMM deve incluir mecanismos complementares - testes controlados, análise de sensibilidade, benchmarking externo.

  3. Calibração humana é indispensável: Modelos puramente data-driven, sem supervisão informada por conhecimento de negócio, são vulneráveis a confundimento quando dados históricos têm limitações estruturais.

  4. Open-source viabiliza democratização responsável: Ferramentas como Robyn tornam MMM acessível a PMEs, mas exigem expertise analítica para interpretação correta - o diferencial competitivo migra de “acesso à ferramenta” para “capacidade de validação crítica”.

Próximos Passos Recomendados

Fase Implementação:

  • Projeto de integração de sistemas (6 meses)
  • Desenho experimental piloto em 2 mercados geográficos (3 meses)
  • Primeira iteração de MMM com dados reais validados (após 18 meses de coleta estruturada)

Retorno Esperado: Empresas que investem adequadamente em infraestrutura de dados e aplicam metodologia MMM validada reportam ganhos de 15-25% em eficiência de alocação de marketing (Jin et al., 2017) - para uma construtora de pequeno / médio porte, isso pode representar centenas de milhares de reais em ROI incremental anual.


Sobre a Metodologia

Este projeto foi conduzido utilizando exclusivamente ferramentas open-source e metodologia baseada em literatura acadêmica peer-reviewed:

Frameworks: Robyn (Meta Marketing Science), Prophet (decomposição temporal), Ridge Regression (regularização)

Linguagem: Python 3.x + bibliotecas científicas (NumPy, Pandas, SciPy)

Referências Metodológicas:

  • Jin et al. (2017): “Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects” (Google)
  • Sun et al. (2022): “Robyn: A Meta Open-Source Marketing Mix Modeling Library” (Meta)
  • Naik & Raman (2003): “Understanding the Role of Advertising in Marketing Mix Models”

Este case demonstra minha abordagem em projetos de Marketing Analytics: rigor metodológico, transparência sobre limitações, e foco em gerar valor acionável mesmo em contextos de dados imperfeitos. Interessado em discutir como posso ajudar sua empresa a otimizar investimentos em marketing? Entre em contato.