Uma das mais recorrentes situações que os profissionais de negócios propõem é verificar quais fatores explicam determinado comportamento do cliente. Buscar e encontrar relações de dependência entre variáveis é um dos temas mais interessantes no universo de métodos quantitativos e normalmente viram cases. Descobrir dependência entre consumo de fraldas e cervejas num supermercado (o mais famoso caso) faz com que o gestor possa realizar promoções eficientes; descobrir dependência entre tempo de relacionamento e lucratividade faz com o gestor crie programas de retenção e relacionamento diferenciados; descobrir relação de dependência entre vendas e investimentos em comunicação permite os gestores de comunicação provar o retorno dos investimentos em mídia; descobrir dependência entre nota de recomendação da marca ao amigo e fidelidade a marca faz com um indicador vire um business e seu criador fique rico e famoso.No universo imenso das relações de dependência dentro das empresas, as que mais seduzem os profissionais são aquelas que envolvem duas variáveis: são diretas, objetivas e todo mundo entende.
Existem basicamente duas ferramentas de análise para verificar a existência de relação de dependência entre duas variáveis:
– análise de correlação linear (para variáveis numéricas)
– teste do Qui-Quadrado (para variáveis nominais e ordinais)
Atenção leitor: o tipo da variável é determinante para escolher o tipo de análise.
Já me perguntaram como é que se calcula a correlação linear para verificar a dependência entre duas variáveis nominais. Digo que não é possível. Para verificar a dependência entre duas variáveis nominais usa-se o teste Qui-Quadrado. Mas como tem gente teimosa neste mundo, a criatividade entra em ação. Exemplos:
“Se for sexo masculino substituo por 10 e se for feminino substituo por 20”;
“Quando aparece faixa etária a gente faz assim. Se for entre 20 e 30 a gente usa 25 (ponto médio); se for acima de 70 anos consideramos 71 anos.”
“Fazemos a mesma coisa com a faixa de renda e se for acima de R$ 10.000,00 a gente troca por R$ 15.000,00 para dar uma margem…”
Voltando ao tema. O coeficiente chi-quadrado ou chi-quadrado, representado por (χ2) é um valor da dispersão para duas variáveis de escala nominal. Ele nos diz em que medida os valores observados se desviam do valor esperado, caso as duas variáveis fossem independentes. Quanto maior o valor do coeficiente chi-quadrado mais significante é a relação entre as duas variáveis analisadas.
Essa “calculeira” toda pode ser feita em softwares especialistas e também no excel.
No excel procure pelas funções TESTE.QUI e INV.QUI, p-valor do teste e valor chi-quadrado respectivamente.
Criei uma planilha já parametrizada para executar algumas configurações de estudos.
Case exemplo
A figura abaixo apresenta um case onde a questão principal da pesquisa era identificar quais variáveis estariam relacionadas com o ticket médio de uma loja de brinquedos. Após vários testes, encontramos a principal variável do estudo: a faixa etária. Os valores de Qui-Quadrado (11,1) e Teste Qui-Quadrado (0,026) garantem que as variáveis faixa etária e ticket médio são dependentes ao nível de 0,05% de significância.

Este ponto não é fim da análise como muitos pensam, é o começo. Explico: Descobrir que dentre uma lista de variáveis, aquela com maior associação com o ticket médio já é uma descoberta importante, sobretudo em empresas carregadas de paradigmas que nunca foram testados com profundidade. Ao descobrir que a faixa etária é a principal variável em termos de associação com o ticket médio, “descemos” a análise para as categorias. Aqui decobrimos que quanto maior a faixa etária maior a incidência de ticket médio “acima de R$50,00”. “E daí?” – sempre me perguntam. Bom se a faixa etária é a principal variável para o ticket médio e, se quanto maior a idade maior o ticket médio, suas lojas devem se preparar para atender os consumidores mais velhos, pois na sua loja eles trazem mais dinheiro que as outras faixas etárias. Sua loja está preparada para recebê-los? Seus atendentes tem treinamento específico? Os displays possuem letras visíveis? Existem facilitadores de acesso?
Parece simples…mas quem faz?
Para maiores detalhes procure bibliografia específica
(se você quiser receber uma planilha pré-formatada para teste de dependência basta enviar um email para rogerio.carpi@datalogos.com.br)
Filed under: Dicas Data Mining, Estatística | Leave a comment »