• Bem-vindo!

    Comecei a blogar em dezembro de 2008 e no início de 2010 lancei a versão atual, resultado de congressos, aulas, workshops e inúmeros projetos realizados nos últimos anos sobre o que o mercado chama de "analytics".

    Aproveite!

  • Hits

    • 57,540 hits
  • categoria

  • posts mês a mês

Investigando a dependência entre variáveis não métricas

Uma das mais recorrentes situações que os profissionais de negócios propõem é verificar quais fatores explicam determinado comportamento do cliente. Buscar e encontrar relações de dependência entre variáveis é um dos temas mais interessantes no universo de métodos quantitativos e normalmente viram cases. Descobrir dependência entre consumo de fraldas e cervejas num supermercado (o mais famoso caso) faz com que o gestor possa realizar promoções eficientes; descobrir dependência entre tempo de relacionamento e lucratividade faz com o gestor crie programas de retenção e relacionamento diferenciados; descobrir relação de dependência entre vendas e investimentos em comunicação permite os gestores de comunicação provar o retorno dos investimentos em mídia; descobrir dependência entre nota de recomendação da marca ao amigo e fidelidade a marca faz com um indicador vire um business e seu criador fique rico e famoso.No universo imenso das relações de dependência dentro das empresas, as que mais seduzem os profissionais são aquelas que envolvem duas variáveis: são diretas, objetivas e todo mundo entende.

Existem basicamente duas ferramentas de análise para verificar a existência de relação de dependência entre duas variáveis:

– análise de correlação linear (para variáveis numéricas)

– teste do Qui-Quadrado (para variáveis nominais e ordinais)

Atenção leitor: o tipo da variável é determinante para escolher o tipo de análise.

Já me perguntaram como é que se calcula a correlação linear para verificar a dependência entre duas variáveis nominais. Digo que não é possível. Para verificar a dependência entre duas variáveis nominais usa-se o teste Qui-Quadrado. Mas como tem gente teimosa neste mundo, a criatividade entra em ação. Exemplos:

“Se for sexo masculino substituo por  10 e se for feminino substituo por 20”;

“Quando aparece faixa etária a gente faz assim. Se for entre 20 e 30 a gente usa 25 (ponto médio); se for acima de 70 anos consideramos 71 anos.”

“Fazemos a mesma coisa com a faixa de renda e se for acima de R$ 10.000,00 a gente troca por R$ 15.000,00 para dar uma margem…”

Voltando ao tema. O coeficiente chi-quadrado ou chi-quadrado, representado por (χ2) é um valor da dispersão para duas variáveis de escala nominal. Ele nos diz em que medida os valores observados se desviam do valor esperado, caso as duas variáveis fossem independentes. Quanto maior o valor do coeficiente chi-quadrado mais significante é a relação entre as duas variáveis analisadas.

Essa “calculeira” toda pode ser feita em softwares especialistas e também no excel.

No excel procure pelas funções TESTE.QUI e INV.QUI, p-valor do teste e valor chi-quadrado respectivamente.

Criei uma planilha já parametrizada para executar algumas configurações de estudos.

Case exemplo

A figura abaixo apresenta um case onde a questão principal da pesquisa era identificar quais variáveis estariam relacionadas com o ticket médio de uma loja de brinquedos. Após vários testes, encontramos a principal variável do estudo: a faixa etária. Os valores de Qui-Quadrado (11,1) e Teste Qui-Quadrado (0,026) garantem que as variáveis faixa etária e ticket médio são dependentes ao nível de 0,05% de significância.

Teste qui-quadrado

Este ponto não é fim da análise como muitos pensam, é o começo. Explico: Descobrir que dentre uma lista de variáveis, aquela com maior associação com o ticket médio já é uma descoberta importante, sobretudo em empresas carregadas de paradigmas que nunca foram testados com profundidade. Ao descobrir que a faixa etária é a principal variável em termos de associação com o ticket médio, “descemos” a análise para as categorias. Aqui decobrimos que quanto maior a faixa etária maior a incidência de ticket médio “acima de R$50,00”.  “E daí?” – sempre me perguntam.  Bom se a faixa etária é a principal variável para o ticket médio e, se quanto maior a idade maior o ticket médio, suas lojas devem se preparar para atender os consumidores mais velhos, pois na sua loja eles trazem mais dinheiro que as outras faixas etárias. Sua loja está preparada para recebê-los? Seus atendentes tem treinamento específico? Os displays possuem letras visíveis? Existem facilitadores de acesso?

Parece simples…mas quem faz?

Para maiores detalhes procure bibliografia específica

(se você quiser receber uma planilha pré-formatada para teste de dependência basta enviar um email para rogerio.carpi@datalogos.com.br)

Anúncios

Big Data e afins


cartum_9_atlas_big_data

Só se fala nisso na cidade…

Big Data é um conceito de tecnologia da informação ligado a grandes bancos de dados que por serem complexos e gigantes não conseguem ser processados pelas ferramentas tradicionais de processamentos de dados, nem pelos softwares clássicos de BI e análise estatísticas.

De tempos em tempos ressurge a ideia que a sociedade e os mercados produzem dados a uma velocidade superior a capacidade das empresas e,só terá sucesso quem conseguir organizar, coletar, analisar e compartilhar as informações. Nos últimos anos já testemunhei  pelo menos 4 ondas dentro desse conceito. Então aviso: As empresas não irão quebrar em massa. Poucas empresas de fato conseguirão vantagem competitiva. As que conseguirem certamente estarão mais rico daqui a uns 10 anos que as demais. Muita gente ganhará muito dinheiro com isso e as apresentações corporativas e de fornecedores estarão repletas do termo Big Data nos slides. E daqui a alguns anos o assunto será esquecido e trocado de novos termos.

Vamos aos fatos

A sociedade produz mais dados do que a sociedade e as organizações podem assimiliar

Segundo artigo da The Economist (http://www.economist.com/node/15557443) de 2010, a informação criada cresce em ritmo exponencial ao passo que a capacidade de armazenamento cresce em ritmo linear. E como tentar acompanhar o velocista Usain Bolt com 3 Kg de chumbo em cada perna.

De outro lado, gestores das empresas estão aflitos com o cenário a ponto de revelarem em pesquisa realizada recentemente pela IBM com 1.700 CMOs (executivos de marketing) do mundo todo (http://www.youtube.com/watch?v=LPZru8g12G4) que o impacto da explosão de dados e apontada pelos CMOs, como sendo a de maior despreparo.

BIG DATA

Bom, desconsiderando os aspectos técnicos que envolvem as novas tecnologias, deixo para vocês uma lista de insights e aprendizados que considero importantes você ler caso esteja envolvido em algum projeto de Big Data.

  1. Invista em profissionais de alto nível. Projetos bem-sucedidos em administração de bancos de dados massivos quase sempre o são por conta de profissionais de banco de dados especializados – os DBAs. Esses profissionais são raros, caros e imprescindíveis se deseja criar um projeto bem-sucedido. Não se restrinja a conhecimento em SQL Server ou banco de dados em geral. Falo daqueles caras antigos que já quebraram todas as pedras…bons de projeto….bons de infra-estrutura. E prepare seu budget…
  2. Somente softwares não resolvem. Pense no trinômio: tecnologia, processos e pessoas. Invista nos 3 pilares. Cada um tem uma importância diferente ao longo do projeto. Um pilar subavaliado afeta todo o projeto;
  3. Não permaneça muito tempo nas etapas de organização e construção das estruturas de dados. Produza rapidamente insights úteis para a organização – os famosos “quick-wins”;
  4. Encontre um sponsor. Uma área, profissional ou acionista que garanta demandas e visibilidade para o projeto e para os insights produzidos;
  5. Trabalhe forte com métricas e KPIs. É o melhor e mais interessante caminho para tangibilizar e dar visibilidade aos projetos de informação. Métricas e KPIs estão na moda, são úteis e chegam até as telas dos executivos seniores;
  6. O assunto é antigo mas com roupa nova. Se o ambiente interno for reativo monte seminários e treinamentos internos. Se o médio escalão não quiser participar, convide os analistas. Aos poucos você conseguirá popularizar os conceitos.
  7. Não perca de vista a ideia que o resultado final é fazer com que os gestores tomem decisões melhores e com rapidez. Se conseguir entregar facilitadores para os gestores terá garantido a perenidade do projeto. A visão que gosto de usar é: entregue algo que o gestor possa ver no IPAD e tomar uma decisão no saguão do aeroporto enquanto espera um check-in.

(caso você tenha alguma sugestão para compartilhar, envie para ser adicionada a lista)

Curso extensão: Data Mining aplicado a CRM analítico

Pessoal segue dica de um curso rápido de Data Mining. São 60 horas de curso e o início será dia 10/10.

link

http://www.fipecafi.org/extensao/extensao-data-mining-aplicado-crm-analitico.aspx

Palestra Data Mining 19/07/2011

Segue link para a palestra de Data Mining dia 19 na Faculdade Impacta em São Paulo.

https://www.impacta.edu.br/eventos-inscricao.asp?cadastroId=808&utm_source=Virtual+Target&utm_medium=email&utm_content=&utm_campaign=Palestra+Data+Mining&utm_term=

Análise de safras com gráfico de bolhas

Em fevereiro de 2010 postei um texto sobre data mining indicando a célebre apresentação do professor Hans Hosling (https://rogeriocarpi.wordpress.com/2010/02/02/o-que-e-data-mining/).

A idéia de apresentar informações tridimensionais com variação do tempo (4a. dimensão) causa sempre um grande impacto.

Recentemente produzi um estudo contemplando ticket médio, taxa de retenção, produto e vendas no tempo.

Preparei um planilha excel com dados calculados. TAXA DE RETENÇÃO e TICKET MÉDIO foram alocados nos eixos X e Y. VENDAS foi alocada no tamanho da bolha. Os PRODUTOS foram diferenciados por cores. Finalmente a variável TEMPO foi resolvida com um objeto VB (Visual Basic) acompanhado da  função de busca PROCV, dando assim um caráter dinâmico a apresentação.

A figura abaixo representa uma visão  estática para o ano de 2006. Se gostou do aplicativo basta pedir em pvt que envio a planilha completa. Mesmo que o seu problema não seja com as variáveis do exemplo, basta trocar os rótulos de acordo com a sua conveniência.

Software open source – free

Pessoal segue dica do Heron Gonçalves.

http://rapid-i.com/content/view/186/191/lang,en/

Ainda não testei. Se alguém tiver alguma comentário para os leitores será útil.

Matriz de avaliação e importância

Apresentar resultados em forma de matriz é quase sempre garantia de apresentação bem-sucedida.

Certa vez o desafio era condensar dados de uma pesquisa num único diagrama. Após coletar dados de avaliação e importância de diversos itens mercadológicos junto a uma amostra de consumidores optou-se por plotar os  itens numa matriz de avaliação x importância.

O resultado ficou assim.

Para resumir os dados utiluzou-se a mediana das observações (e não a média – mais suscetível a variações).

A matriz está cortada por dois eixos médios(importância = 7.0 e avaliação = 7.0). Estes dois eixos produziram quadrantes (alta importância / alta avaliação, alta importância / baixa avaliação, baixa importância / alta avaliação, baixa importância / baixa avaliação). Esses quadrantes permitem definir 4 diferentes estratégias de mercado distintas.