Postado em 23/06/2020
Conteúdo
- Apriori (Regras de Associação)
- Conjunto de Dados
- Pré-processamento dos registros
- Apriori utiliza 3 variáveis
- Considerações Finais
Apriori (Regras de Associação)
Vamos ver o algoritmo Apriori em ação. Usaremos o algoritmo Apriori para encontrar regras que descrevem associações entre diferentes produtos comprados.
Este processo analisa os hábitos de compra de clientes por meio da descoberta de associações entre diferentes itens que aparecem no carrinho de compras. A descoberta destas associações ajuda os varejistas no desenvolvimento de estratégias de marketing, uma vez revelam quais itens são frequentemente comprados juntos pelos clientes.
Conjunto de dados
Utilizando um conjunto de dados com 7500 registros de compras que ocorreram em um supermercado francês no período de uma semana.
Dataset disponível em: https://drive.google.com/file/d/1y5DYn0dGoSbC22xowBq2d4po6h1JxcTQ/view?usp=sharing
Pré-processamento dos registros
A biblioteca Apriori utiliza conjunto de dados como lista de listas.
Portanto, iremos formatar os registros em uma grande lista onde cada transação no conjunto de dados terá uma lista interna da grande lista externa.
Apriori utiliza 3 variáveis
Suporte (support) e confiança (confidence) são duas medidas de “interessabilidade” (interestingness), que refletem respectivamente a utilidade e confiabilidade da regra descoberta.
Um suporte de 2% para uma regra de associação significa que 4% de todas as transações sob análise mostram que frango e creme de leite são comprados juntos. O suporte do item I é definido como a razão entre o número de transações que contêm o item I pelo número total de transações.
A confiança de 29% significa que 29% das compras onde os clientes compraram frango também apresentam o item creme de leite como item vendido. Isso é medido pela proporção de transações com o item I1, nas quais o item I2 também aparece. A confiança entre dois itens I1 e I2, em uma transação, é definida como o número total de transações contendo os itens I1 e I2 dividido pelo número total de transações contendo I1.
Lift: Aumento é a razão entre a confiança e o suporte.
Tipicamente, regras de associação são consideradas de interesse se elas satisfazem tanto um suporte mínimo quanto uma confiança mínima.
Considerações Finais
Todo o código e mais um pouco está disponível no meu GitHub.
Os passos de execução deste tutorial foram testados com Python 3.6
e tudo ocorreu sem problemas. No entanto, é possível que alguém encontre alguma dificuldade ou erro no meio do caminho. Se for o caso, por favor comente a sua dificuldade ou erro neste post.