Correlação de Pearson na mão
Trilha Estatistica, dentro da Oficina de Dados.
O coeficiente de correlação de Pearson (r) é um número entre -1 e 1 que mede a força da relação linear entre duas variáveis. Um r de 1 indica correlação positiva perfeita, -1 indica correlação negativa perfeita, e 0 indica nenhuma correlação linear.
O cálculo manual envolve cinco passos: (1) calcular as médias de X e Y, (2) calcular os desvios de cada valor em relação à sua média, (3) multiplicar os desvios correspondentes (produto cruzado), (4) calcular a soma dos produtos cruzados, e (5) dividir pelo produto dos desvios padrão de X e Y.
A fórmula pode parecer complexa, mas a lógica é intuitiva. Se quando X está acima da média, Y também tende a estar acima da média, os produtos cruzados são positivos e r fica positivo. Se quando X está acima da média, Y tende a estar abaixo, os produtos são negativos e r fica negativo.
Como interpretar o valor de r na prática: |r| < 0.3 é correlação fraca, 0.3 a 0.7 é moderada, e > 0.7 é forte. Mas cuidado: esses limites são referências, não regras absolutas. O contexto do problema importa.
Implementar Pearson na mão é um ótimo exercício para entender o que o número realmente significa. Depois, você pode usar funções prontas com confiança, sabendo interpretar o resultado corretamente.
Exemplo:
import math
marketing = [10, 15, 20, 25, 30]
receita = [100, 150, 180, 240, 300]
# Médias
media_x = sum(marketing) / len(marketing)
media_y = sum(receita) / len(receita)
# Produtos cruzados e desvios ao quadrado
num = sum((x - media_x) * (y - media_y) for x, y in zip(marketing, receita))
den_x = math.sqrt(sum((x - media_x) ** 2 for x in marketing))
den_y = math.sqrt(sum((y - media_y) ** 2 for y in receita))
r = num / (den_x * den_y)
print("Correlação de Pearson:", round(r, 4))
print("Interpretação: correlação", "forte" if abs(r) > 0.7 else "moderada" if abs(r) > 0.3 else "fraca")A correlação de 0.9959 entre marketing e receita indica uma relação linear positiva muito forte.
Desafio guiado
Calcule a correlação de Pearson entre o investimento em marketing e a receita mensal. Interprete o resultado.
- Calcule as médias de X (`media_x`) e Y (`media_y`).
- Calcule o numerador: soma dos produtos cruzados dos desvios.
- Calcule o denominador: produto das raízes das somas dos desvios ao quadrado.
- Divida numerador por denominador para obter `r`.
- Interprete se a correlação é fraca, moderada ou forte.
Saida esperada
Correlação de Pearson: 0.9934
Força: forteDica
O numerador é a soma de (xi - media_x) * (yi - media_y). O denominador é o produto das raízes dos desvios ao quadrado somados.
Pratique no navegador
Resumo da lição
O coeficiente de Pearson (r) varia de -1 a 1 e mede a força da relação linear. Calcule na mão pelo menos uma vez para entender a fórmula.