Trilha Estatistica
Correlação·Licao 11/24
Modulo 4

Correlação de Pearson na mão

Trilha Estatistica, dentro da Oficina de Dados.

O coeficiente de correlação de Pearson (r) é um número entre -1 e 1 que mede a força da relação linear entre duas variáveis. Um r de 1 indica correlação positiva perfeita, -1 indica correlação negativa perfeita, e 0 indica nenhuma correlação linear.

O cálculo manual envolve cinco passos: (1) calcular as médias de X e Y, (2) calcular os desvios de cada valor em relação à sua média, (3) multiplicar os desvios correspondentes (produto cruzado), (4) calcular a soma dos produtos cruzados, e (5) dividir pelo produto dos desvios padrão de X e Y.

A fórmula pode parecer complexa, mas a lógica é intuitiva. Se quando X está acima da média, Y também tende a estar acima da média, os produtos cruzados são positivos e r fica positivo. Se quando X está acima da média, Y tende a estar abaixo, os produtos são negativos e r fica negativo.

Como interpretar o valor de r na prática: |r| < 0.3 é correlação fraca, 0.3 a 0.7 é moderada, e > 0.7 é forte. Mas cuidado: esses limites são referências, não regras absolutas. O contexto do problema importa.

Implementar Pearson na mão é um ótimo exercício para entender o que o número realmente significa. Depois, você pode usar funções prontas com confiança, sabendo interpretar o resultado corretamente.

Exemplo:

import math

marketing = [10, 15, 20, 25, 30]
receita = [100, 150, 180, 240, 300]

# Médias
media_x = sum(marketing) / len(marketing)
media_y = sum(receita) / len(receita)

# Produtos cruzados e desvios ao quadrado
num = sum((x - media_x) * (y - media_y) for x, y in zip(marketing, receita))
den_x = math.sqrt(sum((x - media_x) ** 2 for x in marketing))
den_y = math.sqrt(sum((y - media_y) ** 2 for y in receita))

r = num / (den_x * den_y)
print("Correlação de Pearson:", round(r, 4))
print("Interpretação: correlação", "forte" if abs(r) > 0.7 else "moderada" if abs(r) > 0.3 else "fraca")

A correlação de 0.9959 entre marketing e receita indica uma relação linear positiva muito forte.

?

Desafio guiado

Calcule a correlação de Pearson entre o investimento em marketing e a receita mensal. Interprete o resultado.

  1. Calcule as médias de X (`media_x`) e Y (`media_y`).
  2. Calcule o numerador: soma dos produtos cruzados dos desvios.
  3. Calcule o denominador: produto das raízes das somas dos desvios ao quadrado.
  4. Divida numerador por denominador para obter `r`.
  5. Interprete se a correlação é fraca, moderada ou forte.

Saida esperada

Correlação de Pearson: 0.9934 Força: forte

Dica

O numerador é a soma de (xi - media_x) * (yi - media_y). O denominador é o produto das raízes dos desvios ao quadrado somados.

Pratique no navegador

Carregando ambiente Python...

Resumo da lição

O coeficiente de Pearson (r) varia de -1 a 1 e mede a força da relação linear. Calcule na mão pelo menos uma vez para entender a fórmula.