Distribuição normal intuitiva
Trilha Estatistica, dentro da Oficina de Dados.
A distribuição normal (ou gaussiana) é o padrão mais famoso da estatística. Quando muitos fatores aleatórios pequenos se somam, o resultado tende a seguir uma forma de sino: a maioria dos valores fica perto da média, e valores extremos são raros.
Exemplos de fenômenos com distribuição aproximadamente normal: altura de pessoas, notas de uma prova grande, erros de medição e peso de produtos em uma linha de produção.
Nesta lição, vamos criar dados que seguem um padrão normal de forma simples: dado um valor central (média) e uma dispersão (desvio padrão), geramos valores e verificamos que a maioria fica perto do centro.
Sem usar numpy ou scipy, podemos simular uma distribuição normal de forma aproximada somando vários números aleatórios (pelo Teorema Central do Limite). Mas para nosso propósito, vamos usar uma lista fixa e analisar como os dados se concentram ao redor da média.
O conceito chave é: em dados normais, cerca de 68% ficam entre média ± 1 desvio padrão. Vamos verificar isso na prática contando quantos valores caem dentro dessa faixa.
Exemplo:
import statistics
import math
dados = [48, 52, 49, 51, 50, 47, 53, 50, 49, 51,
46, 54, 50, 48, 52, 50, 49, 51, 47, 53]
media = statistics.mean(dados)
desvio = statistics.pstdev(dados)
# Contar valores dentro de 1 desvio padrão
dentro_1dp = [x for x in dados if media - desvio <= x <= media + desvio]
perc = len(dentro_1dp) / len(dados) * 100
print("Média:", round(media, 2))
print("Desvio padrão:", round(desvio, 2))
print("Valores dentro de 1 DP:", len(dentro_1dp), "de", len(dados))
print("Porcentagem:", round(perc, 1), "%")Com dados que seguem padrão normal, a maioria dos valores fica próxima da média. A regra 68-95-99.7 se confirma na prática.
Desafio guiado
Analise o dataset de temperaturas diárias. Calcule média e desvio padrão, depois verifique que porcentagem dos dados cai dentro de 1 e 2 desvios padrão da média.
- Calcule `media` e `desvio` com o módulo statistics.
- Conte quantos valores estão dentro de 1 desvio padrão (`dentro_1dp`).
- Conte quantos valores estão dentro de 2 desvios padrão (`dentro_2dp`).
- Calcule e imprima as porcentagens.
Saida esperada
Média: 23.0
Desvio padrão: 1.41
Dentro de 1 DP: 73.3 %
Dentro de 2 DP: 96.7 %Dica
Use statistics.mean() e statistics.pstdev(). Depois use list comprehension para filtrar valores dentro da faixa.
Pratique no navegador
Resumo da lição
Em distribuições normais, ~68% dos dados ficam a 1 desvio padrão da média e ~95% ficam a 2 desvios. Esse padrão aparece em muitos fenômenos reais.