Desvio padrão
Trilha Estatistica, dentro da Oficina de Dados.
O desvio padrão é simplesmente a raiz quadrada da variância. Enquanto a variância dá um valor em unidades ao quadrado, o desvio padrão traz o resultado de volta para a unidade original dos dados, tornando a interpretação muito mais intuitiva.
Se a média de vendas diárias é R$ 5.000 e o desvio padrão é R$ 800, sabemos que as vendas normalmente ficam entre R$ 4.200 e R$ 5.800 (um desvio para cada lado). Essa interpretação prática é o grande poder do desvio padrão.
Para dados com distribuição aproximadamente normal (a famosa curva em sino), existe uma regra prática: cerca de 68% dos dados ficam a 1 desvio padrão da média, 95% ficam a 2 desvios, e 99,7% ficam a 3 desvios. Isso é chamado de regra 68-95-99,7.
Em Python, o cálculo manual é variancia ** 0.5 ou usando math.sqrt(variancia). O módulo statistics oferece statistics.pstdev() para a versão populacional e statistics.stdev() para a amostral.
No dia a dia de dados, o desvio padrão aparece em controle de qualidade, análise de risco, detecção de anomalias e avaliação de desempenho. É uma das métricas mais importantes que você vai usar.
Exemplo:
import math
import statistics
vendas = [4800, 5200, 4600, 5400, 5000]
# Na mão
media = sum(vendas) / len(vendas)
variancia = sum((x - media) ** 2 for x in vendas) / len(vendas)
desvio_manual = math.sqrt(variancia)
print("Desvio padrão manual:", round(desvio_manual, 2))
# Com a biblioteca
desvio_lib = statistics.pstdev(vendas)
print("Desvio padrão (statistics):", round(desvio_lib, 2))
# Interpretação
print("Vendas normalmente entre", round(media - desvio_manual, 2), "e", round(media + desvio_manual, 2))O desvio padrão (282.84) nos diz que as vendas geralmente ficam entre R$ 4.717 e R$ 5.283, muito mais interpretável que a variância (80.000).
Desafio guiado
Calcule o desvio padrão populacional das notas de alunos. Mostre também a faixa de 1 desvio padrão ao redor da média.
- Calcule a `media` e a `variancia` manualmente.
- Calcule o `desvio_manual` como a raiz quadrada da variância.
- Use `statistics.pstdev()` para calcular `desvio_lib`.
- Calcule `limite_inf` e `limite_sup` (média ± 1 desvio).
Saida esperada
Desvio padrão manual: 8.41
Desvio padrão (statistics): 8.41
Faixa normal: 68.79 a 85.61Dica
variancia = sum((x - media) ** 2 for x in notas) / len(notas). Depois desvio = math.sqrt(variancia).
Pratique no navegador
Resumo da lição
O desvio padrão traduz a variância para a unidade original dos dados. A faixa média ± 1 desvio contém ~68% dos valores.