Estatística para pessoas leigas — Parte 2

Lorena de Souza
4 min readNov 5, 2019

Fala pessoal, tudo bem?

Se você anda querendo entender o mundo de Big Data, mas não sabe nem um pouquinho de estatística, esse texto é para você. Bora lá?

Esse segundo artigo eu tentarei evitar bastante o “matematiquês” . Mas em algumas circunstância não terá como escapar. Mas vou continuar dando mais enfoque aos conceitos fundamentais da estatística e como a gente pode aplicá-los no dia a dia. Combinado?!

Esse é um artigo de continuidade em que estamos falando sobre os tópicos mais comuns e fundamentais da estatística. Parte 1 está aqui. Abaixo estão os tópicos que iremos definir:

Variância e Desvio Padrão; Grau de liberdade, Intervalo de Confiança; Teste de Hipótese, T-Student, Willcoxon; Pearson, Spearman; Correlação e Casualidade; Regressão Linear.

O primeiro ponto que vamos falar aqui é Variância e Desvio Padrão.

Variância e Desvio Padrão

Variância e Desvio Padrão são quase sinônimas, o desvio padrão existe a partir da existência da variância. O Variância é uma métrica que calcula em cima da amostra a diferença de todos os dados em relação a média aritmética.

Variância = ((media-x1)² + (media-x2)² + ... + (media-xn)²)/n-1

Desvio Padrão = variância

Muitas vezes a média não é suficiente para perceber o comportamento daquela população, então o desvio padrão nos mostra quão disperso estão os dados, quando comparado com outro desvio padrão. Além disso, quanto mais próximo de 0 for o desvio padrão, quer dizer que menos disperso aqueles dados estão.

Vamos retomar o exemplo dos aplicativos. Uma companhia aérea tem dois softwares (Artix e Brtix) para fazer check-in digitalmente e a gestora gostaria de avaliar a performance. Para isso monitorou-se o desempenho de ambos por 5 dias:

+-----------+----------+
| Dia | Artix | Brtix |
+-----------+----------+
| 1 | 200 | 100 |
| 2 | 20 | 90 |
| 3 | 2 | 102 |
| 4 | 100 | 120 |
| 5 | 20 | 100 |
+-----------+----------+

Artix:

Média = (200 + 20 + 2 + 20 + 100)/5  =  342/5  = 68,4Desvio Padrão = √(68,4 - 200)² + (68,4 - 20)² + (68,4 - 2)² +
(68,4 - 100)² + (68,4 - 20)² / (5 - 1)
Desvio Padrão = √(-131,6)² + (48,4)² + (66,4)² + (-31,6)² +
(48,4)² / (4)
Desvio Padrão = √17318,56 + 2342,56 + 4408,96 + 998,56 + 2342,56 / 4Desvio Padrão = √27411,2 / 4Desvio Padrão = √6852.8Desvio Padrão = 82.7

Brtix:

Média = (100 + 90 + 102 + 120 + 100)/5  =  512/5  = 102.4Desvio Padrão = √(102.4 - 100)² + (102.4 - 90)² + (102.4 - 102)² +
(102.4 - 120)² + (102.4 - 100)² / (5 - 1)
Desvio Padrão = √(2.4)² + (12.4)² + (0.4)² + (-17.6)² + (2.4)² / (5)Desvio Padrão = √5.76 + 153.76 + 0.16 + 309.76 + 5.76 / 5Desvio Padrão = √475.2 / 5Desvio Padrão = √118.8Desvio Padrão = 10.8

Podemos concluir que pelo desvio padrão de Brtix Software ser mais próximo de Zero do que o desvio de Artix Software, Brtix tem um comportamento mais consistente. Nos dia 1 e 4 Artix realiza muito mais check-in do que Brtix, mas Brtix se garante ao longo dos dias com consistência, ou seja, para Brtix o desvio ao longo dos dias é bem pequeno quando comparado com sua própria média. O que inclusive facilita prever o comportamento de Brtix Software na próxima semana.

Em casos que haja muito mais dados (uma grande população)do que nosso singelo exemplo, um ponto importante sobre isso também é que, dificilmente a média ou o desvio padrão da amostra serão idênticos ao da população. Para tentar aumentar essa similaridade há um recurso chamado intervalo de confiança e grau de liberdade.

Intervalo de Confiança, Grau de liberdade

O Intervalo de Confiança nada mais é do que nossa tentativa de ter certeza a respeito daquela tendência de comportamento ou tendência central da população por meio da tendência central da amostra. É impossível ter 100% de certeza olhando para uma amostra, mas estatísticos sugerem que é possível trabalhar com margens de certeza entre 95% ou até 99%. Casos que o erro é algo imperdoável geralmente se aplicam um intervalo de confiança de 99%. Caso contrário, na maioria dos casos se aplica 95% para intervalo de confiança. Algumas pessoas podem diriam que 95% de certeza não resolve seu problema, mas observe que ter 95% de certeza de algo é muito melhor do que 50% de certeza ou nem ter uma certeza mensurável.

O grau de liberdade tem a ver com o (n -1) da fórmula de desvio padrão.
- Whaaat? ='(
- Ops!
Pera. Calma.

Por definição o desvio padrão da população é geralmente maior do que o desvio padrão da amostra, já que a amostra é sempre um subconjunto dos dados da população. Para o valor do desvio padrão da amostra se parecer com o da população, algum matemático provou que retirando 1 de n eleva o valor do desvio padrão um pouco. O que seria suficiente para tornar o desvio padrão da população e da amostra mais similares. Então, na fórmula do desvio padrão da amostra tem-se um grau de liberdade de n-1.

Teste de Hipótese, T-Student, Willcoxon

Hipótese Nula: Ex.: Não vou melhorar o checkin
Hipótese teste: Ex.: Vou melhorar o checkin com esse novo software

Pearson, Spearman

….

Correlação e Casualidade

Correlação uma variável X cresce a medida que a Variável Y cresce tb.

Casualidade, por ter esse comportamento de forte correlação não quer dizer que uma é a causa da outra.

Regressão Linear

….estou no Voo produzindo. Aguarde! :D

--

--