Estatística para pessoas leigas

Lorena de Souza
6 min readNov 4, 2019

Fala pessoal, tudo bem?

Se você anda querendo entender o mundo de Big Data, mas não sabe nem um pouquinho de estatística, esse texto é para você. Se você também não entendia bulhufas do que o professor de estatística te contava ou nem lembra, então aqui posso começar a te ajudar. Bora lá?

Esse primeiro artigo não irei entrar no "matematiquês" profundo. Vamos primeiro entender os conceitos fundamentais da estatística e como a gente pode aplicá-los no dia a dia. Combinado?!

Quando retomei meus estudos em estatística vi que todos os livros, dos mais tradicionais aos livros "for dummies", apresentavam esses tópicos:

Tipos de Dados; Média, Moda e Mediana; Variabilidade, Dispersão dos dados, Outliers; Amplitude e Quartis; Histograma; População, Amostra; Variância e Desvio Padrão; Grau de liberdade, Intervalo de Confiança; Teste de Hipótese, T-Student, Willcoxon; Correlação e Casualidade; Pearson, Spearman; Regressão Linear.

Por isso, meu primeiro desafio aqui neste artigo será definir conceitualmente cada tópico, que considero suficiente para o meu dia a dia de pessoa desenvolvedora. (Espero que seja suficiente para você tb.) E então num próximo momento posso trazer luz às provas matemáticas.

Tipos de Dados: para a estatística temos o tipo de dado Categórico, Ordinal, Intervalar e Racional.

Muito provável que vc tenha uma lembrança do que eles se tratam. Saber esses tipos de dados vai te ajudar a decidir qual método estatístico seria mais adequado usar. Por exemplo, a média aritmética que aprendemos na escola, é adequada para qualquer tipo de dado?

Data Categórico é bastante comum no nosso dia a dia, exemplos clássicos são gênero, raça, gênero musical e e.t.c.

Um tipo de dado Ordinal bem comum na internet todos os dias são as famosas estrelinhas para capturar satisfação do usuário (conhecido como escala Likert).

Para esses dados não faz sentido comparar se é menor UMA estrelinha ou DUAS ou se é maior TRÊS ou DUAS estrelinhas. O significado aqui é atribuído na análise. Por exemplo, UMA estrelinha pode ser "Eu acho o produto horrível" enquanto CINCO estrelinhas "Eu amo esse produto". Faz sentido aplicar média aritmética aqui?*

Tipo de dado intervalar são dados que ao comparar você consegue obter uma diferença. Exemplo, temperatura. -10ºC, 0ºC, 20ºC, 22.5ºC, 30ºC, 100ºC. A diferença de cada valor é precisa e mensurável. E o 0ºC aqui é uma temperatura, e não a ausência de temperatura.

Tipo de dado racional é parecido com o intervalar, porém no caso do 0 é ausência daquele fenômeno. Por exemplo, velocidade, peso, altura, preço de um produto. Quando temos velocidade [1Km/h, 100Km/h, 200Km/h], não há velocidade em 0km/h. Assim como não há peso e nem altura quando 0 kilos ou 0 cm. E para esses dois últimos tipos da dados faz sentido aplicar média aritmética?**

Média, Moda e Mediana: essas três irmãs tem o objetivo de achar a Tendência central de um conjunto de dados.

A fórmula geral da Média ou média aritmética é:

(x1 + x2 + x3 + ... + xn)/n

Ou seja, soma todos os itens e divide pela quantidade total.

Já a Mediana colocamos os valores em ordem crescente e escolhemos aquele que é central:

Dados brutos: 1 1 6 1 5 10 1 1 1
Dados ordenados: 1 1 1 1 1 1 5 6 10
Mediana: 1

Por fim a Moda é o número que mais se repete naquele conjunto de dados:

Dados ordenados: 1 1 3 3 3 3 5 6 10
Moda: 3

A Moda é bem observada com o gráfico Histograma que veremos no próximo artigo de gráficos.

*Para tipos de dados Categóricos e Ordinais, você pode trabalhar com frequência ou porcentagem. Não faz sentido calcular média ou mediana para os mesmos.
** Para tipos de dados Intervalares e Racionais você pode trabalhar com média aritmética, e também mediana, moda e desvio padrão.

Exemplificando por que não faz sentido calcular média para variáveis Ordinais. Imagine que seu produto está na praça e as pessoas avaliaram assim:

5 Estrelas (Excelente), 4 Estrelas (Muito bom), 3 Estrelas (Bom), 2 Estrelas (Uma merda), 1 Estrela (Horrível).

João: 5 estrelas
Maria: 2 estrelas
Ada: 2 estrelas

Média: (5 + 2 + 2)/3 = 9/3 = 3

3 estrelas significa que na média seus clientes acharam seu produto bom. Esse dado não representa a realidade, uma vez que a maioria achou seu produto uma merda. E quando falo da maioria, é o mesmo que dizer de Moda ou porcentagem dos casos que mais aconteceram, ou seja, 66.6% acharam seu produto uma merda. Em contra partida 33.3% acharam seu produto excelente. Perceba que a média aplicada no lugar errado, te engana do real comportamento do seu usuário? Nesse caso, tanto a Moda quanto a Mediana seria 2, o que diz muito melhor sobre a tendência central dos seus dados, ou seja, como realmente seu usuário tem te avaliado.

Variabilidade, Dispersão dos dados, Outliers

É importante compreender outros métodos estatísticos além da média. Para te ajudar a escolher entre média, mediana e moda, além de checkar os tipos de dados, há também uma outra característica importante a se avaliar: dispersão dos dados.

Dispersão e Variabilidade dos dados são sinônimos. Eu prefiro usar Dispersão dos dados. Nada mais é do que o quão disperso, distribuídos ou espalhados os dados se encontram.

No meio desses dados, podemos ter os Outliers que são os dados totalmente distantes da maioria dos demais dados. Outliers são números extremos, geralmente muito grandes ou muito pequenos, no meio de uma distribuição. Por conta disso, geralmente são números que eliminamos na hora de analisar.

Para fins de compreensão da dispersão dos dados em geral, classificou-se em alguns formatos a dispersão dos dados. A mais comum é a chamada Dispersão ou Distribuição normal.

Distribuição Normal com Dinossauro
Distribuição normal com corpo de dinossauro

Quando os dados estão bastante dispersos (presença de outliers), as melhores maneiras de se calcular a Tendência Central é usando Mediana e Moda. Ao contrário, a média é melhor aplicada em um contexto de dados intervalares/racionais e menos distribuídos, como no caso de distribuições normais.

Amplitude e Quartis

Amplitude nada mais é do que a diferença do maior valor e o menor valor da sua distribuição de dados. Isso nos dá uma noção do quanto os dados estão espalhados.

Por exemplo, numa companhia aérea, temos dois softwares (Artix e Brtix) para fazer check-in digitalmente e gostaríamos de avaliar a performance. Para isso monitoramos o desempenho de ambos por 5 dias.

O Software Artix, processa:
200 check-in no 1º dia.
20 check-in no 2º dia.
2 check-in no 3º dia.
20 check-in no 4º dia.
100 check-in no 5º dia.

O Software Brtix, processa:
100 check-in no 1º dia.
90 check-in no 2º dia.
102 check-in no 3º dia.
120 check-in no 4º dia.
100 check-in no 5º dia.

Sendo assim, a amplitude de Artix é 198(=200–2) e de Brtix é 30 (=120–90)
Qual desses softwares você escolheria, com maior ou menor amplitude?

Quartis esse é um recurso que te ajuda observar como está sua distribuição de dados. A proposta dos quartis é dividir seus dados em 4 partes. Os primeiros 25% dos dados, dos 25% a 50% dos dados, dos 50% as 75% dos dados e dos 75% aos 100% dos dados. Aqui você consegue observar onde a maioria dos seus dados estão localizados e remover possíveis outliers. O Quartis é bem observado com o gráfico Boxplot que veremos no próximo artigo de gráficos.

População, Amostra

População são todos os dados que ocorrem no mundo real. Enquanto que Amostra é um subconjunto da população. Há dois tipos de amostra: aleatória e estratificada. A amostra estratificada usamos quando por exemplo, queremos avaliar as chances de Lula voltar a ser presidente. Se a gente pegar apenas pessoas do nordeste, certamente ele será o novo presidente. Infelizmente sabemos que isso não condiz com a realidade de todo país. Por isso, é importante pegar um grupo de pessoas de cada região para realmente representar o Brasil.

Devido a inviabilidade de analisar todos os dados da população será com a Amostra que a gente vai descobrir a tendência de comportamento da população.

O próximo artigo vamos falar de:

Variância e Desvio Padrão; Grau de liberdade, Intervalo de Confiança; Teste de Hipótese, T-Student, Willcoxon; Correlação e Casualidade; Pearson, Spearman; Regressão Linear.

Espero que tenha ajudado a relembrar esse fundamento da estatística.

Estatística para leigas — Parte 2

Abraço,

:D

--

--