Medidas de Tendência Central e Dispersão

A tendência central é uma medida de valores numa amostra que identifica os diferentes pontos centrais nos dados, muitas vezes referidos coloquialmente como “médias”. As medidas mais comuns de tendência central são a média, a mediana e a moda. A identificação do valor central permite que outros valores sejam comparados a ele, mostrando a dispersão ou o agrupamento da amostra, o que é conhecido como dispersão ou distribuição. Estas medidas de dispersão são categorizadas em 2 grupos: medidas de dispersão baseadas em percentis e medidas de dispersão baseadas na média (que é frequentemente conhecida como desvio padrão). A análise da distribuição dos dados determina se os dados têm uma tendência central forte ou fraca com base na sua dispersão. Quando a distribuição dos dados é simétrica e a média = mediana = moda, diz-se que os dados têm uma distribuição normal. Também são possíveis outros tipos de distribuições, e são conhecidas como distribuições não normais.

Última atualização: Jul 28, 2022

Responsibilidade editorial: Stanley Oiseth, Lindsay Jones, Evelin Maza

Descrição Geral

Definição

Medidas de tendência central são valores únicos que tentam descrever um conjunto de dados identificando o valor central ou “típico” desse conjunto de dados.

  • Coloquialmente descritas como “médias”
  • Medidas mais comuns:
    • Média
    • Mediana
    • Moda

Distribuição de dados e medidas de dispersão

  • Em qualquer conjunto de dados, os dados são distribuídos num determinado intervalo.
  • Com base nessa distribuição, pode se determinar o quão próximo a maioria dos dados está da média ou quão dispersos estão os dados; esta dispersão pode ser medida de várias maneiras, incluindo:
    • Percentis
    • Desvio padrão
  • Normalmente, certos pontos de dados são mais comuns no conjunto de dados (aqueles próximos da média), enquanto outros são raros (ou seja, discrepantes ou outliers).
  • A distribuição destes pontos de dados pode ser classificada como:
    • Normal
    • Não normal
  • As distribuições normais têm certas características que podem ajudar os médicos a determinar quão “anormal” é um determinado achado: Por exemplo, um determinado resultado laboratorial está dentro da faixa de “normal” ou o achado sugere um estado de doença?

Média, Mediana e Moda

Média

Definição:

A média é a soma de todas as medições num conjunto de dados dividida pelo número de medições nesse conjunto de dados.

  • A média aritmética de todos os valores observados
  • Pode ser incorporada em análises estatísticas mais complexas
  • A mais afetada por outliers
  • A média de uma amostra aleatória é uma estimativa imparcial da população de onde veio.
  • A média é a expetativa matemática e pode nem estar presente numa amostra (em oposição à moda ou à mediana).

Equação:

$$ Média = \frac{Soma\ de\ todos\ os\ valores\ no\ conjunto\ de\ dados}{Número\ total\ de\ valores\ no\ conjunto\ de\ dados} $$ $$ Média = \frac{x_{1}+x_{2}+x_{3}+…+x_{n}}{n} $$

Exemplo:

Encontre a média do seguinte conjunto de dados: 1, 1, 1, 3, 5, 5, 7, 19.

Resposta: Existem 8 números neste conjunto de dados. Para calcular a média, some todos os números e divida por 8:

$$ Média = \frac{1+1+1+3+5+5+7+19}{8}=\frac{42}{8}=5,25 $$

Mediana

Definição:

Depois de organizar os dados do menor para o maior, a mediana é o valor do meio, separando a metade inferior da metade superior do conjunto de dados.

  • Serve como o ponto central de divisão dos dados
  • Não se presta a inferência estatística mais complexa
  • Se o número de valores na amostra for par, então a mediana é a média dos 2 números no meio.
  • Mais afetada por outliers do que a moda, mas menos do que a média
  • A mediana e a moda são as únicas medidas de tendência central que podem ser usadas para dados ordinais.

Equação:

Para encontrar a mediana, organize os valores do menor para o maior e, de seguida, use a seguinte equação para determinar qual a “posição” na ordem que representa a mediana:

$$ Mediana = \left \{ \frac{(n+1)}{2} \right \} $$

onde n = o número de valores no conjunto de dados.

Exemplo:

Encontre a mediana do seguinte conjunto de dados: 1, 5, 1, 19, 3, 1, 7, 5.

Resposta: Existem 8 números neste conjunto de dados. Para encontrar a mediana, primeiro organize os números por ordem: 1, 1, 1, 3, 5, 5, 7, 19. De seguida, determine qual a “posição” que representa a mediana. Para fazer isto, use a fórmula ( n + 1) / 2. Existem 8 números neste conjunto de dados, então n = 8. Portanto, a mediana será: (8 + 1) / 2 = 4,5. A mediana está entre o 4º e o 5º números, que são 3 e 5 (visualmente: 1, 1, 1, 3, 5 , 5, 7, 19). Portanto, a mediana neste conjunto de dados é 4.

Moda

Definição:

A moda é o valor que ocorre com mais frequência no conjunto de dados.

  • Para encontrar a moda, complete uma tabela de frequências para determinar qual o valor que ocorre com mais frequência no conjunto de dados (veja o exemplo abaixo).
  • Mais útil para análise qualitativa (não numérica) do que para análise estatística
  • Uma distribuição pode ter uma moda em > 1 valor.
  • A única tendência central que pode ser usada com dados nominais
  • Menos afetada por outliers
  • Não pode ser obtida por equações matemáticas

Exemplo:

Encontre a moda do seguinte conjunto de dados: 1, 5, 1, 19, 3, 1, 7, 5.

Resposta: Identifique o número que aparece com mais frequência. Isto pode ser feito completando uma tabela de frequências:

Tabela: Tabela de frequências
Ponto de dados Frequência (com que frequência o ponto de dados ocorre na amostra)
1 3
3 1
5 2
7 1
19 1
O número 1 é encontrado no conjunto de dados com mais frequência (3 vezes): 1, 5, 1, 19, 3, 1, 7, 5. A moda desta amostra é 1.

Mnemónica:

MOde is the value that is in the set MOst often (a moda é o valor que está no conjunto mais frequentemente).

Resumo

Tabela: Resumo da média, mediana e moda
Tipo Descrição Exemplo Resultado
Média Soma total de números dividida pelo número de valores (8 + 4 + 10 + 4 + 4 + 5 + 4 + 5 + 6) / 9 5,5
Mediana Valor médio que separa a metade superior da metade inferior 4, 4, 4, 4, 5 , 5, 6, 8, 10 5
Moda Número mais frequente 4, 4, 4, 4, 5, 5, 6, 8, 10 4

Medidas de Dispersão: Percentis e Desvios Padrão

A dispersão é o tamanho da distribuição de valores num conjunto de dados. Várias medidas de dispersão incluem um intervalo, quantis (por exemplo, quartis ou percentis) e desvios padrão.

Com base em quantis

  • Um quantil divide um conjunto de dados em proporções iguais e representa a proporção de dados nesse ponto ou abaixo dele; quantis especiais são:
    • Quartis: O conjunto de dados é dividido em 4 quartos.
    • Quintis: O conjunto de dados é dividido em 5 secções.
    • Percentis: O conjunto de dados é dividido em 100 secções.
  • Por exemplo:
    • O percentil 50 é a mediana.
    • O percentil 75 é o ponto abaixo do qual são encontrados 75% dos valores no seu conjunto de dados.
    • O percentil 25 é o ponto abaixo do qual são encontrados 25% dos valores em seu conjunto de dados.
  • O conjunto de dados entre os percentis 25 e 75 (o 1º e o 3º quartis) é conhecido como intervalo interquartil.
  • Os quantis podem ser aplicados a qualquer conjunto de dados contínuo.
  • Os usos incluem:
    • Clínico: curvas de crescimento
    • Investigação: gráficos de caixa (exibições gráficas de dados que demonstram o intervalo de resultados numéricos observados num estudo)
Medidas de tendência central e dispersão

Representação gráfica de quartis, percentis importantes e o intervalo interquartil

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Com base na média: desvios padrão

Definição: O desvio padrão (DP) é uma medida de quão longe cada valor observado está da média num conjunto de dados.

  • O desvio padrão é normalmente abreviado como DP (ou SD, pela sigla em inglês de standard deviation), ou pode ser representado pela letra grega minúscula sigma (σ).
  • Pode ser usado quando a distribuição dos dados é aproximadamente normal, representando uma curva de sino
  • Um DP baixo significa que os dados estão agrupados em redor da média.
  • Um DP elevado significa que os dados estão espalhados por um intervalo de valores mais alargado.
  • Usado para determinar se um determinado ponto de dados é “padrão/esperado” ou “incomum/inesperado”:
    • Quantos mais DP um ponto de dados se afasta da média, mais “incomum” é esse ponto de dados.
    • Pode ajudar a distinguir se um resultado está dentro da “variação esperada” ou é mais um outlier
  • Os desvios padrão podem ser apreciados visualmente como a área sob a curva (AUC, pela sigla em inglês):
    • 1σ = aproximadamente 34% da AUC = aproximadamente 68% dos resultados estão dentro de 1 DP da média
    • 2σ = aproximadamente 48% da AUC = aproximadamente 95% dos resultados estão dentro de 2 DP da média
    • 3σ = aproximadamente 49,8% da AUC = aproximadamente 99,7% dos resultados estão dentro de 3 DP da média
Demonstração das porcentagens associadas ao desvio padrão

Demonstração das poercentagens associadas a cada desvio padrão da média:
Quanto mais se “achatar a curva”, mais dispersos os dados estarão no conjunto e, portanto, maiores serão os desvios padrão calculados.

Imagem: “Demonstration of the percentages associated with standard deviation” por M. W. Toews. Licença: CC BY 2.5

Equação:

Matematicamente, o DP pode ser calculado usando a seguinte equação:

$$ \sigma = \sqrt{\frac{\sum (\chi _{i}-\mu )^{2}}{N}} $$

σ = desvio padrão da população
Ν = tamanho da população
χ = cada valor da população
µ = média da população

Cálculo (usando a equação):

  1. Encontre a que distância cada valor está da média e, de seguida, eleve esse valor ao quadrado. (Nota: Este é o quadrado da variância.)
  2. Encontre a soma desses valores elevados ao quadrado.
  3. Divida essa soma pelo número total de valores no conjunto de dados.
  4. Calcule a raiz quadrada desse número para encontrar o DP.

Distribuição de Dados

A distribuição de dados descreve como os seus dados se agrupam (ou não se agrupam). Os dados tendem a agrupar-se em determinados padrões, conhecidos como padrões de distribuição. Existe um padrão de distribuição “normal” e vários padrões não normais. São usados testes estatísticos diferentes para padrões de distribuição diferentes.

Distribuição de dados

As distribuições normais diferem de acordo com a sua média e variância, mas partilham as seguintes características:

  • Forma de “curva de sino” simétrica clássica:
    • Todas as medidas de tendência central são iguais (média = mediana = moda).
    • 50% dos valores são inferiores à média; 50% dos valores são superiores à média.
  • Segue o teorema do limite central, que funciona da seguinte forma:
    • Pegue numa amostra da população e calcule a média; de seguida, coloque essa amostra de volta na população, pegue numa nova amostra e calcule a média; faça isso repetidamente.
    • Algumas médias serão muito comuns, representando a verdadeira média da população. Outras médias serão muito incomuns; estas estão mais distantes da verdadeira média da população.
    • Se você representar graficamente a frequência de cada média obtida, gerará a forma clássica da curva normal.
  • Todas as distribuições normais têm a mesma forma porque têm a mesma distribuição de dados:
    • Cerca de 68% dos valores estão dentro de 1 DP da média.
    • 95% dos dados estão dentro de 2 DP da média.
    • 99,7% dos dados estão dentro de 3 DP da média.
  • A área sob a curva representa a probabilidade de obter um determinado valor, então a área total sob a curva = 1.
  • Coisas que tendem a seguir distribuições normais:
    • Alturas, pesos e PA das pessoas
    • Resultados em exames
    • Tamanhos de objetos produzidos por máquinas
Exemplo de distribuição normal

Exemplo de distribuição normal

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Distribuição não normal

Muitos processos seguem uma distribuição não normal, que se pode dever a variações naturais ou a erros nos dados.

Distribuições comuns:

  • Assimétrica:
    • Assimetria à direita (ou positivamente assimétrica):
      • A cauda estende-se para a direita.
      • Média > mediana > moda
    • Assimetria à esquerda (ou negativamente assimétrica):
      • A cauda estende-se para a esquerda.
      • Moda > mediana > média
    • Nota: A cauda pode atuar como outliers e afetar adversamente os testes estatísticos.
  • Bimodal:
    • Uma distribuição com 2 “picos” (representando as 2 modas nos dados)
    • Sugere 2 populações diferentes
  • Exponencial:
    • Existem poucos valores muito grandes e muitos outros valores pequenos.
    • Muitas vezes lida com a quantidade de tempo até que ocorra um evento específico, por exemplo:
      • Quantos meses dura uma bateria de carro até morrer
      • Decaimento radioativo
Diferentes distribuições

Tipos de distribuições não normais

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Razões pelas quais os dados podem ter uma distribuição não normal:

  • Muitos conjuntos de dados ajustam-se naturalmente a um modelo não normal (por exemplo, o crescimento de bactérias segue uma distribuição exponencial)
  • Os métodos de colheita de dados ou outros métodos podem ter erros.
  • Os outliers podem fazer com que os dados fiquem distorcidos/assimétricos.
  • Pode combinar-se múltiplas distribuições, dando a aparência de uma distribuição bimodal ou multimodal.
  • Dados insuficientes podem causar uma distribuição dispersa.

Vídeos recomendados

Referências

  1. Katz, D., et al. (2014). Describing variation in data. In Katz, D. et al. (Eds.), Jekel’s Epidemiology, Biostatistics, Preventive Medicine, and Public Health. Elsevier. Pp. 105–118.
  2. Weisberg H. F. (1992) Central tendency and variability. Sage University Paper Series on Quantitative Applications in the Social Sciences. SAGE Publications, Inc; 1st ed., p. 2.
  3. Johnson N. L., Rogers, C. A. (1951). The moment problem for unimodal distributions. Annals of Mathematical Statistics 22:433–439.

Aprende mais com a Lecturio:

Complementa o teu estudo da faculdade com o companheiro de estudo tudo-em-um da Lecturio, através de métodos de ensino baseados em evidência.

Estuda onde quiseres

A Lecturio Medical complementa o teu estudo através de métodos de ensino baseados em evidência, vídeos de palestras, perguntas e muito mais – tudo combinado num só lugar e fácil de usar.

User Reviews

Details