Domina Conceptos Médicos

Estudia para la escuela de medicina y tus examenes con Lecturio.

Medidas de Tendencia Central y Dispersión

La tendencia central es una medida de los valores de una muestra que identifica los diferentes puntos centrales de los datos, a menudo denominados coloquialmente “promedios”. Las medidas de tendencia central más comunes son la media, la mediana y la moda. La identificación del valor central permite comparar otros valores con él, mostrando la dispersión o agrupación de la muestra, lo que se conoce como dispersión o distribución. Estas medidas de dispersión se clasifican en 2 grupos: medidas de dispersión basadas en los percentiles y medidas de dispersión basadas en la media (lo que se conoce comúnmente como desviaciones estándar). El análisis de la distribución de los datos determina si los datos tienen una tendencia central fuerte o débil en función de su dispersión. Cuando la distribución de los datos es simétrica y la media = la mediana = la moda, se dice que los datos tienen una distribución normal. También son posibles otros tipos de distribuciones, que se conocen como distribuciones no normales.

Última actualización: Jul 28, 2022

Responsabilidad editorial: Stanley Oiseth, Lindsay Jones, Evelin Maza

Descripción General

Definición

Las medidas de tendencia central son valores únicos que intentan describir un conjunto de datos identificando el valor central o “típico” de ese conjunto de datos.

  • Descrito coloquialmente como “promedios”
  • Las medidas más comunes:
    • Media
    • Mediana
    • Moda

Distribución de datos y medidas de dispersión

  • En cualquier conjunto de datos, los datos se distribuyen en un rango determinado.
  • A partir de esta distribución, se puede determinar lo cerca que están la mayoría de los datos de la media o lo dispersos que están los datos; esta dispersión se puede medir de varias maneras, entre ellas:
    • Percentiles
    • Desviaciones estándar
  • Normalmente, ciertos datos son más comunes en el conjunto de datos (los que están cerca de la media), mientras que otros son raros (i.e., los valores atípicos).
  • La distribución de estos datos puede clasificarse como:
    • Normal
    • No normal
  • Las distribuciones normales tienen ciertas características que pueden ayudar a los médicos a determinar el grado de “anormalidad” de un determinado resultado: por ejemplo, ¿un resultado de laboratorio concreto está dentro del rango de lo “normal” o el hallazgo sugiere un estado de enfermedad?

Media, Mediana y Moda

Media

Definición:

La media es la suma de todas las mediciones de un conjunto de datos dividida por el número de mediciones de ese conjunto.

  • La media aritmética de todos los valores observados
  • Puede incorporarse a análisis estadísticos más complejos
  • La más afectada por los valores atípicos
  • La media de una muestra aleatoria es un estimador sin sesgos de la población de la que procede.
  • La media es un resultado matemático y puede incluso no estar presente en una muestra (a diferencia de la moda o la mediana).

Ecuación:

$$ Media = \frac{Suma\ de\ todos\ los\ valores\ en\ el\ conjunto}{Número\ total\ de\ valores\ en\ el\ conjunto} $$ $$ Media = \frac{x_{1}+x_{2}+x_{3}+…+x_{n}}{n} $$

Ejemplo:

Encuentra la media del siguiente conjunto de datos: 1, 1, 1, 3, 5, 5, 7, 19.

Respuesta: hay 8 números en este conjunto de datos. Para calcular la media, sume todos los números y divídalos entre 8:

$$ Media = \frac{1+1+1+3+5+5+7+19}{8}=\frac{42}{8}=5.25 $$

Mediana

Definición:

Tras ordenar los datos de menor a mayor, la mediana es el valor medio, que separa la mitad inferior de la superior del conjunto de datos.

  • Sirve como punto central de división de los datos
  • No se presta a una inferencia estadística más compleja
  • Si el número de valores de la muestra es par, la mediana es la media de los 2 números del medio.
  • Más afectada por los valores atípicos que la moda, pero menos que la media
  • La mediana y la moda son las únicas medidas de tendencia central que pueden utilizarse para los datos ordinales.

Ecuación:

Para encontrar la mediana, ordene los valores de menor a mayor, y luego utiliza la siguiente ecuación para determinar qué “posición” en el orden representa la mediana:

$$ Median = \left \{ \frac{(n+1)}{2} \right \} $$

donde n = el número de valores del conjunto de datos.

Ejemplo:

Encuentra la mediana del siguiente conjunto de datos: 1, 5, 1, 19, 3, 1, 7, 5.

Respuesta: hay 8 números en este conjunto de datos. Para hallar la mediana, primero hay que ordenar los números: 1, 1, 1, 3, 5, 5, 7, 19. A continuación, determine qué “posición” representa la mediana. Para ello, utilice la fórmula (n + 1) / 2. Hay 8 números en este conjunto de datos, por lo que n = 8. Por lo tanto, la mediana será (8 + 1) / 2 = 4,5. La mediana está entre los números 4to y 5to, que son 3 y 5 (visualmente: 1, 1, 1, 3, 5, 5, 7, 19). Así que la mediana en este conjunto de datos es 4.

Moda

Definición:

La moda es el valor que aparece con mayor frecuencia en el conjunto de datos.

  • Para encontrar la moda, establezca una tabla de frecuencias para determinar qué valor ocurre con más frecuencia en el conjunto de datos (véase el ejemplo siguiente).
  • Más útil para el análisis cualitativo (no numérico) que para el análisis estadístico
  • Una distribución puede tener una moda en un valor > 1.
  • La única tendencia central que puede utilizarse con datos nominales
  • Menos afectada por los valores atípicos
  • No se puede obtener mediante ecuaciones matemáticas

Ejemplo:

Encuentra la moda del siguiente conjunto de datos: 1, 5, 1, 19, 3, 1, 7, 5.

Respuesta: identifique el número que aparece más veces. Para ello, se puede establecer una tabla de frecuencias:

Tabla: Tabla de frecuencias
Datos Frecuencia (la frecuencia con la que se produce el punto de datos en la muestra)
1 3
3 1
5 2
7 1
19 1
El número 1 es el que se encuentra con más frecuencia en el conjunto de datos (3 veces): 1, 5, 1, 19, 3, 1, 7, 5. La moda de esta muestra es 1.

Resumen

Tabla: Resumen de la media, mediana y moda
Tipo Descripción Ejemplo Resultado
Media Suma total de los valores dividida por el número de valores (8 + 4 + 10 + 4 + 4 + 5 + 4 + 5 + 6) / 9 5.5
Mediana Valor medio que separa la mitad superior de la inferior 4, 4, 4, 4, 5, 5, 6, 8, 10 5
Moda Número más frecuente 4, 4, 4, 4, 5, 5, 6, 8, 10 4

Medidas de Dispersión: Percentiles y Desviaciones Estándar

La dispersión es la amplitud de la distribución de los valores en un conjunto de datos. Varias medidas de dispersión incluyen un rango, cuantiles (e.g., cuartiles o percentiles) y desviaciones estándar.

Basado en los cuantiles

  • Un cuantil divide un conjunto de datos en proporciones iguales y representa la proporción de datos en ese punto o por debajo de él; los cuantiles especiales son:
    • Cuartiles: el conjunto de datos se divide en 4 cuartos.
    • Quintiles: el conjunto de datos se divide en 5 secciones.
    • Percentiles: el conjunto de datos se divide en 100 secciones.
  • Por ejemplo:
    • El percentil 50 es la mediana.
    • El percentil 75 es el punto por debajo del cual se encuentra el 75% de los valores del conjunto de datos.
    • El percentil 25 es el punto por debajo del cual se encuentra el 25% de los valores del conjunto de datos.
  • El conjunto de datos comprendido entre los percentiles 25 y 75 (los cuartiles 1 y 3) se conoce como rango intercuartil.
  • Los cuantiles pueden aplicarse a cualquier conjunto de datos continuos.
  • Los usos incluyen:
    • Clínica: curvas de crecimiento
    • Investigación: diagramas de caja (representaciones gráficas de datos que demuestran el rango de resultados numéricos observados en un estudio)
Medidas de tendencia central y dispersión

Representación gráfica de los cuartiles, los percentiles importantes y el rango intercuartílico

Imagen por Lecturio. Licencia: CC BY-NC-SA 4.0

Basado en la media: desviaciones estándar

Definición: la desviación estándar es una medida de la distancia que hay entre cada valor observado y la media en un conjunto de datos.

  • La desviación estándar suele abreviarse como DE, o puede representarse con la letra griega minúscula sigma (σ).
  • Puede utilizarse cuando la distribución de los datos es aproximadamente normal, representando una curva de campana
  • Una DE baja significa que los datos están muy agrupados en torno a la media.
  • Una DE alta significa que los datos están repartidos en un rango más amplio de valores.
  • Se utiliza para determinar si un dato concreto es “estándar/esperado” o “inusual/inesperado”:
    • Cuantas más desviaciones estándar haya entre un dato y la media, más “inusual” será este dato.
    • Puede ayudar a distinguir si un resultado está dentro de la “variación esperada” o es más bien un valor atípico
  • Las desviaciones estándar se pueden apreciar visualmente como el área bajo la curva:
    • 1σ = aproximadamente el 34% del área bajo la curva = aproximadamente el 68% de los resultados están dentro de 1 DE de la media
    • 2σ = aproximadamente el 48% del área bajo la curva = aproximadamente el 95% de los resultados están dentro de 2 DE de la media
    • 3σ = aproximadamente el 49,8% del área bajo la curva = aproximadamente el 99,7% de los resultados se encuentran dentro de los 3 DE de la media
Demostración de los porcentajes asociados a la desviación estándar

Demostración de los porcentajes asociados a cada desviación estándar de la media:
Cuanto más “plana” sea la campana, más dispersos estarán los datos en el conjunto y, por tanto, mayores serán las desviaciones estándar calculadas.

Imagen: “Demonstration of the percentages associated with standard deviation” por M. W. Toews. Licencia: CC BY 2.5

Ecuación:

Matemáticamente, la DE puede calcularse mediante la siguiente ecuación:

$$ \sigma = \sqrt{\frac{\sum (\chi _{i}-\mu )^{2}}{N}} $$

σ = desviación estándar de la población
Ν = el tamaño de la población
χᵢ = cada valor de la población
μ = la media de la población

Cálculos (utilizando la ecuación):

  1. Encuentre a qué distancia está cada valor de la media, y luego eleve al cuadrado este valor. (Nota: este es el cuadrado de la varianza).
  2. Encuentre la suma de estos valores al cuadrado.
  3. Divida esta suma por el número total de valores del conjunto de datos.
  4. Saque la raíz cuadrada de ese número para encontrar la DE.

Distribución de Datos

La distribución de los datos describe cómo se agrupan (o no se agrupan) los datos. Los datos tienden a agruparse en determinados patrones, conocidos como patrones de distribución. Hay un patrón de distribución “normal” y hay múltiples patrones no normales. Se utilizan diferentes pruebas estadísticas para diferentes patrones de distribución.

Distribución de datos

Las distribuciones normales difieren según su media y varianza, pero comparten las siguientes características:

  • La clásica forma simétrica de “curva de campana”:
    • Todas las medidas de tendencia central son iguales (media = mediana = moda).
    • El 50% de los valores son menores que la media; el 50% de los valores son mayores que la media.
  • Sigue el teorema del límite central, que funciona como sigue:
    • Tome una muestra de la población y calcule la media; luego vuelva a poner esa muestra en la población, tome una nueva muestra y calcule la media; haga esto una y otra vez.
    • Algunas medias serán muy comunes, representando la verdadera media de la población. Otras medias serán muy poco comunes; estas están más alejadas de la verdadera media de la población.
    • Si se grafica la frecuencia de cada media que se obtiene, se generará la clásica forma de campana.
  • Todas las distribuciones normales tienen la misma forma porque tienen la misma distribución de datos:
    • Alrededor del 68% de los valores se encuentran dentro de 1 DE de la media.
    • El 95% de los datos se sitúan dentro de 2 DE de la media.
    • El 99,7% de los datos se sitúan dentro de un margen de 3 DE de la media.
  • El área bajo la curva representa la probabilidad de obtener un determinado valor, por lo que el área total bajo la curva = 1.
  • Datos que tienden a seguir distribuciones normales:
    • La altura, el peso y la presión arterial de las personas
    • Resultados de exámenes
    • Tamaños de los objetos producidos por las máquinas
Ejemplo de distribución normal

Ejemplo de distribución normal

Imagen por Lecturio. Licencia: CC BY-NC-SA 4.0

Distribución no normal

Muchos procesos siguen una distribución no normal, que puede deberse a las variaciones naturales o a los errores de los datos.

Distribuciones comunes:

  • Sesgada:
    • Sesgo a la derecha (o sesgo positivo):
      • La cola se extiende hacia la derecha.
      • Media > mediana > moda
    • Sesgo a la izquierda (o sesgo negativo):
      • La cola se extiende hacia la izquierda.
      • Moda > mediana > media
    • Nota: las colas pueden actuar como valores atípicos y afectar negativamente a las pruebas estadísticas.
  • Bimodal:
    • Una distribución con 2 “picos” (que representan las 2 modas de los datos)
    • Sugiere 2 poblaciones diferentes
  • Exponencial:
    • Hay pocos valores muy grandes y muchos más pequeños.
    • A menudo se trata de la cantidad de tiempo hasta que se produce un evento específico, por ejemplo:
      • Cuántos meses dura la batería de un carro hasta que se agota
      • Descomposición radiactiva
Diferentes distribuciones

Tipos de distribuciones no normales

Imagen por Lecturio. Licencia: CC BY-NC-SA 4.0

Razones por las que los datos pueden tener una distribución no normal:

  • Muchos conjuntos de datos se ajustan naturalmente a un modelo no normal (e.g., el crecimiento de las bacterias sigue una distribución exponencial)
  • Los métodos de recopilación de datos u otros métodos pueden ser defectuosos.
  • Los valores atípicos pueden hacer que los datos estén sesgados.
  • Se pueden combinar varias distribuciones, dando la apariencia de una distribución bimodal o multimodal.
  • Los datos insuficientes pueden provocar una distribución dispersa.

Videos relevantes

Referencias

  1. Katz, D., et al. (2014). Describing variation in data. In Katz, D. et al. (Eds.), Jekel’s Epidemiology, Biostatistics, Preventive Medicine, and Public Health. Elsevier. Pp. 105–118.
  2. Weisberg H. F. (1992) Central tendency and variability. Sage University Paper Series on Quantitative Applications in the Social Sciences. SAGE Publications, Inc; 1st ed., p. 2.
  3. Johnson N. L., Rogers, C. A. (1951). The moment problem for unimodal distributions. Annals of Mathematical Statistics 22:433–439.

¡Crea tu cuenta gratis o inicia una sesión para seguir leyendo!

Regístrate ahora y obtén acceso gratuito a Lecturio con páginas de concepto, videos médicos y cuestionarios para tu educación médica.

User Reviews

Details