Diagrama de caja

Diagrama de caja

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (14 votos, promedio: 3,57 de 5)
Cargando...
ANUNCIOS

El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone de:

  • Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2)
  • Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo.
  • Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos.
Dibujo del diagrama de caja.

Los diagramas de caja son muy útiles para comparar una variable en diferentes grupos.

Construcción del diagrama de caja

Para construir el diagrama de caja, debemos seguir los siguientes pasos:

  1. Ordenar los datos.
  2. Calcular los tres cuartiles (Q1, Q2 y Q3). Después, dibujamos el rectángulo (caja) delimitado por el primer y tercer cuartil, dibujando entre los dos cuartiles una línea para indicar donde está la mediana (segundo cuartil).
  3. Calcular el rango intercuartílico, que es el tercer cuartil menos el primero.
    Fórmula del rango intercuartílico.
  4. Se calculan los límites admisibles inferior y superior (LI y LS) para identificar los valores extremos.
    Fórmula de los límites inferior y superior de los valores extremos del diagrama de caja.

    Los límites marcarán los datos atípicos de la variable. Todos aquellos puntos que sean menores que LI (x < LI) o mayores que LS (x > LS) son valores extremos. Es decir, son todos aquellos valores que no están en el intervalo [LI,LS].

  5. El mínimo es el menor valor del conjunto que sea mayor o igual que LI. El máximo es el mayor valor del conjunto que es menor o igual que LS.

    Dibujamos los dos brazos. El primero va desde el primer cuartil hasta el mínimo. El segundo, desde el tercer cuartil hasta el máximo.

  6. Se dibujan los valores extremos, representados por puntos o círculos pequeños.

Ejemplo

ANUNCIOS



En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura para ver su evolución. Un muy buen método para ver cómo han crecido y comprobar si existen valores extremos es el diagrama de caja. Mediante esta representación gráfica podemos ver si hay árboles que han crecido más o menos de lo habitual.

Muestra de la altura de 20 árboles para el dibujo del diagrama de caja
  1. Se ordenan los datos
  2. Se calculan los tres cuartiles.
    Muestra ordenada para calcular los cuartiles de la altura de 20 árboles para el dibujo del diagrama de caja

    A partir del conjunto ordenado calculamos los cuartiles:

    Cálculo del primer cuartil en el ejemplo de la altura de 20 árboles en el diagrama de caja
    Cálculo del segundo cuartil en el ejemplo de la altura de 20 árboles en el diagrama de caja
    Cálculo del tercer cuartil en el ejemplo de la altura de 20 árboles en el diagrama de caja

    Los tres cuartiles son Q1=4,20, Q2=5,50 y Q3=6,42.

  3. Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los valores extremos.

    El rango intercuartílico es:

    Cálculo del rango intercuartílico en el ejemplo de la altura de 20 árboles en el diagrama de caja

    A partir del rango calculamos los límites:

    Cálculo del límite inferior en el ejemplo de la altura de 20 árboles en el diagrama de caja
    Cálculo del límite superior en el ejemplo de la altura de 20 árboles en el diagrama de caja

    Los valores extremos serán todos los árboles que midan menos de 0,96m o más de 9,59m. Tenemos dos árboles, uno de 0,94m y otro de 10,14m que serán valores extremos. Estos valores los representamos con puntos en el diagrama de caja.

  4. El mínimo es el menor elemento del conjunto que sea mayor o igual al límite inferior. El máximo es el mayor elemento que sea menor o igual al límite superior. En este caso, el mínimo es 2,98 y el máximo 7,13.
  5. Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde el tercer cuartil hasta el máximo (desde el 6,42 hasta el 7,13).
  6. Los dos puntos extremos se representan mediante un punto o círculo.

El diagrama de caja del conjunto de la altura de estos veinte árboles es:

Dibujo del diagrama de caja del ejemplo de la altura de 20 árboles.

Esta representación proporciona una visión rápida de la distribución, apreciándose una asimetría al no estar Q2 en el centro, en este caso porque hay árboles más altos que la mediana cuya altura está más separada de la mediana que los que tienen una altura inferior a ella, que estan más agrupados. También se puede apreciar la existencia de valores extremos.


AUTOR: Bernat Requena Serra


 SI TE HA GUSTADO, ¡COMPÁRTELO!

 QUIZÁS TAMBIÉN TE INTERESE...

23 comentarios en “Diagrama de caja”

  1. Hola una pregunta si en un conjunto de datos el Ls de datos atipico es mayor a los datos (por ejemplo calculo de Ls=160 y y tus datos el mas alto es de 147 se pone al 147 como el limite del bracito?

    1. Consulta el contenido de esta página:
      Los límites marcarán los datos atípicos de la variable. Todos aquellos puntos que sean menores que LI (x < LI) o mayores que LS (x > LS) son valores extremos. Es decir, son todos aquellos valores que no están en el intervalo [LI,LS].
      El máximo es el mayor valor del conjunto que es menor o igual que LS.
      Mira el ejemplo

  2. Creo que al ser una muestra de número par no es necesario que halles los quartiles con la fórmula N+1 ,simplemente es N . Creo que deberías de aclarar eso ya que confundes un poco. Pero por lo demás gracias .

    1. Consulta la página máximos y mínimos de una función de UNIVERSO FÓRMULAS. Y también su página Derivada en un máximo y en un mínimo.
      Verás que puede haber un mínimo relativo mayor que un máximo relativo. Pero nunca mayor que, como dices, «su valor máximo», que sería un máximo absoluto.

    1. El diagrama de caja se basa en los cuartiles de una serie de datos ordenados. Los valores no tienen porqué no ser negativos. De hecho, en una distribución tipificada, el primer cuartil es negativo. Mucho más, en este caso, el extremo izquierdo.

    2. Hola, cuando se pasa de los limites tenes los llamados «valores atípicos»; los cuales los podes determinar por los limites o bien por la regla de Tuckey. Éxitos!

  3. Universo Formulas Respuestas

    «Diagrama de caja» es la denominación. Pero puede haber un «diagrama de cajas» en donde aparezcan varios «diagramas de caja», uno por cada categoría de variable.
    Gracias por el interés.

    1. Claro que si. De hecho , en este ejemplo, podríamos tener otras dos diagramas de caja, al lado de este, con los datos de otros árboles en otra parcela. Lo verdaderamente interesante es poder comparar el comportamiento de los datos, entre todas las parcelas.

  4. Hola. Muchas gracias por el ejemplo, pero tengo una duda. Al ser 20 un número de datos par, la mediana y el Q2 no sería el X10 = 5,35?

  5. para el calculo de limite superior e inferior estan mal calculados, si haces laoperacion no te da lo que pones de resultado… mepodrias explicar el porq le pones 0.96 y en el otro 9.59

    1. En el limite inferior sale sale 0.87 y en el limite superior 9.75, también tengo la misma duda

    1. Sirve para eliminar los valores extremos no admisibles.
      Limita por arriba y por abajo en ±50% del rango intercuartílico (RIQ o IQR) a partir del cuartil correspondiente.

    2. Hola, el 1,5 lo determinas por la regla de Tuckey. Ya que los valores que tienes fueras de esos limites, son los llamados «valores atípicos», que son los valores mas alejados de tu media aritmética. Por definición, podría determinarte que son valores que son representativos o bien, podrían ser parte de otra fracción de la muestra. Éxitos!

    3. Efectivamente Luu, el diagrama de caja se lo debemos a John Tukey.
      El cálculo de los límites está desarrollado en esta misma página de UNIVERSO FÓRMULAS

  6. Saludos,

    El valor máximo incluye el valor atípico. Al igual el valor mínimo. Es decir, en el último gráfico el máximo es 10.14 y el mínimo es 0.94.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio