Medidas de dispersión

Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de un conjunto de datos, indicando la mayor o menor concentración de datos respecto a las medias de centralización.

Rango

El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el mínimo de un conjunto de elementos.

Rango intercuartílico

El rango intercuartílico (IQR) (o rango intercuartil) es una estimación estadística de la dispersión de una distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta medida se eliminan los valores extremadamente alejados. El rango intercuartílico es altamente recomendable cuando la medida de tendencia central utilizada es la mediana (ya que este estadístico es insensible a posibles irregularidades en los extremos).

En una distribución, encontramos la mitad de los datos, el 50 %, ubicados dentro del rango intercuartílico.

Conforme aumente el IQR, indicará que la dispersión será mayor.

Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para evaluar la dispersión de una distribución.

Varianza

La varianza (S²) mide la dispersión de los datos de una muestra respecto a la media, calculando la media de los cuadrados de las distancias de todos los datos.

Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas respecto a la media no se anulan entre si. Además, resaltan los valores alejados.

Siempre se cumple que la varianza es mayor o igual que cero (S_X² ≥ 0). La varianza es cero cuando todos los datos son el mismo (ejemplo: {1,1,1,1,1}).

Para datos agrupados, la fórmula de la varianza muestral será:

Si en vez de tratarse de una muestra, la varianza se refiere a la población, el denominador será N.

La fórmula de la varianza poblacional, de símbolo σ², es:

La razón de las dos expresiones de la varianza es que de una población se pueden extraer diversas muestras. No tiene por qué coincidir sus varianzas con la varianza de la población, ni siquiera las varianzas muestrales entre sí. Normalmente, en la varianza muestral, dividiendo por N se obtendrían varianzas ligeramente menores. Por eso, se corrige, dividiendo por N – 1. A esta varianza muestral corregida, S_X², se le denomina también cuasivarianza. Reduce el sesgo, (se le llama estadístico insesgado).

Cuanto mayor sea N menor será la diferencia entre el resultado de la fórmula S_X² y la de σ².

Un inconveniente de la varianza es que sus unidades son las unidades de los datos al cuadrado.

Desviación típica

La desviación típica es la medida de dispersión (S) asociada a la media. Mide el promedio de las desviaciones de los datos respecto a la media en las mismas unidades de los datos.

El cuadrado de la desviación típica es la Varianza.

Desviación media

La desviación media es la media de los valores absolutos de la diferencia de cada valor de la distribución con la media aritmética.

Su fórmula es:

Cuando los datos están agrupados en frecuencias:

Fórmula de la desviación media con datos agrupados en frecuencias

La desviación media es igual o menor que la desviación estándar:

No confundir la desviación media con la desviación absoluta de un dato respecto a la media:

Coeficiente de variación de Pearson

El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a la media, sin tener en cuenta las unidades en la que están.

El coeficiente de variación, en la mayoría de los casos, salvo en algunas distribuciones probabilísticas, toma valores entre 0 y 1. Si el coeficiente es próximo al 0, significa que existe poca variabilidad en los datos y es una muestra muy compacta. En cambio, si tienden a 1 es una muestra muy dispersa y la media pierde confiabilidad. De hecho, cuando el coeficiente de variación supera el 30% (0,3) se dice que la media es poco representativa, al ser los datos poco homogéneos.

Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para tenerlo en tanto por cien.