Measures of Center

type

status

slug

summary

★ Media ★

La media es como repartir el total de un grupo de valores en partes iguales .entre todos. Es el valor promedio de los datos.

★ Mediana ★

La mediana es el valor que se encuentra justo en el medio de los datos cuando están ordenados de menor a mayor. Divide el conjunto en dos partes iguales.

Impar: 3, 8, 10 → La mediana es 8 (está en el medio).

Par: 2, 4, 6, 8 → La mediana es 5.

★ Moda ★

La moda es el valor que más se repite en un conjunto de datos.

Tenemos un DataFrame de los hábitos de sueño de diferentes mamíferos.

Si lo visualizamos en histograma, se vería así:

Un histograma es un gráfico que utilizamos para representar la distribución de un conjunto de datos cuantitativos. Los histogramas son una manera increíble para resumir visualmente nuestros datos, pero con las medidas de tendencia central podríamos tener una idea más profunda.

Cuando analizamos un conjunto de datos, uno de los primeros pasos es resumirlos para extraer información relevante de una manera más sencilla y efectiva. Un buen truco es formular y responder preguntas clave que nos guíen en la exploración.

ღ★ღ ¿Cuánto tiempo suelen dormir los mamíferos? ღ★ღ

Para encontrar la media simplemente sumariamos todos los valores y lo dividimos por el número total de datos:

En python, podemos usar la función mean de numpy, donde le pasamos la variable de la que queremos conocer su valor:

Para encontrar la mediana podemos ordenar todos los datos y tomar el del medio:

El valor del medio seria el index 41 y con .iloc lo podríamos obtener:

En numpy podemos usar np.median para realizar los cálculos por nosotros:

La moda es el valor que mas se repite, podríamos usar value_counts() para ver el numero de ocurrencias de cada dato:

La moda de la variable vore nos indicaría la dieta del animal, con lo que sabríamos que los herbívoros duermen mas:

También podemos encontrar la moda usando la función mode del modulo statistics:

ღ★ღ Outliers ღ★ღ

Aquí tenemos todos los insectívoros de nuestro conjunto de datos:

Nos da un tiempo medio de sueño de 16,5 horas y un tiempo de 18,9 horas para la mediana:

Ahora podemos pensar en que se ha descubierto un nuevo y muy misterioso insectívoro que nunca duerme:

Si volvemos a calcular la media y la mediana, obtendremos resultados diferentes:

Nuestra media disminuyo en mas de 3 horas, mientras que la mediana cambio en menos de una hora:

💡

Esto se debe a que la media es mucho más sensible a los outliers que la mediana.

ღ★ღ ¿Qué medida usar? ღ★ღ

Podemos observar que la media y la mediana se encuentran bastante cerca:

Si tuviéramos datos sesgados y no simétricos donde la media y la mediana se encuentran lejos, suele ser mejor utilizar la mediana:

★ Skew ★

El skew (sesgo) es una medida que nos ayuda a describir la asimetría de una distribución de un conjunto de datos, es que tan desbalanceada se encuentra una distribución respecto a su media.

Skew positivo (Sesgo a la derecha):

La cola derecha de la distribución es más larga o pesada.

La mayoría de los datos se concentran en el lado izquierdo (valores bajos) y hay algunos valores extremos altos que arrastran la cola hacia la derecha.

Ejemplo: Los ingresos de una población, donde la mayoría gana poco y solo unos pocos ganan muchísimo.

Skew negativo (Sesgo a la izquierda):

La cola izquierda de la distribución es más larga o pesada.

La mayoría de los datos se concentran en el lado derecho (valores altos) y hay algunos valores extremos bajos que arrastran la cola hacia la izquierda.

Ejemplo: Las notas de un examen fácil, donde la mayoría obtiene calificaciones altas pero algunos pocos tienen notas bajas.

Cuando los datos están sesgados, la media y la mediana son diferentes. La media se desplaza en la dirección de su sesgo, por lo que es inferior a la mediana en los datos sesgados hacia la izquierda y mayor que la mediana en los datos sesgados hacia la derecha.

💡

Es mejor utilizar la mediana cuando tenemos datos sesgados, ya que se ve menos afectada por los valores atípicos (outliers).

ღ★ღ Ejercicio ღ★ღ

Tenemos un DataSet llamado food_consumption que contiene el número de kilogramos de alimentos consumidos por persona por año en cada país y categoría de alimento (consumption), así como su huella de carbono (co2_emissions), medida en kilogramos de dióxido de carbono (CO2).