Lazy loaded image
Python y Librerías para Ciencias de Datos
Lazy loaded imageMeasures of Spread
Palabras 371Tiempo de lectura 1 min
Jan 9, 2025
Jan 10, 2025
type
status
slug
summary
tags
category
icon
password
Las medidas de dispersión son exactamente lo que parece, nos ayuda a describir que tan separados o próximos están los datos entre si
notion image
 

★Varianza★

La varianza es una medida estadística que nos indica qué tan dispersos están los datos con respecto a su valor promedio (la media). Es decir, nos muestra cuán diferentes son los valores entre sí.

Desviación Estándar

La desviación estándar es una medida que nos indica, en promedio, qué tan lejos se encuentran los datos de su valor central (la media).
 
 

★ღ Calculando la Varianza ★ღ

Comenzamos calculando la distancia entre cada punto y la media, así obtenemos un numero para cada dato:
notion image
Luego lo elevamos al cuadrado:
notion image
Y procedemos a sumarlos todos:
notion image
Finalmente, dividimos la suma de las distancias al cuadrado por el numero de puntos de los datos menos 1, lo que nos da nuestra varianza:
notion image
💡
Cuanto mayor sea la varianza, más dispersos están los datos. En el caso de el DataFrame del sueño de animalitos, tenemos 19,8 horas al cuadrado.

np.var()

Con numpy solo necesitamos una línea de código para encontrar la varianza:
notion image
Si no especificáramos que ddof es 1, utilizaría la formula de población y no la de muestra:
notion image

★ღ Desviación Estándar ★ღ

La desviación estándar no es más que la raíz cuadrada de la varianza, podemos usar np.sqrt para encontrarla:
notion image
O también existe una función en numpy para encontrarla:
notion image
💡
Es más fácil entender la desviación estándar, al no estar elevada al cuadrado. Es mucho más sencillo entender 4 horas y media a 19,8 horas.

★ღ Desviación Absoluta de la Media ★ღ

La desviación absoluta media toma el valor absoluto de las distancias de la media y luego toma la media de esas diferencias, aunque suena parecido a la desviación estándar, no son lo mismo.
notion image
  • La desviación estándar eleva al cuadrado las distancias, por lo que las distancias más largas se penalizan más.
  • La desviación absoluta de la media penaliza cada distancia por igual.
💡
Ninguna medida es mejor o peor que la otra, pero la desviación estándar es más común.
 
上一篇
Pivot Tables
下一篇
Introducción a Pandas