Grouped Summary Statistics
Lazy loaded imageGrouped Summary Statistics
Utilizando .groupby() en Python, se pueden agrupar datos por variables y calcular estadísticas como la media. Además, con .agg() se pueden obtener múltiples estadísticas y agrupar por varias variables y columnas para un análisis más completo.
Measures of Center
Lazy loaded imageMeasures of Center
Las medidas de tendencia central, como la media, mediana y moda, son fundamentales en estadística para describir conjuntos de datos. La media se ve afectada por outliers, mientras que la mediana es más robusta en datos sesgados. Se recomienda usar la mediana en esos casos. Además, se presentan ejemplos prácticos en Python para calcular estas medidas.
Pivot Tables
Lazy loaded imagePivot Tables
Las tablas dinámicas en Python permiten calcular estadísticas agrupadas utilizando .pivot_table(), que resume datos por columnas especificadas. Se pueden aplicar diferentes funciones estadísticas y rellenar valores faltantes con fill_value. Además, al activar margins, se obtiene la media de todos los valores en la tabla.
Measures of Spread
Lazy loaded imageMeasures of Spread
Las medidas de dispersión, como la varianza y la desviación estándar, describen cuán separados están los datos respecto a su media. La varianza se calcula como la media de las distancias al cuadrado de los datos a la media, mientras que la desviación estándar es la raíz cuadrada de la varianza. La desviación absoluta de la media toma el valor absoluto de las distancias a la media, penalizando cada distancia por igual. Ambas medidas son útiles, pero la desviación estándar es más comúnmente utilizada.