Introducción al Aprendizaje Supervisado

type

status

slug

summary

✰ღ★ღ ¿Qué es el Machine Learning? ღ★ღ✰

El machine learning es el proceso mediante el cual los computadores tienen la habilidad de tomar decisiones basadas en datos. Si por ejemplo quisiéramos predecir si un correo electrónico es spam o no lo es, en función del contenido y remitente, podemos usar el machine learning para predecirlo.

✰ღ★ღ Aprendizaje Supervisado ღ★ღ✰

El aprendizaje supervisado es un tipo de aprendizaje automático donde los valores a predecir ya son conocidos, también usamos características para predecir el valor de una variable objetivo. Podemos predecir la posición de un jugador de baloncesto en función de sus puntos por partido. En el aprendizaje supervisado, nos encontramos con x (input) e y (output).

Es decir, se entrena un modelo con ejemplos de entrada y salida, y luego se utiliza para predecir la salida de nuevas entradas. Hay varios ejemplos de aprendizaje supervisado.

ღ★ღ Tipos de Aprendizaje Supervisado ღ★ღ

ღ★ღ Clasificación ღ★ღ

Se utiliza para predecir la categoría de una observación. Por ejemplo, podríamos predecir si una transacción bancaria es fraudulenta o no. Como tenemos las dos opciones fraudulenta y no fraudulenta, es una clasificación binaria.

ღ★ღ Regresión ღ★ღ

La utilizamos para predecir valores continuos. Por ejemplo, podemos usar funciones como el número de habitaciones y el tamaño de una propiedad para predecir el precio de la propiedad.

ღ★ღ Convenciones de nombres ღ★ღ

ღ★ღ Datos de Entrenamiento

Lo utilizamos para entrenar el modelo y así poder ajustar los parámetros del modelo con el fin de que aprenda las relaciones entre características (features) y las etiquetas (labels). Si por ejemplo estamos construyendo un modelo para predecir el precio de casas. Nuestro conjunto de datos de entrenamiento podría consistir en 80% de los datos totales, incluyendo características como el tamaño de la casa, el número de habitaciones, la ubicación, etc., y la etiqueta correspondiente sería el precio de la casa.

ღ★ღ Datos de Prueba ღ★ღ

Los utilizamos para evaluar el rendimiento del modelo entrenado. No se utilizan durante el entrenamiento del modelo, lo que permite medir cómo generaliza el modelo a datos no vistos. Ejemplo: El 20% restante de los datos totales. Usamos este conjunto para verificar la precisión de el modelo en predecir precios de casas que no estaban en el conjunto de datos de entrenamiento.

ღ★ღ Características (Features) ღ★ღ

Son los atributos o propiedades de los datos que se utilizan como entradas para el modelo. Si por ejemplo, tenemos el caso de predicción de los precios de casas, las características podrían incluir:

Tamaño de la casa en metros cuadrados.

Número de habitaciones.

Ubicación (puede estar codificada de alguna manera).

Edad de la casa.

Proximidad a escuelas, parques, etc.

ღ★ღ Etiquetas (Labels) ღ★ღ

Son las salidas o valores que el modelo intenta predecir, como el precio de la casa.

ღ★ღ Sobreajuste (Overfitting) ღ★ღ

Ocurre cuando el modelo se ajusta demasiado bien a los datos de entrenamiento, capturando incluso el ruido y las peculiaridades específicas de esos datos, lo que resulta en un mal rendimiento en datos no vistos (datos de prueba). Esto terminaría en que el modelo tiene un alto rendimiento en el conjunto de entrenamiento, pero un bajo rendimiento en el conjunto de prueba.

ღ★ღ Subajuste (Underfitting) ღ★ღ

Ocurre cuando el modelo es demasiado simple para capturar las relaciones subyacentes en los datos, resultando en un mal rendimiento tanto en el conjunto de entrenamiento como en el conjunto de prueba. Quiere decir que el modelo tiene un bajo rendimiento en ambos conjuntos de datos.