Aprendizaje Supervisado y No Supervisado

APRENDIZAJE SUPERVISADO
 Emplea un conjunto de datos conocidos (el denominado conjunto de datos de

entrenamiento) para realizar predicciones.
 El conjunto de datos de entrenamiento incluye datos de entrada y valores de
respuesta.
 A partir de él, el algoritmo de aprendizaje supervisado busca crear un modelo que
pueda realizar predicciones acerca de los valores de respuesta para un nuevo
conjunto de datos.
 Con frecuencia se utiliza un conjunto de datos de prueba para validar el modelo.
 Si se utilizan conjuntos de datos de entrenamiento de mayor tamaño, a menudo se
generan modelos cuya capacidad predictiva es mayor y que se pueden aplicar con
buenos resultados sobre nuevos conjuntos de datos.
Ventajas:
 Es posible dar un algoritmo general para su aplicación. Es decir, se trata de un
mecanismo muy bien definido, que no depende apenas del tipo de problema de
clasificación al que nos enfrentamos.
 Por otro lado, con un proceso de aprendizaje supervisado bien ejecutado podemos
tener cierta seguridad sobre lo que puede hacer el clasificador y lo que no puede
hacer. Durante el entrenamiento podemos medir el grado de acierto del
clasificador y podemos detener el entrenamiento cuando lo consideremos
aceptable.
Desventajas:
 Tenemos que el proceso de entrenamiento suele ser lento y no es infalible, se
depende bastante de la elección de los casos de entrenamiento para que el
clasificador sea capaz de generalizar lo suficiente.
 Otra desventaja importante reside en que es preciso un trabajo previo de
clasificación manual de los casos que se usarán para el entrenamiento, que pueden
ser muchos miles en un problema de cierta complejidad.
Debemos de utilizar el aprendizaje supervisado cuando:
Se tiene datos conocidos para la salida que está intentando predecir.
Técnicas que utiliza el Aprendizaje Supervisado:
 Técnicas de clasificación.
 Regresión para desarrollar modelos predictivos.
LAS TÉCNICAS DE CLASIFICACIÓN:
Para valores de respuesta categóricos, en los que los datos se pueden separar en “clases”
específicas
Ejemplo: Si un correo electrónico es legítimo o es spam, o bien si un tumor es
cancerígeno o benigno.
Los modelos de clasificación organizan los datos de entrada en categorías.
Las aplicaciones más habituales son:
 Las imágenes médicas.
 El reconocimiento de voz.
 La calificación crediticia.
Debemos de utilizar la técnica de clasificación cuando:
 Los datos se pueden etiquetar,
 Los datos se pueden categorizar
 Los datos se pueden dividir en grupos o clases concretos.
Ejemplo: Las aplicaciones para el reconocimiento de la escritura emplean la clasificación
para reconocer letras y números.
En el procesamiento de imágenes y la visión artificial, se emplean técnicas de
reconocimiento de patrones sin supervisión para la detección de objetos y la segmentación
de imágenes.
Algunos algoritmos habituales para realizar la clasificación son:

 Máquina de vectores de soporte (SVM): construye un modelo capaz de predecir
si un punto nuevo (cuya categoría desconocemos) pertenece a una categoría o a la
otra.
 Arboles de decisión: Permite que un individuo o una organización comparen
posibles acciones entre sí según sus costos, probabilidades y beneficios.
 K-vecino más cercano: Brusquedad de un conjunto de los k más cercanos al
patrón a clasificar.
 Clasificadores bayesianos (Naïve Bayes): Se basa en encontrar la hipótesis mas
probable.
 Análisis discriminante: Asignar nuevas observaciones a grupos ya conocidos.
 Regresión logística: Modelar como influyen la probabilidad de aparición de un
suceso la presencia o no de diversos factores.
LAS TÉCNICAS DE REGRESIÓN
Para valores de respuesta continua.
Por ejemplo, cambios de temperatura o fluctuaciones en la demanda energética.
 La predicción de la carga eléctrica.
 El trading algorítmico.
Debemos de utilizar la técnica de regresión cuando:
 Se trabaja con un intervalo de datos
 Si la naturaleza de la respuesta es un número real, como la temperatura o el tiempo
que tardará una pieza de equipamiento en fallar.
Algunos algoritmos habituales para realizar la regresión son:
 Modelo lineal: Es una técnica de modelización estadística que se emplea para
describir una variable de respuesta continua a modo de función de una o varias
variables predictivas.
 Modelo no lineal: Es una técnica estadística que ayuda a describir relaciones no
lineales en datos experimentales.
 Arboles de decisión: Permite que un individuo o una organización comparen
posibles acciones entre sí según sus costos, probabilidades y beneficios.
 Regresión por pasos: Selecciona las variables independientes (que se utilizan
para predecir) que deben de incluir en un modelo de regresión.
APRENDIZAJE NO SUPERVISADO
El aprendizaje no supervisado halla patrones ocultos o estructuras específicas en los datos.
Se emplea para inferir información a partir de conjuntos de datos que constan de datos de
entrada sin respuestas etiquetadas.
Ventajas
 Su capacidad de evolución lo hace ideal para poder adaptarse a nuevas situaciones
no previstas
 Se elimina la necesidad de entrenamiento previo
 Se elimina la necesidad de clasificación manual de casos de entrenamiento
 No hay algoritmo general, su implementación depende de cada problema
 No hay seguridad sobre el comportamiento del clasificador, evoluciona con cada
nuevo caso
Desventajas
 No hay un esquema general bien definido para guiar su implementación. En cada
problema tendrá una forma distinta y esto puede ser un inconveniente serio.
Técnica que utiliza el Aprendizaje No Supervisado:
 El clustering.
TECNICA DE CLUSTERING
Clustering consiste en organizar los datos en grupos cuyos miembros son parecidos de
alguna forma. Es decir, un clúster es un conjunto de datos que son similares de alguna
forma, y a su vez son “disimiles” a los ejemplos contenidos en otros clústers.
Se emplea para el análisis de datos exploratorio, con objeto de encontrar patrones o
agrupaciones ocultos en los datos.
 Análisis de secuencias genéticas.
 La investigación de mercados.
 Reconocimiento de objetos.
Ejemplo:
Si una empresa de telefonía móvil quiere optimizar las ubicaciones donde construir
antenas, puede recurrir al aprendizaje automático para calcular el número de clusters de
personas que utilizan sus antenas.
Un teléfono solo puede comunicarse con una antena en cada ocasión, de modo que el
equipo emplea algoritmos de clustering para diseñar la mejor ubicación de antenas a fin
de optimizar la recepción de la señal para grupos (o clusters) de clientes.
Algunos algoritmos habituales para realizar el clustering son:
 Agrupamiento jerárquico: crea una jerarquía multinivel de clusters mediante la
creación de un árbol de clústeres
 Agrupación k-Means: divide los datos en k grupos distintos en función de la
distancia al centro de un clúster
 Modelos gaussianos de mezclas: clusters de modelos como una mezcla de
componentes de densidad normal multivariante (modelo para varias variables de
respuesta)
 Mapas autoorganizados: usa redes neuronales que aprenden la topología y
distribución de los datos
 Modelos ocultos de Márkov: utiliza datos observados para recuperar la
secuencia de estados

Aprendizaje Supervisado y No Supervisado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizaje Supervisado y No Supervisado

Uploaded by

Copyright:

Available Formats

APRENDIZAJE SUPERVISADO

 Emplea un conjunto de datos conocidos (el denominado conjunto de datos de

Algunos algoritmos habituales para realizar la clasificación son:

You might also like