Emplea un conjunto de datos conocidos (el denominado conjunto de datos de
entrenamiento) para realizar predicciones. El conjunto de datos de entrenamiento incluye datos de entrada y valores de respuesta. A partir de él, el algoritmo de aprendizaje supervisado busca crear un modelo que pueda realizar predicciones acerca de los valores de respuesta para un nuevo conjunto de datos. Con frecuencia se utiliza un conjunto de datos de prueba para validar el modelo. Si se utilizan conjuntos de datos de entrenamiento de mayor tamaño, a menudo se generan modelos cuya capacidad predictiva es mayor y que se pueden aplicar con buenos resultados sobre nuevos conjuntos de datos. Ventajas: Es posible dar un algoritmo general para su aplicación. Es decir, se trata de un mecanismo muy bien definido, que no depende apenas del tipo de problema de clasificación al que nos enfrentamos. Por otro lado, con un proceso de aprendizaje supervisado bien ejecutado podemos tener cierta seguridad sobre lo que puede hacer el clasificador y lo que no puede hacer. Durante el entrenamiento podemos medir el grado de acierto del clasificador y podemos detener el entrenamiento cuando lo consideremos aceptable. Desventajas: Tenemos que el proceso de entrenamiento suele ser lento y no es infalible, se depende bastante de la elección de los casos de entrenamiento para que el clasificador sea capaz de generalizar lo suficiente. Otra desventaja importante reside en que es preciso un trabajo previo de clasificación manual de los casos que se usarán para el entrenamiento, que pueden ser muchos miles en un problema de cierta complejidad. Debemos de utilizar el aprendizaje supervisado cuando: Se tiene datos conocidos para la salida que está intentando predecir. Técnicas que utiliza el Aprendizaje Supervisado: Técnicas de clasificación. Regresión para desarrollar modelos predictivos. LAS TÉCNICAS DE CLASIFICACIÓN: Para valores de respuesta categóricos, en los que los datos se pueden separar en “clases” específicas Ejemplo: Si un correo electrónico es legítimo o es spam, o bien si un tumor es cancerígeno o benigno. Los modelos de clasificación organizan los datos de entrada en categorías. Las aplicaciones más habituales son: Las imágenes médicas. El reconocimiento de voz. La calificación crediticia. Debemos de utilizar la técnica de clasificación cuando: Los datos se pueden etiquetar, Los datos se pueden categorizar Los datos se pueden dividir en grupos o clases concretos. Ejemplo: Las aplicaciones para el reconocimiento de la escritura emplean la clasificación para reconocer letras y números. En el procesamiento de imágenes y la visión artificial, se emplean técnicas de reconocimiento de patrones sin supervisión para la detección de objetos y la segmentación de imágenes.
Algunos algoritmos habituales para realizar la clasificación son:
Máquina de vectores de soporte (SVM): construye un modelo capaz de predecir si un punto nuevo (cuya categoría desconocemos) pertenece a una categoría o a la otra. Arboles de decisión: Permite que un individuo o una organización comparen posibles acciones entre sí según sus costos, probabilidades y beneficios. K-vecino más cercano: Brusquedad de un conjunto de los k más cercanos al patrón a clasificar. Clasificadores bayesianos (Naïve Bayes): Se basa en encontrar la hipótesis mas probable. Análisis discriminante: Asignar nuevas observaciones a grupos ya conocidos. Regresión logística: Modelar como influyen la probabilidad de aparición de un suceso la presencia o no de diversos factores. LAS TÉCNICAS DE REGRESIÓN Para valores de respuesta continua. Por ejemplo, cambios de temperatura o fluctuaciones en la demanda energética. Las aplicaciones más habituales son: La predicción de la carga eléctrica. El trading algorítmico. Debemos de utilizar la técnica de regresión cuando: Se trabaja con un intervalo de datos Si la naturaleza de la respuesta es un número real, como la temperatura o el tiempo que tardará una pieza de equipamiento en fallar. Algunos algoritmos habituales para realizar la regresión son: Modelo lineal: Es una técnica de modelización estadística que se emplea para describir una variable de respuesta continua a modo de función de una o varias variables predictivas. Modelo no lineal: Es una técnica estadística que ayuda a describir relaciones no lineales en datos experimentales. Arboles de decisión: Permite que un individuo o una organización comparen posibles acciones entre sí según sus costos, probabilidades y beneficios. Regresión por pasos: Selecciona las variables independientes (que se utilizan para predecir) que deben de incluir en un modelo de regresión. APRENDIZAJE NO SUPERVISADO El aprendizaje no supervisado halla patrones ocultos o estructuras específicas en los datos. Se emplea para inferir información a partir de conjuntos de datos que constan de datos de entrada sin respuestas etiquetadas. Ventajas Su capacidad de evolución lo hace ideal para poder adaptarse a nuevas situaciones no previstas Se elimina la necesidad de entrenamiento previo Se elimina la necesidad de clasificación manual de casos de entrenamiento No hay algoritmo general, su implementación depende de cada problema No hay seguridad sobre el comportamiento del clasificador, evoluciona con cada nuevo caso Desventajas No hay un esquema general bien definido para guiar su implementación. En cada problema tendrá una forma distinta y esto puede ser un inconveniente serio. Técnica que utiliza el Aprendizaje No Supervisado: El clustering. TECNICA DE CLUSTERING Clustering consiste en organizar los datos en grupos cuyos miembros son parecidos de alguna forma. Es decir, un clúster es un conjunto de datos que son similares de alguna forma, y a su vez son “disimiles” a los ejemplos contenidos en otros clústers. Se emplea para el análisis de datos exploratorio, con objeto de encontrar patrones o agrupaciones ocultos en los datos. Las aplicaciones más habituales son: Análisis de secuencias genéticas. La investigación de mercados. Reconocimiento de objetos. Ejemplo: Si una empresa de telefonía móvil quiere optimizar las ubicaciones donde construir antenas, puede recurrir al aprendizaje automático para calcular el número de clusters de personas que utilizan sus antenas. Un teléfono solo puede comunicarse con una antena en cada ocasión, de modo que el equipo emplea algoritmos de clustering para diseñar la mejor ubicación de antenas a fin de optimizar la recepción de la señal para grupos (o clusters) de clientes. Algunos algoritmos habituales para realizar el clustering son: Agrupamiento jerárquico: crea una jerarquía multinivel de clusters mediante la creación de un árbol de clústeres Agrupación k-Means: divide los datos en k grupos distintos en función de la distancia al centro de un clúster Modelos gaussianos de mezclas: clusters de modelos como una mezcla de componentes de densidad normal multivariante (modelo para varias variables de respuesta) Mapas autoorganizados: usa redes neuronales que aprenden la topología y distribución de los datos Modelos ocultos de Márkov: utiliza datos observados para recuperar la secuencia de estados