Professional Documents
Culture Documents
Ir a la navegaci�nIr a la b�squeda
Este art�culo trata sobre red neuronal artificial. Para otros usos de este t�rmino,
v�ase red neuronal biol�gica.
Commons-emblem-question book orange.svg
Este art�culo o secci�n necesita referencias que aparezcan en una publicaci�n
acreditada.
Este aviso fue puesto el 27 de febrero de 2017.
Cada neurona est� conectada con otras a trav�s de unos enlaces. En estos enlaces el
valor de salida de la neurona anterior es multiplicado por un valor de peso. Estos
pesos en los enlaces pueden incrementar o inhibir el estado de activaci�n de las
neuronas adyacentes. Del mismo modo, a la salida de la neurona, puede existir una
funci�n limitadora o umbral, que modifica el valor resultado o impone un l�mite que
se debe sobrepasar antes de propagarse a otra neurona. Esta funci�n se conoce como
funci�n de activaci�n.
Las redes neuronales se han utilizado para resolver una amplia variedad de tareas,
como la visi�n por computador y el reconocimiento de voz, que son dif�ciles de
resolver usando la ordinaria programaci�n basado en reglas. Hist�ricamente, el uso
de modelos de redes neuronales marc� un cambio de direcci�n a finales de los a�os
ochenta de alto nivel, que se caracteriza por sistemas expertos con conocimiento
incorporado en si-entonces las reglas, a bajo nivel de aprendizaje autom�tico,
caracterizado por el conocimiento incorporado en los par�metros de un modelo
cognitivo con alg�n sistema din�mico.
�ndice
1 Historia
1.1 Aprendizaje de Hebb
1.2 Propagaci�n hacia atr�s y el resurgimiento
1.3 Dise�os basados en Hardware
2 Mejoras desde 2006
3 Modelos
3.1 Funci�n de red
3.2 El aprendizaje
3.3 La elecci�n de una funci�n de coste
3.4 Paradigmas de aprendizaje
3.4.1 El aprendizaje supervisado
3.4.2 Aprendizaje no supervisado
3.4.3 Aprendizaje por refuerzo
3.5 Tipo de entrada
4 Algoritmos de aprendizaje
4.1 Algoritmo recursivo convergente de aprendizaje
4.2 El empleo de redes neuronales artificiales
5 Aplicaciones
5.1 Aplicaciones de la vida real
5.2 Las redes neuronales y la neurociencia
6 Potencia del c�lculo
7 La cr�tica
7.1 Cuestiones de capacitaci�n
7.2 Cuestiones te�ricas
8 Las clases y tipos de RNAs
9 Ejemplos
9.1 Quake II Neuralbot
9.2 Clasificador No Sesgado de Prote�nas
10 Galer�a
11 Herramientas de software
12 V�ase tambi�n
13 Referencias
14 Enlaces externos
Historia
Warren McCulloch y Walter Pitts 2? (1943) crearon un modelo inform�tico para redes
neuronales, que se llama l�gica umbral, que se base en las matem�ticas y los
algoritmos. Este modelo se�al� el camino para que la investigaci�n de redes
neuronales se divida en dos enfoques distintos. Un enfoque se centr� en los
procesos biol�gicos en el cerebro y el otro se centr� en la aplicaci�n de redes
neuronales para la inteligencia artificial.
Aprendizaje de Hebb
A finales de la d�cada de 1940 el psic�logo Donald Hebb3?4? cre� una hip�tesis de
aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como
aprendizaje de Hebb. Aprendizaje de Hebb se considera que es un "t�pico" de
aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos
de la potenciaci�n a largo plazo. Los investigadores empezaron a aplicar estas
ideas a los modelos computacionales en 1948 con la sugerencia de Turing, que el
c�rtex humano infantil es lo que llamaba "m�quina desorganizada" (tambi�n conocido
como "m�qina Turing Tipo B").5?6?
En 1959, un modelo biol�gico propuesto por dos laureados de los Premios Nobel,
David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de dos tipos de
c�lulas en la corteza visual primaria: c�lulas simples y c�lulas complejas.12?
El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por
Ivakhnenko y Lapa, y se conoce como el m�todo de agrupamiento para el manejo de
datos.13?14?15?
Las redes neuronales, tal como se utilizan en la inteligencia artificial, han sido
consideradas tradicionalmente como modelos simplificados de procesamiento neuronal
en el cerebro, a pesar de que la relaci�n entre este modelo y la arquitectura
biol�gica del cerebro se debate; no est� claro en qu� medida las redes neuronales
artificiales reflejan el funcionamiento cerebral.
M�quinas de soporte vectorial y otros m�todos mucho m�s simples, tales como los
clasificadores lineales, alcanzaron gradualmente popularidad en el aprendizaje
autom�tico. No obstante, el uso de redes neuronales ha cambiado algunos campos,
tales como la predicci�n de las estructuras de las prote�nas.18?19?
Para vencer este problema, Schmidhuber adoptaba una jerarqu�a multicapa de redes
(1992) pre entrenados, una capa a la vez, por aprendizaje no supervisado, y
refinado por propagaci�n hacia atr�s.26? Behnke (2003) contaba solamente con el
signo del gradiente (Rprop)27? trat�ndose de problemas tales como la reconstrucci�n
de im�genes y la localizaci�n de caras.
Entre 2009 y 2012, las redes neuronales recurrentes y redes neuronales profundas
feedforward desarrollados en el grupo de investigaci�n de J�rgen Schmidhuber en el
laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de
reconocimiento de patrones y aprendizaje autom�tico. Por ejemplo, la memoria bi-
direccional y multidimensional de largo a corto plazo (LSTM) de Alex Graves ha
ganado tres competiciones en el reconocimiento de escritura conectada en
Conferencia Internacional sobre An�lisis de documentos y Reconocimiento (ICDAR) del
2009, sin ning�n conocimiento previo acerca de los tres idiomas diferentes que se
pueden aprender.
Modelos
Los modelos de redes neuronales en la inteligencia artificial se refieren
generalmente a las redes neuronales artificiales (RNA); estos son modelos
matem�ticos esencialmente simples que definen una funci�n f:X?Y o una distribuci�n
m�s X o ambos X e Y. Pero a veces los modelos tambi�n est�n �ntimamente asociadas
con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso com�n
de la frase "modelo ANN" es en realidad la definici�n de una clase de tales
funciones (donde los miembros de la clase se obtiene variando par�metros, los pesos
de conexi�n, o espec�ficos de la arquitectura, tales como el n�mero de neuronas o
su conectividad).
Funci�n de red
La palabra red en el t�rmino "red neuronal artificial" se refiere a las
interconexiones entre las neuronas en las diferentes capas de cada sistema. Un
sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que
env�an datos a trav�s de las sinapsis a la segunda capa de neuronas, y luego a
trav�s de m�s sinapsis a la tercera capa de neuronas de salida. Los sistemas m�s
complejos tendr�n m�s capas, algunos aumentando las de entrada y de salida de
neuronas. Las sinapsis almacenan par�metros llamados "pesos" que manipulan los
datos en los c�lculos.
Las redes como la anterior se llaman com�nmente alimentaci�n hacia delante , porque
su gr�fica es un grafo dirigido ac�clico . Las redes con ciclos se denominan
com�nmente recurrentes . Tales redes se representan com�nmente de la manera
mostrada en la parte superior de la figura, donde {\displaystyle f} f se muestra
como dependiente sobre s� misma. Sin embargo, no se muestra una dependencia
temporal impl�cita.
El aprendizaje
Lo que ha atra�do el mayor inter�s en las redes neuronales es la posibilidad de
aprendizaje. Dada una determinada tarea a resolver, y una clase de funciones
{\displaystyle F} F, el aprendizaje consiste en utilizar un conjunto de
observaciones para encontrar {\displaystyle f^{*}\in F} {\displaystyle f^{*}\in F}
la cual resuelve la tarea de alguna forma �ptima.
Paradigmas de aprendizaje
Hay tres grandes paradigmas de aprendizaje, cada uno correspondiente a una tarea de
aprendizaje abstracto en particular. Estos son el aprendizaje supervisado ,el
aprendizaje no supervisado y el aprendizaje por refuerzo.
El aprendizaje supervisado
En el aprendizaje supervisado, se nos da una serie de ejemplos de pares
{\displaystyle (x,y),x\in X,y\in Y} {\displaystyle (x,y),x\in X,y\in Y} y el
objetivo es encontrar una funci�n {\displaystyle f:X\rightarrow Y} f:X\rightarrow
Yen la clase permitido de funciones que corresponden con los ejemplos. En otras
palabras, deseamos inferir el mapeo derivado de los datos; la funci�n de coste est�
relacionado con la falta de coincidencia entre nuestro mapeo y los datos, y
contiene impl�citamente el conocimiento previo sobre el dominio del problema.36?
Un coste de uso com�n es el error cuadr�tico medio, que trata de minimizar el error
cuadr�tico medio entre las salidas de la red, {\displaystyle f(x)} {\displaystyle
f(x)} y el valor objetivo {\displaystyle y} {\displaystyle y} sobre todos los pares
ejemplares. Cuando uno trata de minimizar este coste utilizando descenso de
gradiente para la clase de las redes neuronales llamadas perceptrones multicapas
(MLP), se obtiene el com�n y bien conocido algoritmo de propagaci�n hacia atr�s
para la formaci�n de redes neuronales.
Aprendizaje no supervisado
En el aprendizaje no supervisado, algunos datos {\displaystyle x} x se da y la
funci�n de coste que se reduce al m�nimo, que puede ser cualquier funci�n de los
datos {\displaystyle x} x y la salida de la red, {\displaystyle f} f.
Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas de
control, juegos y otras secuenciales tareas.
Tipo de entrada
Finalmente tambi�n se pueden clasificar las RNAs seg�n sean capaces de procesar
informaci�n de distinto tipo en:
Aplicaciones
RNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a
priori de un modelo identificable que pueda ser programado, pero se dispone de un
conjunto b�sico de ejemplos de entrada (previamente clasificados o no). Asimismo,
son altamente robustas tanto al ruido como a la disfunci�n de elementos concretos y
son f�cilmente paralelizables.
Tipos de modelos
Tipos de redes neuronales artificiales var�an de aquellos con s�lo una o dos capas
de l�gica �nica direcci�n, para muchos bucles complejos multi-direccionales de
entrada de realimentaci�n y capas. En general, estos sistemas utilizan algoritmos
en su programaci�n para determinar el control y la organizaci�n de sus funciones.
La mayor�a de los sistemas utilizan "pesos" para cambiar los par�metros del
rendimiento y las diferentes conexiones con las neuronas. Las redes neuronales
artificiales pueden ser aut�nomas y aprender mediante el aporte de "maestros"
externos o incluso auto-ense�anza de las reglas escritas de entrada. Redes
neuronales estilo Cubo Neural primera por primera vez por Gianna Giavelli
proporcionan un espacio din�mico en el que las redes se recombinan din�micamente
informaci�n y enlaces a trav�s de miles de millones de nodos independientes que
utilizan la adaptaci�n neuronal darwinismo , una t�cnica desarrollada por Gerald
Edelman , que permite sistemas m�s modeladas biol�gicamente.
Capacidad
Convergencia
Nada se puede decir en general sobre la convergencia ya que depende de una serie de
factores. En primer lugar, pueden existir muchos m�nimos locales. Esto depende de
la funci�n de coste y el modelo. En segundo lugar, el m�todo de optimizaci�n
utilizado no puede ser garantizado a converger cuando lejos de un m�nimo local. En
tercer lugar, para una cantidad muy grande de datos o par�metros, algunos m�todos
se vuelven poco pr�ctico. En general, se ha encontrado que las garant�as te�ricas
sobre la convergencia son una gu�a fiable para la aplicaci�n pr�ctica.
Generalizaci�n y estad�sticas
Cuestiones te�ricas
AK Dewdney , un cient�fico matem�tico e inform�tica de la Universidad de Ontario
Occidental y ex Scientific American columnista, escribi� en 1997, "A pesar de que
las redes neurales hacen resolver algunos problemas de juguete, su poder de
computaci�n son tan limitados que me sorprende que nadie los toma en serio como una
herramienta general de resoluci�n de problemas ". No existe una red neuronal nunca
se ha demostrado que resuelve los problemas computacionalmente dif�ciles, tales
como la N-Queens problema, el problema del viajante de comercio , o el problema de
factorizar enteros grandes.
Potencia de c�lculo sigue creciendo m�s o menos de acuerdo con la Ley de Moore ,
que puede proporcionar recursos suficientes para llevar a cabo nuevas tareas.
Ingenier�a neuromorphic aborda la dificultad de hardware directamente, mediante la
construcci�n de chips de no-von Neumann con circuitos dise�ados para implementar
redes neuronales desde el principio. Google tambi�n ha dise�ado un chip optimizado
para el procesamiento de red neural llamado Unidad de Procesamiento Tensor o TPU.
Argumentos en contra de la posici�n de Dewdney son que las redes neuronales se han
utilizado con �xito para resolver muchas tareas complejas y diversas, que van desde
aviones que vuelan de forma aut�noma para la detecci�n de fraude de tarjetas de
cr�dito.
Las redes neuronales, por ejemplo, est�n en el muelle no s�lo porque han sido
promocionado al alto cielo, (lo que tiene, no?), sino tambi�n porque se puede crear
una red de �xito sin la comprensi�n de c�mo funcionaba: el mont�n de n�meros que
captura su comportamiento ser�a con toda probabilidad "una, mesa ilegible opaca...
sin valor como recurso cient�fico".
Si bien es cierto que el an�lisis de lo que se ha aprendido por una red neuronal
artificial es dif�cil, es mucho m�s f�cil de hacerlo que analizar lo que se ha
aprendido por una red neuronal biol�gica. Por otra parte, los investigadores
involucrados en la exploraci�n de algoritmos de aprendizaje para redes neuronales
est�n descubriendo gradualmente principios gen�ricos que permiten que una m�quina
de aprendizaje tenga �xito. Por ejemplo, Bengio y LeCun (2007) escribi� un art�culo
sobre el aprendizaje locales vs. No locales, as� como poco profundas frente a la
arquitectura de profundidad.
Enfoques h�bridos
Algunas otras cr�ticas que provienen de los defensores de los modelos h�bridos
(combinaci�n de redes neuronales y enfoques simb�licos), que creen que el intermix
de estos dos enfoques puede capturar mejor los mecanismos de la mente humana.
En general, debido a que son parecidas a las del cerebro humano, las RNA son bien
nombradas ya que son buenas para resolver problemas que el humano puede resolver
pero las computadoras no. Estos problemas incluyen el reconocimiento de patrones y
la predicci�n del tiempo. De cualquier forma, el humano tiene capacidad para el
reconocimiento de patrones, pero la capacidad de las redes neuronales no se ve
afectada por la fatiga, condiciones de trabajo, estado emocional, y compensaciones.