REDES NEURONALES ARTIFICIALES

Analogía con las redes neuronales biológicas

Las neuronas se modelan mediante unidades de proceso, caracterizadas por una función de activación que convierte la entrada total recibida de otras unidades en un valor de salida, el cual hace la función de la tasa de disparo de la neurona.

Las conexiones sinápticas se simulan mediante conexiones ponderadas; la fuerza o peso de la conexión cumple el papel de la efectividad de la sinapsis. Las conexiones determinan si es posible que una unidad influya sobre otra, los pesos definen la intensidad de la influencia.

Una unidad de proceso recibe varias entradas procedentes de las salidas de otras unidades de proceso. La entrada total de una unidad de proceso se suele calcular como la suma de todas las entradas ponderadas, es decir, multiplicadas por el peso de la conexión. El efecto inhibitorio o excitatorio de las sinapsis se logra usando pesos negativos o positivos respectivamente.

Ilustración 4: Tabla comparativa entre las neuronas reales y las unidades de proceso empleadas en los modelos computacionales conexionistas.

Redes Neuronales Biológicas	Redes Neuronales Artificiales
Neuronas	Unidades de proceso
Conexiones sinápticas	Conexiones ponderadas
Efectividad de las sinapsis	Peso de las conexiones
Efecto excitatorio o inhibitorio	Signo del peso de una conexión
Estimulación total	Entrada total ponderada
Activación -> tasa de disparo	Función de activación -> Salida

Ilustración 5: Unidad de proceso

(Estimulación total recibida = sumatorio de las entradas ponderadas)

(Salida = Activación = función de la estimulación total recibida)

Ir al comienzo

Estructura y formas de interconexión

Para diseñar una red debemos establecer como estarán conectadas unas unidades con otras y determinar adecuadamente los pesos de las conexiones. Lo más usual es disponer las unidades en forma de capas, pudiéndose hablar de redes de una, de dos o de más de dos capas (redes multicapa). Aunque inicialmente se desarrollaron redes de una sola capa, lo más usual es disponer tres o más capas: la primera capa actúa como buffer de entrada, almacenando la información bruta suministrada a la red o realizando un sencillo preproceso de la misma, la llamamos capa de entrada; otra capa actúa como interfaz o buffer de salida, almacenando la respuesta de la red para que puedan ser leída, la llamamos capa de salida; y las capas intermedias, principales encargadas de extraer, procesar y memorizar la información, las denominamos capas ocultas.

Ilustración 6: Modelo de red en cascada de 3 capas

Además del número de capas de una red, en función de como se interconectan unas capas con otras, podemos hablar de redes recurrentes (feed-back) y redes no recurrentes o redes en cascada (feed-forward). En las redes en cascada la información fluye unidireccionalmente de una capa a otra (desde la capa de entrada a las capas ocultas y de éstas a la capa de salida)y, además, no se admiten conexiones intracapa. En las redes recurrentes la información puede volver a lugares por los que ya había pasado, formando bucles, y se admiten las conexiones intracapa, incluso de una unidad consigo misma.

Las conexiones entre una capa y otra pueden ser totales, es decir, que cada unidad se conecta con todas las unidades de la capa siguiente, o parciales, en las cuales una unidad se conecta con sólo algunas de las capas de la unidad siguiente.

La función de activación

Además del número de capas y de la forma en que se conectan, hay que decidir que función de activación se usa para computar la salida de las unidades de proceso. Se suele distinguir entre funciones lineales, en las que la salida es proporcional a la entrada; funciones de umbral, en las cuales la salida es un valor discreto (típicamente binario 0/1) que depende de si la estimulación total supera o no un determinado valor de umbral; y funciones no lineales, no proporcionales a la entrada.

Casi todos los avances recientes en conexionismo se atribuyen a arquitecturas multicapa que utilizan funciones de activación no lineales como la función exponencial, la función de umbral o muy comúnmente una función sigmoidal. El problema de trabajar con modelos no lineales radica en que son difíciles de describir en términos lógicos o matemáticos convencionales

Función de umbral

En un principio se pensó que las neuronas usaban una función de umbral, es decir, que permanecían inactivas y se activaban sólo si la estimulación total superaba cierto valor límite; después se comprobó que las neuronas emitían impulsos de actividad eléctrica con una frecuencia variable , dependiendo de la intensidad de la estimulación recibida, y que tienen cierta actividad hasta en reposo, con estimulación nula. Estos descubrimientos llevaron al uso de funciones no lineales con esas características, como la función sigmoidal, con un perfil parecido al escalón de una función de umbral, pero continua.

Función de activación logística o sigmoidal

Es probablemente la función de activación más empleada en la actualidad. Se trata de una función continua no lineal con bastante plausibilidad fisiológica. La función sigmoidal posee un rango comprendido entre 0 y 1. Esto, aplicado a las unidades de proceso de una red neuronal artificial significa que, sea cual sea la entrada, la salida estará comprendida entre 0 y1.

Ilustración 7: Función signoidal

Ilistración 7: Función signoidal

La salida de una unidad vale 0.5 cuando la entrada es nula, esto significa que la unidad tiene cierta actividad aún en ausencia de estimulación. Al aumentar la estimulación la unidad aumenta su activación, y la disminuye si la estimulación es inhibitoria, de forma parecida a las neuronas reales.

Presenta las siguientes características deseables.

1. Acomodación de señales muy intensas sin producir saturación.
2. Admite señales débiles sin excesiva atenuación
3. Fácilmente derivable

La principal limitación de esta función es que no sirve para expresar polaridades, da siempre valores positivos. Una función alternativa con cualidades parecidas pero con un rango entre -1 y 1 es la función tangente hiperbólica.

Ir al comienzo

Redes síncronas vs asíncronas

Un último aspecto no comentado, referido a la manera en que las unidades computan su activación en relación al tiempo es que, si en cada ciclo de aprendizaje se calcula la activación de todas las unidades de una capa, hablamos de redes síncronas, en caso contrario se habla de redes asíncronas o probabilísticas, en las cuales cada unidad de proceso tiene una cierta posibilidad de computar su activación en cada ciclo de aprendizaje. Las redes asíncronas ofrecen la ventaja de ser menos propensas a caer en mínimos locales (ver el problema de los mínimos locales en la Valoración de las redes de retropropagación).

Métodos deterministas vs estadísticos

Esta distinción tiene bastante relación con la anterior, ya que las redes síncronas suelen emplear reglas de aprendizaje deterministas, y los métodos estadísticos en cambio, se aplican en las redes asíncronas. Algunos autores hablan de métodos de aprendizaje deterministas haciendo referencia al modo en que computan, paso a paso, las modificiaciones en los pesos de las conexiones. Los métodos estadísticos hacen cambios pseudoaleatorios en las conexiones y retienen los cambios sólo si mejoran la respuesta del sistema, pueden resultar útiles en cuanto permiten alcanzar soluciones globalmente óptimas, a diferencia de las soluciones localmente óptimas típicas de los métodos deterministas. Más adelante veremos un procedimiento estadístico conocido como equilibrio termodinámico simulado.

Ir al comienzo

VOLVER.

Autor: Ricardo Zapata
miguelz99@latinmail.com
Cali - Colombia, Abril 1999