Ir al contenido

La inteligencia artificial de aprendizaje profundo en redes neuronales

La mayoría de las aplicaciones de aprendizaje profundo utilizan redes neuronales "convolucionales", en las que los nodos de cada capa se agrupan, los grupos se superponen y cada grupo alimenta datos a varios nodos (naranja y verde) de la siguiente capa. Crédito: Jose-Luis Olivares / MIT

La técnica de inteligencia artificial de Ballyhooed conocida como “aprendizaje profundo” revive una idea de 70 años.

En los últimos 10 años, los sistemas de inteligencia artificial de mejor rendimiento, como los reconocedores de voz en los teléfonos inteligentes o el último traductor automático de Google, son el resultado de una técnica llamada “aprendizaje profundo“.

El aprendizaje profundo es, de hecho, un nuevo nombre para un enfoque de la inteligencia artificial llamado redes neuronales, que han estado entrando y saliendo de moda durante más de 70 años. 

Las redes neuronales fueron propuestas por primera vez en 1944 por Warren McCullough y Walter Pitts, dos investigadores de la Universidad de Chicago que se trasladaron al MIT en 1952 como miembros fundadores de lo que a veces se llama el primer departamento de ciencias cognitivas.

Las redes neuronales fueron un área importante de investigación tanto en neurociencia como en ciencias de la computación hasta 1969, cuando, según la tradición de la ciencia de la computación, fueron asesinadas por los matemáticos del MIT Marvin Minsky y Seymour Papert, quienes un año después se convertirían en codirectores de la nuevo Laboratorio de Inteligencia Artificial del MIT.

La técnica luego disfrutó de un resurgimiento en la década de 1980, se eclipsó nuevamente en la primera década del nuevo siglo y ha regresado como un gran éxito en la segunda, impulsada en gran parte por el mayor poder de procesamiento de los chips gráficos.

Existe la idea de que las ideas científicas son un poco como epidemias de virus. Mentes y Máquinas. Aparentemente hay cinco o seis cepas básicas de virus de la gripe, y aparentemente cada una regresa con un período de alrededor de 25 años. Las personas se infectan y desarrollan una respuesta inmunitaria, por lo que no se infectan durante los próximos 25 años. Y luego hay una nueva generación que está lista para ser infectada por la misma cepa de virus. En la ciencia, la gente se enamora de una idea, se entusiasma con ella, la machaca a martillazos y luego se inmuniza; se cansa de ella. ¡Así que las ideas deberían tener el mismo tipo de periodicidad!

Tomaso Poggio, profesor de Ciencias Cognitivas y Cerebrales Eugene McDermott en el MIT, investigador del Instituto McGovern de Investigación del Cerebro del MIT y director del Centro de Cerebros del MIT.

Asuntos importantes

Las redes neuronales son un medio de hacer aprendizaje automático, en el que una computadora aprende a realizar alguna tarea mediante el análisis de ejemplos de entrenamiento. 

Por lo general, los ejemplos se han etiquetado a mano con anticipación. Un sistema de reconocimiento de objetos, por ejemplo, podría alimentar miles de imágenes etiquetadas de automóviles, casas, tazas de café, etc., y encontraría patrones visuales en las imágenes que se correlacionan consistentemente con etiquetas particulares.

Modelada libremente en el cerebro humano, una red neuronal consta de miles o incluso millones de nodos de procesamiento simples que están densamente interconectados. 

La mayoría de las redes neuronales de hoy en día están organizadas en capas de nodos y son “feed-forward”, lo que significa que los datos se mueven a través de ellas en una sola dirección. 

Un nodo individual puede estar conectado a varios nodos en la capa debajo de él, desde donde recibe datos, y a varios nodos en la capa superior, a los que envía datos.

A cada una de sus conexiones entrantes, un nodo asignará un número conocido como “peso”. 

Cuando la red está activa, el nodo recibe un elemento de datos diferente, un número diferente, sobre cada una de sus conexiones y lo multiplica por el peso asociado. 

Luego suma los productos resultantes, dando un solo número. 

Si ese número está por debajo de un valor de umbral, el nodo no pasa ningún dato a la siguiente capa. 

Si el número excede el valor de umbral, el nodo “dispara”, lo que en las redes neuronales actuales generalmente significa enviar el número, la suma de las entradas ponderadas, a lo largo de todas sus conexiones salientes.

Cuando se entrena una red neuronal, todos sus pesos y umbrales se establecen inicialmente en valores aleatorios. 

Los datos de entrenamiento se envían a la capa inferior, la capa de entrada, y pasan a través de las capas siguientes, multiplicándose y sumando de maneras complejas, hasta que finalmente llegan, radicalmente transformados, a la capa de salida. 

Durante el entrenamiento, los pesos y los umbrales se ajustan continuamente hasta que los datos de entrenamiento con las mismas etiquetas arrojan resultados similares de manera consistente.

Mentes y maquinas

Las redes neuronales descritas por McCullough y Pitts en 1944 tenían umbrales y pesos, pero no estaban organizadas en capas y los investigadores no especificaron ningún mecanismo de entrenamiento. 

Lo que demostraron McCullough y Pitts fue que una red neuronal podría, en principio, calcular cualquier función que pudiera realizar una computadora digital. 

El resultado fue más neurociencia que informática: el punto era sugerir que el cerebro humano podría considerarse como un dispositivo informático.

Las redes neuronales continúan siendo una herramienta valiosa para la investigación neurocientífica. 

Por ejemplo, los diseños de redes particulares o las reglas para ajustar pesos y umbrales han reproducido características observadas de la neuroanatomía y cognición humanas, una indicación de que capturan algo sobre cómo el cerebro procesa la información.

La primera red neuronal entrenable, el Perceptron, fue demostrada por el psicólogo de la Universidad de Cornell Frank Rosenblatt en 1957.

El diseño del Perceptron era muy parecido al de la red neuronal moderna, excepto que solo tenía una capa con pesos y umbrales ajustables, intercalados entre la entrada y capas de salida.

Los perceptrones fueron un área activa de investigación tanto en psicología como en la incipiente disciplina de las ciencias de la computación hasta 1959, cuando Minsky y Papert publicaron un libro titulado “Perceptrones”, que demostró que ejecutar ciertos cálculos bastante comunes en perceptrones consumiría poco tiempo en la práctica.

“Por supuesto, todas estas limitaciones desaparecen si se toma una maquinaria un poco más complicada, como dos capas”, dice Poggio. Pero en ese momento, el libro tuvo un efecto escalofriante en la investigación de redes neuronales.

Tienes que poner estas cosas en un contexto histórico. Abogaban por la programación, por lenguajes como Lisp. No muchos años antes, la gente todavía usaba computadoras analógicas. No estaba nada claro en ese momento que la programación fuera el camino a seguir. Creo que se pasaron un poco, pero como de costumbre, no es en blanco y negro. Si piensa en esto como una competencia entre la computación analógica y la computación digital, lucharon por lo que en ese momento era lo correcto.

Poggio

Periodicidad

Sin embargo, en la década de 1980, los investigadores habían desarrollado algoritmos para modificar los pesos y umbrales de las redes neuronales que eran lo suficientemente eficientes para redes con más de una capa, eliminando muchas de las limitaciones identificadas por Minsky y Papert. 

El campo disfrutó de un renacimiento.

Pero intelectualmente, hay algo insatisfactorio en las redes neuronales. 

Una formación suficiente puede revisar la configuración de una red hasta el punto de que pueda clasificar datos de manera útil, pero ¿qué significan esas configuraciones? ¿Qué características de la imagen observa un reconocedor de objetos y cómo las integra en las firmas visuales distintivas de los automóviles, las casas y las tazas de café? 

Mirar el peso de las conexiones individuales no responderá a esa pregunta.

En los últimos años, los informáticos han comenzado a idear métodos ingeniosos para deducir las estrategias analíticas adoptadas por las redes neuronales. 

Pero en la década de 1980, las estrategias de las redes eran indescifrables. 

Entonces, alrededor del cambio de siglo, las redes neuronales fueron suplantadas por máquinas de vectores de soporte, un enfoque alternativo al aprendizaje automático que se basa en algunas matemáticas muy limpias y elegantes.

El reciente resurgimiento de las redes neuronales, la revolución del aprendizaje profundo, es cortesía de la industria de los juegos de computadora. 

Las imágenes complejas y el ritmo rápido de los videojuegos actuales requieren un hardware que pueda mantenerse al día, y el resultado ha sido la unidad de procesamiento de gráficos (GPU), que incluye miles de núcleos de procesamiento relativamente simples en un solo chip. 

Los investigadores no tardaron mucho en darse cuenta de que la arquitectura de una GPU es notablemente parecida a la de una red neuronal.

Las GPU modernas permitieron que las redes de una capa de la década de 1960 y las redes de dos a tres capas de la década de 1980 se convirtieran en las redes de 10, 15 e incluso 50 capas de la actualidad. 

A eso se refiere lo “profundo” del “aprendizaje profundo”: la profundidad de las capas de la red. 

Y actualmente, el aprendizaje profundo es responsable de los sistemas de mejor rendimiento en casi todas las áreas de investigación de inteligencia artificial.

Bajo el capó

La opacidad de las redes sigue siendo inquietante para los teóricos, pero también hay avances en ese frente. 

Además de dirigir el Centro de Cerebros, Mentes y Máquinas (CBMM), Poggio dirige el programa de investigación del centro en Marcos Teóricos para la Inteligencia . 

Recientemente, Poggio y sus colegas de CBMM han publicado un estudio teórico en tres partes de las redes neuronales.

La primera parte , que se publicó en el International Journal of Automation and Computing , aborda el rango de cálculos que las redes de aprendizaje profundo se pueden ejecutar y cuándo las redes profundas ofrecen ventajas sobre las menos profundas. 

Las partes dos y tres , que se han publicado como informes técnicos de CBMM, abordan los problemas de optimización global, o la garantía de que una red ha encontrado la configuración que mejor se adapta a sus datos de entrenamiento, y el sobreajuste, o los casos en los que la red se sintoniza tanto a los detalles de sus datos de entrenamiento que no puede generalizar a otras instancias de las mismas categorías.

Todavía hay muchas preguntas teóricas por responder, pero el trabajo de los investigadores de CBMM podría ayudar a garantizar que las redes neuronales finalmente rompan el ciclo generacional que las ha traído dentro y fuera del favor durante siete décadas.

Compartir:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *