El nuevo enfoque de OpenAI para el aprendizaje de imitación de una sola vez, un vistazo al futuro de la IA

Aprendizaje de imitación de un disparo Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

El 16 de mayo, los investigadores de OpenAI compartieron un video de uno de sus proyectos junto con dos documentos de importancia para explorar soluciones a tres cuellos de botella clave del desarrollo actual de IA: meta-aprendizaje, aprendizaje único y generación automatizada de datos. En mi publicación anterior, prometí un artículo dedicado al fascinante problema del aprendizaje de una sola vez, así que aquí va. Puedes comenzar mirando el video que lanzaron que explica su increíble trabajo:

En este video, verá un robot físico de un brazo apilando cubos uno encima del otro. Conocer las complejas tareas que los robots industriales pueden realizar actualmente, si el investigador no intentaba explicar lo que está sucediendo, en muchos aspectos esto sería muy decepcionante. En un entorno controlado, la tarea es simple, los enfoques de procedimiento (codificados) ya han resuelto estos problemas, lo que es prometedor y revolucionario es cuánto el marco general subyacente podría escalar a comportamientos múltiples, más complejos y adaptativos en entornos más ruidosos.

La diferencia en mente entre el hombre y los animales superiores, por grande que sea, ciertamente es de grado y no de tipo.
- Charles Darwin

Por analogía, este artículo es una fuerte evidencia de que las diferencias en los sistemas cognitivos entre la IA incorporada (inteligencia artificial de los sistemas físicos) y los robots del siglo 22 serán de escala y no de tipo. Desde la competencia ImageNet * de 2012, la investigación de aprendizaje profundo ha estado en auge, no tanto para modificar la naturaleza de la computación distribuida realizada por una red neuronal, sino para encontrar nuevas formas de estructurar redes para que puedan aprender una tarea específica. Para una función de red neuronal es la estructura, esta estructura no está codificada (no diseñada a mano) pero son los resultados de unidades de cálculo atómicas conectadas inicialmente entre entradas y salidas, que pueden modificar su estructura y conexiones. Es modificando la estructura general de la red que aprende una función específica.

En este artículo, crearon un marco general capaz de capacitar a un agente para representar tareas de una manera abstracta, y aprender a transferir este conocimiento a nuevas tareas invisibles (aprendizaje de transferencia) después de una sola demostración de la nueva tarea (aprendizaje de imitación de una sola vez).

Las tareas

Aunque la implementación arquitectónica exacta difiere, toman dos tareas como ejemplos para mostrar el desempeño del enfoque general.

Partícula llegando

En el primer ejemplo, el sistema recibe entradas de posiciones de destino coloreadas en un plano y una sola demostración de video del agente simulado que va al objetivo especificado.

Figura 2. El robot es un punto de masa controlado con fuerza bidimensional. La familia de tareas es alcanzar un hito objetivo. La identidad del hito difiere de una tarea a otra, y el modelo tiene que averiguar qué objetivo perseguir basándose en la demostración. (izquierda) ilustración del robot; (centro) la tarea es alcanzar el cuadro naranja, (derecha) la tarea es alcanzar el triángulo verde.

Durante el entrenamiento, el sistema debe reproducir la misma tarea (llegar a naranja) pero desde otra configuración, con diferentes posiciones iniciales para el robot y los objetivos. No está claro si durante la prueba el agente se prueba en una tarea en la que recibió capacitación (alcance naranja) o en una tarea que nunca había visto antes (alcance en verde, por ejemplo) o ambas.

La política entrenada se evalúa en nuevos escenarios y se condiciona a nuevas trayectorias de demostración que no se ven durante el entrenamiento.

Es cierto que el agente tiene que inferir el objetivo objetivo de una demostración única y comenzar de nuevo desde otra configuración. Esto implica que la secuencia motora exacta no pudo haberse aprendido antes de la prueba y debe inferirse a través de la abstracción (representación estructurada de nivel superior) de la tarea y la planificación motora.

Bloqueo de apilamiento

En el segundo ejemplo, el agente tiene que aprender a apilar cubos (identificados por diferentes colores) en el mismo orden que el que se muestra en una sola demostración simulada. Esta demostración simulada es una serie de imágenes en 2D generadas por un motor de física en 3D en el que se modelan las propiedades del motor y el aparato sensorial de los robots.

Política de una sola vez. Una sola política capacitada para resolver muchas tareas. Tarea superior: {abc, def}, Tarea inferior: {ab, cd, ef}

En ambos ejemplos, las posiciones iniciales de los cubos en la demostración y en la prueba real son diferentes, cada tarea comienza desde otra posición inicial. El robot no intenta reemplazar los cubos para que coincidan con la posición inicial de la demostración, transfiere la tarea de nivel superior de apilar el cubo en cualquier estado en el que comience.

Entrenamiento usando aleatorización de dominio

En ambos casos, todas las imágenes utilizadas durante el entrenamiento se obtienen mediante simulación utilizando la aleatorización de dominios en la que se aleatorizarán los siguientes aspectos de las muestras:

Número y forma de los objetos distractores en la mesa. Posición y textura de todos los objetos en la mesa. Texturas de la mesa, suelo, skybox y robot. Posición, orientación y campo de visión de la cámara. Número de luces en la escena. Posición, orientación, y características especulares de las luces Tipo y cantidad de ruido aleatorio agregado a las imágenes

Conjunto de entrenamiento para alcanzar partículas

Consideramos un conjunto cada vez más difícil de familias de tareas, donde el número de puntos de referencia aumenta de 2 a 10. Para cada familia de tareas, recopilamos 10000 trayectorias para el entrenamiento, donde las posiciones de los puntos de referencia y la posición de inicio del robot de puntos se asignan al azar. Utilizamos una política de expertos codificada para generar demostraciones de manera eficiente. Agregamos ruido a las trayectorias al perturbar las acciones calculadas antes de aplicarlas al medio ambiente, y utilizamos la clonación de comportamiento simple para entrenar la política de red neuronal

Conjunto de entrenamiento para apilar bloques

Concretamente, recopilamos 140 tareas de capacitación y 43 tareas de prueba, cada una con un diseño deseado diferente de los bloques. El número de bloques en cada tarea puede variar entre 2 y 10. Recopilamos 1000 trayectorias por tarea para el entrenamiento, y mantenemos un conjunto separado de trayectorias y configuraciones iniciales que se utilizarán para la evaluación. Similar a la tarea de alcanzar partículas, inyectamos ruido en el proceso de recolección de trayectoria. Las trayectorias se recopilan utilizando una política codificada.

Las demostraciones exitosas se recopilan utilizando una política codificada

Tenga en cuenta que durante el aprendizaje las trayectorias correctas son generadas por una política procesal "codificada", que creo se basa en técnicas clásicas de identificación y control del sistema. Entonces, durante el entrenamiento y las pruebas, el agente tiene dos entradas: a) una demostración en una configuración A, yb) una configuración inicial B. Durante el entrenamiento solamente, el algoritmo de aprendizaje también tiene acceso a una respuesta ideal: una trayectoria que comienza desde la configuración B que responde el problema y con el cual se comparará la respuesta del agente durante el aprendizaje, lo que lo convierte en un problema de aprendizaje supervisado.

Para cada tarea de capacitación, asumimos la disponibilidad de un conjunto de demostraciones exitosas.

Si no está claro, repasaré las diferencias entre los diferentes tipos de paradigmas de aprendizaje en la siguiente sección.

Algoritmo de optimización y función de pérdida

El aprendizaje supervisado se refiere a paradigmas de entrenamiento en los cuales, en cada decisión, la red tiene acceso a la elección correcta que debería haber hecho y, por lo tanto, a una noción de error. Por ejemplo, en una tarea de clasificación entre perros y gatos, la etiqueta de las imágenes de perros y gatos durante el entrenamiento se conoce de antemano y los errores se detectan de inmediato. En ese sentido, es diferente del aprendizaje no supervisado donde, en general, se le pide al agente que encuentre una estructura previamente desconocida en las entradas que recibe, y sin etiquetas de gatos y perros, tendría que descubrir que hay dos grupos de objetos diferentes basados ​​únicamente en La información contenida en los datos. También es diferente del aprendizaje de refuerzo que a menudo se aplica al sistema de tiempo real en el que se desconoce la secuencia exacta de decisión que conduce a una meta, pero solo una "recompensa" final decidirá si la secuencia fue correcta o no. Al utilizar el aprendizaje por imitación, transforman un problema clásico de aprendizaje por refuerzo en un problema de aprendizaje supervisado, en el que el error se calcula desde una distancia hasta una trayectoria observada.

Como es el caso de cualquier configuración de entrenamiento supervisado, la tarea en cuestión está completamente definida por la función de pérdida, que tiene como objetivo cuantificar qué tan lejos estaba el agente del comportamiento previsto. La definición de esta función es a menudo el paso crítico, ya que determina cómo los algoritmos de optimización actualizan los parámetros del modelo. Esos algoritmos son importantes en términos de tiempo de cálculo, y a menudo requieren algunos ajustes para poder converger, si es que lo hacen. De hecho, las soluciones que minimizarán la función en una dimensión muy alta residen en una capa muy pequeña del espacio de parámetros, con una pequeña distancia de separación entre ellas, tan pronto como se aleje de ese pequeño dominio, la distancia entre las soluciones aumenta rápidamente. Hay un montón de trabajo muy interesante sobre ese tema realizado entre otros por la increíble Jennifer Chayes, ella trata el tema en una entrevista muy interesante sobre el último episodio de Talking Machines.

Durante el entrenamiento de las redes de políticas (toda la red, capaz de decidir a partir de la entrada qué acción tomar), primero procesan la trayectoria de demostración exitosa. Para esta parte, compararán dos enfoques, la clonación clásica del comportamiento (no estoy seguro de la implementación que usaron) y los algoritmos DAGGER. Esto permitirá la minimización iterativa de la función de pérdida a través de l2 o la pérdida de entropía cruzada en función de si las acciones son continuas o discretas (en función de la distribución de eventos en la secuencia). En todos los experimentos, utilizaron el algoritmo Adamax para realizar la optimización con una tasa de aprendizaje de 0.001.

El tamaño del paso comienza pequeño y decae exponencialmente.

El algoritmo en sí mismo no permite la transferencia, es la forma en que construye su conjunto de entrenamiento y su función de pérdida lo que permitirá la transferencia.

Existen dos tipos de transferencia en las tareas. El primer tipo se conoce como "cerrar la brecha de la realidad", es una generalización en el aprendizaje que permite la transferencia entre el entrenamiento con entradas simuladas y las pruebas con estímulos naturales. Los datos de simulación son a menudo una aproximación empobrecida del mundo real, demasiado perfecta, carente de la complejidad del objeto real. En el mundo real, la cámara puede ser defectuosa y ruidosa, el control del motor será menos preciso, los colores cambiarán, las texturas serán más ricas, etc. Para permitir esta primera transferencia, utilizan un método al que se refieren como "aleatorización de dominio" : al agregar ruido a las entradas, la red puede aprender la estructura relevante común que le permitirá generalizarse adecuadamente al mundo real. Por ejemplo, cambiarán el ángulo de la cámara entre ejemplos de entrenamiento, cambiarán las texturas o harán que las trayectorias sean menos perfectas. Al agregar ruido durante el entrenamiento, agregamos robustez.

La segunda transferencia probada aquí es la capacidad de producir una secuencia motora relevante en un conjunto de configuración y objetivo nunca antes visto, basado en una demostración única que comienza en otra configuración inicial pero con un objetivo final similar. Nuevamente, aquí la transferencia será posible por cómo construimos el conjunto de entrenamiento y modelamos la función de pérdida. Al presentar demostraciones durante el entrenamiento que no comienzan desde la misma condición inicial para alcanzar un objetivo similar, permite que la red aprenda a incorporar una representación de alto nivel del objetivo sin usar posiciones absolutas, así como una representación de orden superior de La secuencia motora que no es una simple imitación. La ingenua arquitectura inicial permite que el entrenamiento modifique la estructura de una manera relevante, y esta estructura entrenada implica la función final.

Objetivos

Para el paradigma de apilamiento de bloques, tenían varias restricciones que querían que su agente de aprendizaje cumpliera.

Debería ser fácil de aplicar a instancias de tareas que tienen un número variable de bloques.
Naturalmente, debe generalizarse a diferentes permutaciones de la misma tarea. Por ejemplo, la política debería funcionar bien en la tarea {dcba}, incluso si solo está entrenada en la tarea {abcd}.
Debe acomodar demostraciones de longitudes variables.

Tenían varias preguntas que querían responder para esta tarea.

¿Cómo se compara la capacitación con clonación conductual con DAGA, dado que se pueden recopilar suficientes datos sin conexión?
¿Cómo se compara el condicionamiento en toda la demostración con el condicionamiento en la configuración final deseada, incluso cuando la configuración final tiene suficiente información para especificar completamente la tarea?
¿Cómo se compara el condicionamiento en toda la demostración con el condicionamiento en una "instantánea" de la trayectoria, que es un pequeño subconjunto de cuadros que son más informativos
¿Puede nuestro marco generalizar con éxito a tipos de tareas que nunca ha visto durante el entrenamiento? (++)
¿Cuáles son las limitaciones actuales del método?

Arquitectura

Alcance de partículas

Para este primer ejemplo, compararon tres arquitecturas, todas basadas en redes neuronales de memoria a corto plazo (LSTM). Una descripción de esas redes irá en una publicación futura sobre memoria y atención, que son temas absolutamente fascinantes tanto en ciencias cognitivas como computacionales. En esencia, un LSTM alimenta salidas de red anteriores (en el tiempo) como parte de la entrada de la red en cada nuevo punto de tiempo, lo que permite que la información de estados pasados ​​informe al presente (de ahí su nombre de redes de memoria a corto plazo). Están en la raíz de muchas tecnologías de vanguardia que tratan con series de tiempo (Alexa, Siri, etc.).

Aquí usan esas tres condiciones específicas:

  1. Plain LSTM: aprende a incrustar la trayectoria y el estado actual para alimentarlo a un perceptrón multicapa que producirá la acción motora
  2. LSTM con atención: produzca una representación ponderada sobre los puntos de referencia de la trayectoria
  3. Estado final con atención: use en la capacitación solo el estado final para producir una ponderación sobre los puntos de referencia, similar a la arquitectura anterior

Bloqueo de apilamiento

Si bien, en principio, una red neuronal genérica podría aprender el mapeo desde la demostración y la observación actual hasta la acción adecuada, consideramos importante utilizar una arquitectura adecuada. Nuestra arquitectura para el apilamiento de bloques de aprendizaje es una de las principales contribuciones de este documento, y creemos que es representativa de cómo se verían en el futuro las arquitecturas para el aprendizaje de imitación de una sola vez de tareas más complejas.

Módulos de atención

El artículo sigue siendo de un nivel relativamente alto al describir la estructura de las redes utilizadas para aprender la tarea. Un ingrediente clave de la arquitectura es su módulo de atención, pero creo que este tema necesita una publicación específica para profundizar en su papel esencial. Por analogía con el concepto de atención cognitiva de la ciencia cognitiva, los módulos de atención se utilizan para mantener y enfocarse en la información relevante contenida en diferentes tramos de espacio y tiempo. Produce una salida de tamaño fijo que contiene una incrustación de un contenido de información que se extendió en el tiempo y el espacio. Por analogía con la topología, una rama de la matemática que creo que informará en gran medida cómo entendemos las representaciones distribuidas en el futuro, una red de atención realiza un isomorfismo topológico de información, misma curvatura, forma diferente. Tenga en cuenta que estas redes no desempeñan un papel de detector de saliencia capaz de enfocarse en eventos inesperados o raros, que es una función asociada con la noción de atención en neurociencia.

Aquí usan dos tipos de red de atención: a) una red de atención temporal que produce una suma ponderada sobre el contenido (consulta, vectores de contexto y memoria) almacenados en la memoria, yb) una red de atención vecina que puede recuperar información relativa al bloqueo posiciones dependiendo de la consulta actual del agente.

Red de atención temporal, con c: vector de contexto, m: vector de memoria, q: vector de consulta, v: peso del vector aprendido. La salida es del mismo tamaño que el vector de memoria. Es una combinación lineal de esos vectores que permite que algún vector de memoria tenga más impacto en la salida en función del contexto y los vectores de consulta.La misma idea aquí, la competencia entre la información espacial es mantenida dinámicamente por el sistema de atención.

La red de políticas

La red completa se compone de tres subredes diferentes: la red de demostración, la red de contexto y la red de manipulación.

La red de demostración recibe una trayectoria de demostración como entrada, y produce una incorporación de la demostración para ser utilizada por la política. El tamaño de esta incrustación crece linealmente en función de la duración de la demostración, así como el número de bloques en el entorno.

Como se muestra aquí, la red de demostración puede incorporar demostraciones de diversa complejidad y tamaño en un formato común que la red de contexto utilizará para representar la tarea. Probablemente en este nivel ya se produce la generalización, la integración de la demostración debe dejar de lado la información sobre la trayectoria exacta y las posiciones absolutas del cubo vistas durante las demostraciones.

Si observamos la estructura de la red de contexto, aunque desde un nivel muy alto, vemos que la interfaz con la red de demostración alimenta una integración de la demostración en los módulos de atención temporal central. También vemos que las acciones previas (LSTM) y el estado actual se alimentan como entrada concatenada con la incrustación de demostración para producir una incrustación de contexto global enviada a la red motora.

Su descripción de la función de redes es, en mi opinión, la parte más importante del documento:

La red de contexto comienza calculando un vector de consulta en función del estado actual, que luego se utiliza para atender los diferentes pasos de tiempo en la integración de la demostración. Los pesos de atención sobre diferentes bloques dentro del mismo paso de tiempo se suman, para producir un solo peso por paso de tiempo. El resultado de esta atención temporal es un vector cuyo tamaño es proporcional al número de bloques en el entorno. Luego aplicamos la atención del vecindario para propagar la información a través de las incrustaciones de cada bloque. Este proceso se repite varias veces, donde el estado avanza utilizando una celda LSTM con pesos no vinculados.
La secuencia de operaciones anterior produce una incrustación cuyo tamaño es independiente de la duración de la demostración, pero aún depende del número de bloques. Luego aplicamos una atención suave estándar para producir vectores de dimensiones fijas, donde el contenido de la memoria solo consiste en posiciones de cada bloque, que, junto con el estado del robot, forma la entrada que se pasa a la red de manipulación.
Intuitivamente, aunque el número de objetos en el entorno puede variar, en cada etapa de la operación de manipulación, el número de objetos relevantes es pequeño y generalmente fijo. Para el entorno de apilamiento de bloques específicamente, el robot solo debe prestar atención a la posición del bloque que está tratando de recoger (el bloque fuente), así como a la posición del bloque que está tratando de colocar encima de ( el bloque objetivo). Por lo tanto, una red debidamente capacitada puede aprender a hacer coincidir el estado actual con la etapa correspondiente en la demostración e inferir las identidades de los bloques fuente y objetivo expresados ​​como pesos de atención suave sobre diferentes bloques, que luego se utilizan para extraer las posiciones correspondientes a pasar a la red de manipulación.

La forma en que terminan su descripción es un ejemplo perfecto de la deriva actual de la investigación de IA de un enfoque de sistema experto a un enfoque de sistema de aprendizaje, y también insinúa la discusión sobre cómo evolucionó el cerebro a continuación.

Aunque no aplicamos esta interpretación en la capacitación, nuestro análisis de experimentos respalda esta interpretación de cómo funciona internamente la política aprendida.

¡No saben cómo funciona! Construyen una estructura capaz de realizar ciertos cálculos y almacenar cierta información que creemos que es útil a priori, ¡y la alimentan con un conjunto de entrenamiento con la esperanza de que toda la estructura aprenda! Hay una especie de vudú de investigación de Inteligencia Artificial en ascenso, un arte, una forma de dirigir la búsqueda heurística en la dirección correcta. Y parece que muchos de esos magos ahora están trabajando para openAI.

En sus propias palabras, la red de manipulación es la estructura más simple, desde la incorporación de contexto alimentada al perceptrón multicapa, se produce una acción motora.

Resultados

Los resultados son a menudo una parte por la que tengo poco interés, especialmente para ese tipo de documentos técnicos increíblemente brillantes. Iré rápido, en resumen, este enfoque funciona, funciona con una precisión similar a las políticas de expertos codificadas y, al contrario de ese enfoque de procedimiento específico, es generalizable a una gran variedad de tareas.

Alcance de partículas

Bloqueo de apilamiento

En estos experimentos también probaron diferentes condiciones. Utilizando DAGGER, compararon tres condiciones de entrada diferentes disminuyendo el muestreo de la trayectoria demostrada: trayectorias completas, una instantánea de la trayectoria o solo utilizando el estado final. También compararon el algoritmo de clonación conductual con la trayectoria completa de la demostración.

Una fuerte evidencia de la capacidad del sistema para generalizar sobre la identidad del cubo

Discusión

Al leer los rápidos avances realizados por OpenAI en los últimos meses, siento una creciente necesidad de hablar sobre su trabajo y compartir mis pensamientos sobre lo que creo que es su trabajo, y los avances del campo de la IA en general, informan nuestra comprensión de cómo Los cerebros biológicos funcionan. En particular, esta idea cada vez mayor de que las funciones cognitivas aparentemente compartidas entre los seres humanos no se deben tanto a una estructura compartida que sabe de manera innata cómo realizar una tarea, sino que es el resultado de estructuras ingenuas relativamente similares que, confrontadas al mismo entorno, Aprende a realizar tareas similares. La función es el resultado de una estructura sin función que solo puede aprender una tarea específica debido a un entorno específico en lugar de una estructura que puede realizar la tarea de forma nativa, simplemente ajustando un par de parámetros para adaptarse al entorno.

Tareas versus configuraciones: una definición aparentemente arbitraria

Debo admitir que no entiendo por qué eligieron hablar sobre diferentes tareas de la manera en que lo hicieron. Una tarea se define en el experimento de apilamiento de bloques como un conjunto de cadenas que representan la posición de los bloques entre sí, el número de elementos en el conjunto define el número de pilas y el número de caracteres, el número de bloques que deben organizarse . Entonces, una tarea es una disposición de bloques en pilas independientemente de la posición absoluta de la pila.

Algunos bloques pueden estar sobre la mesa pero no son parte de la tarea

Su elección de definir la posición relativa y el número de pilas como criterios para tareas separadas parece arbitraria. De hecho, también podría tener sentido hablar sobre diferentes tareas basadas en las posiciones iniciales absolutas de los bloques (a lo que se refieren como configuración). Creo que la naturaleza común del problema es evidente para ellos, pero para mayor claridad prefieren no entrar en detalles. Tiene más sentido enmarcar el aprendizaje de políticas como dos tipos de generalizaciones, como lo hacen más adelante:

Tenga en cuenta que la generalización se evalúa en múltiples niveles: la política aprendida no solo necesita generalizarse a nuevas configuraciones y nuevas demostraciones de tareas ya vistas, sino que también debe generalizarse a nuevas tareas.

Simplemente reemplace "tareas" por "ordenamientos de pila". Aprender correctamente la tarea significa que el agente aprende una incrustación capaz de abstraer la posición de los cubos (configuración), pero también su identidad (tarea), el número de pilas (tarea) y la trayectoria de la demostración (introducida brevemente en la cita) para producir una respuesta motora relevante.

Esas generalizaciones parecen contradictorias, ¿cómo puede la misma red abstraer la configuración inicial del cubo o su identidad y recuperar su posición absoluta para la respuesta motora?

Esto explica la necesidad de diferentes subredes cooperativas durante el aprendizaje, recibiendo diferentes entradas, y explica que en la red de contexto una representación abstracta de la tarea recibe información de orden inferior, como posiciones absolutas de cubos, antes del comando descendente.

Puede pensar que comentar sobre esta distinción de tarea y configuración es una tontería, pero es esencial comprender que es esencialmente el mismo proceso de abstracción en juego en diferentes objetos (y esto se abre para la siguiente sección).

No hay aprendizaje sin invariancia

El aprendizaje de transferencia es quizás el concepto más fascinante de cognición, ya sea in-silico o in-vivo, es un tema muy candente tanto para investigadores de IA como para neurocientíficos, y resulta ser el tema de mi tesis doctoral. Tenga en cuenta que los conceptos estrechamente relacionados se han explorado en muchos campos antes del aprendizaje automático, y este concepto abstracto y siempre parcialmente definido tiene muchos nombres. Los filósofos, antropólogos y sociólogos podrían referirse a él como (Post) estructuralismo (Claude Levi-Strauss, Michel Foucault), el lingüista hablará sobre las estructuras de Syntagma y Nested Tree (Noam Chomsky), los matemáticos probablemente pensarán en el homeomorfismo o invariantes, y la educación Los investigadores o neurocientíficos pueden referirse a él como aprendizaje estructural. También puede ver un concepto relacionado en el campo del aprendizaje automático, como el aprendizaje de representación y el metaaprendizaje, que según el autor puede referirse al aprendizaje de transferencia o al paradigma de aprendizaje utilizado para realizar el aprendizaje de transferencia. Cuando se habla de redes neuronales profundas, estas diferencias son borrosas, ya que, en esencia, una red neuronal está aprendiendo a incrustar un determinado problema (aprendizaje de representación) modificando su estructura (meta-aprendizaje) generalmente en un entorno ruidoso que implica una forma de aprendizaje de transferencia.

Los investigadores de IA y los científicos cognitivos a menudo tienen una definición muy concreta del aprendizaje de transferencia, es el proceso que permite que un sistema use el conocimiento adquirido en una determinada tarea para realizar otra tarea que comparte una estructura de composición común (como se describe en el artículo). La ciencia cognitiva tiene esta noción de transferencia cercana y lejana, dependiendo de cómo las dos tareas parecen diferir. Pero desde una perspectiva más abstracta, en un entorno ruidoso y complejo, todo aprendizaje es una forma de transferencia de aprendizaje y la diferencia entre una transferencia muy cercana y muy lejana es solo una cuestión de información compartida, nuevamente una cuestión de escala, no de naturaleza.

En un entorno controlado, se realizan esfuerzos de antemano para construir una discretización codificada de la realidad, pero de hecho esta discretización reproduce de manera procesal lo que hace el aprendizaje de transferencia, une un conjunto infinito de estados que se encuentran en la realidad bajo una estructura envolvente común. En esencia, Transfer Learning se refiere directamente o por extensión al proceso a través del cual los agentes de aprendizaje usan invariantes para construir modelos del mundo. Es un proceso que utiliza similitudes, repeticiones y variaciones de los mismos, para formar una representación cada vez más abstracta y compuesta que estructurará los conjuntos sobre el intervalo de variación de la entrada. En un sentido general, permite crear las operaciones básicas a través de las cuales manipulamos grupos de información, al igual que en matemáticas permite la unión y las intersecciones. Permite identidades, explica nuestra capacidad para clasificar objetos. Josh Tenembaum da un ejemplo que realmente me habló: imagina que estás enseñando a un niño de dos años a reconocer un caballo por primera vez, le muestras un par de fotos de diferentes caballos y luego le muestras la foto de otro caballo y la foto de una casa y pídale que le diga cuál es el caballo. Un niño hará esta tarea con bastante facilidad, pero sigue siendo algo que una computadora no puede hacer bien con tan pocas entradas (aprendizaje de una sola vez).

¿Cómo lo hizo el niño?

El reconocimiento de animales se ha estudiado en niños y se relaciona con nuestra capacidad de deconstruir objetos en partes relevantes, la gama de colores del pelaje, el tamaño del cuello, la forma general, etc. Esta capacidad también es lo que le permite abrir una puerta nunca antes visto, has aprendido una secuencia motora que se generaliza a cualquier situación (generalización de dominio). También es lo que usa para construir modelos explicativos que simplifican el mundo, de hecho, podría sorprenderse inicialmente por la aparición repentina de un Cuco en un famoso reloj suizo, pero después de la segunda aparición, lo esperará. Encontrar invariancia es cómo aprende una red neuronal y esos modelos se construyen inconscientemente. Un ejemplo es cómo aprendemos intuitivamente sobre física incluso antes de haber oído hablar de matemáticas y números.

Uno puede preguntar, por ejemplo, ¿qué tan rápido se adaptaría un niño nacido en microgravedad a la gravedad de la Tierra y aprendería intuitivamente que los objetos caerán al suelo cuando se caigan?

Podríamos plantear la hipótesis de que los bebés y la mayoría de los animales revisarán su modelo inconscientemente, al igual que cuando le pones calcetines a las patas de un perro y les lleva algo de tiempo adaptarse a la nueva información.

Pero para un niño pequeño se llevará a cabo un interrogatorio consciente y una revisión de su modelo intuitivo, desde la curiosidad hasta el lenguaje, los símbolos y las creencias. Nuestra capacidad de interrogar y cambiar conscientemente nuestros modelos es fascinante, y como nota al margen, los humanos pueden ser la única especie capaz de verbalizar el proceso, pero otras especies pueden realizar revisiones conscientes similares.

La invariancia es una propiedad obligatoria del tiempo, si todo fuera siempre nuevo y de ninguna manera predecible, aún quedaría esta invariante única de que todo es siempre nuevo e impredecible. Es imposible imaginar un mundo sin invariancia, ya que no podría haber un mundo al que referirse, sin invariancia la vida sería imposible y nuestros cerebros inútiles. La vida es una máquina que funciona solo mediante la repetición predecible de eventos, la repetición de causas y efectos, la reintroducción cíclica de energía en el organismo. Y en la búsqueda de la vida para mejorar el uso de esos ciclos necesarios, nuestro cerebro es la herramienta definitiva. Es una máquina de predicción, un órgano adaptativo capaz de encontrar repeticiones dinámicamente y usarlo para interactuar mejor con el mundo.

Este método que eligió la vida es extremadamente robusto a ligeros cambios en la estructura. Lo que permanece igual es el mundo, las propiedades estadísticas del medio ambiente, pero la estructura neural que se encuentra con él puede variar siempre que pueda incorporar la información relevante que evolucionó para tratar. Esto explica por qué nuestros cerebros pueden ser tan diferentes de un individuo a otro, incluso de las cortezas primarias, y aún así compartir las mismas funciones.

Los sistemas nerviosos son adaptativos, no necesitan evolución y mutaciones genéticas lentas para alterar el comportamiento de manera relevante. Un sistema nervioso simple, como los que se encuentran en C. Elegans, sirve como coordinador interno innato y sensor externo: detecta la comida y avanza hacia ella, huye del dolor, reproduce. Esos sistemas simples eran inicialmente rígidos y realizaban una aproximación extrema de nuestro mundo altamente ruidoso para poder discretizarlo en un pequeño conjunto de estados posibles (comida a la izquierda, calor debajo, etc.). Nuestras habilidades motoras y sensoriales evolucionaron de la mano con nuestras capacidades predictivas del sistema nervioso. A medida que nuestros sensores se hicieron más precisos, el sistema nervioso lentamente pudo modificar su estructura para almacenar información y aprender de la experiencia. Inicialmente, fue capaz de aprender a reconocer ciertas categorías de entradas, como los tipos de olores o patrones de luz, y también fue capaz de aprender a través de prueba y error para controlar su sistema motor cada vez más complejo. Tenga en cuenta que el mundo es tan complejo que nuestro cerebro evolucionó naturalmente hacia un paradigma de aprendizaje en lugar de un enfoque de procedimiento innato. Computacionalmente, esto tiene mucho sentido, un simple juego de Go tiene un espacio de estado mucho más grande (2.10¹⁷⁰) que el número de átomos en el universo (10⁸⁰), y a medida que los organismos se vuelven más complejos tratando de codificar aproximaciones de todas las posibles afirma que podría estar rápidamente convertido en intratable debido a una explosión combinatoria.

Algunas personas pueden creer que nuestro cerebro está construido de tal manera que representa de forma innata el espacio en el que va a evolucionar, que en algún lugar del ADN hay un gen para lo que constituye una cara, o la organización temporal de las ondas de sonido que producen palabras arriba. Pueden creer que este conocimiento innato está codificado al nacer en alguna parte. Otros podrían creer, como mi maestro de filosofía cuando estaba en la escuela secundaria, que la existencia precede a la esencia, y que nuestro cerebro está completamente y exclusivamente definido por el encuentro del organismo y el mundo. La realidad es, por supuesto, más compleja, y para la mayoría de los sistemas telencefálicos que se han estudiado hasta ahora, el cerebro no codifica de forma innata la función que realizará, sino que la aprenderá dependiendo de la información contenida en sus entradas. Si la información de entrada es demasiado pobre, la capacidad de aprender en esa estructura puede tener una fecha de vencimiento (por ejemplo, ambliopía). Pero si la estructura innata no codifica la función final, el cerebro sí tiene una estructura específica. Esta estructura se conserva entre individuos, y los individuos de la misma especie comparten funciones e impulsos comunes. El ADN establece una determinada estructura en su lugar, una estructura que no puede realizar su función final de forma innata, pero una estructura capaz de aprender la complejidad de tareas específicas basadas en la experiencia individual. No es sorprendente que la evolución condujera a la aparición de una barrera hematoencefálica altamente efectiva que aísla el cerebro del resto del cuerpo, así como las meninges y la cubierta de hueso duro que lo protege del mundo exterior, porque a diferencia de otros órganos en los que la estructura está codificada en el genoma, la estructura de un cerebro entrenado no puede regenerarse a partir de un modelo almacenado de forma innata. Lo fascinante es que vemos los mismos mecanismos de aprendizaje que surgen por analogía a través del desarrollo de redes profundas cada vez más complejas que realizan tareas cada vez más complejas.

Las estructuras compositivas son difíciles de ver pero en todas partes

Como nota al margen, es extraño que incluso los autores no reconozcan que su primera tarea de alcanzar objetivos tiene una estructura compositiva.

Las tareas de llegar a las partículas demuestran muy bien los desafíos de la generalización en un escenario simplista. Sin embargo, las tareas no comparten una estructura compositiva, lo que dificulta la evaluación de la generalización a las nuevas tareas.

Aunque la estructura es de hecho un nivel más bajo que el apilamiento de bloques, y no es fácilmente accesible para la manipulación experimental, la tarea está compuesta de una estructura compartida. Aproximando el mundo a un plano, una estructura compositiva es que la identidad del cubo (color) se conserva con la traducción, y va desde el bloque A -o una posición inicial aleatoria- en la posición (Xa1, Ya1) hasta el bloque B en la posición (Xb1, Yb2 ) es parte de la misma estructura compositiva de orden superior que pasar del bloque A en la posición (Xa2, Ya2) al bloque B en la posición (Xb2, Yb2).

Interfaces entre redes

La gestión de redes neuronales capaces de tratar entradas en diferentes niveles de abstracción necesitará interfaces, un dominio que creo que tiene mucho por descubrir. Esas interfaces pueden ser de naturaleza numerosa. Por ejemplo, pueden verse como un lenguaje común entre dos redes, como se demuestra en el artículo, una red de nivel inferior armada con un sistema de atención (red de demostración) puede traducir una demostración en una representación que otra red (la red de contexto) puede usar para dirigir la acción sea cual sea la longitud o la configuración inicial de la demostración.

La superficie de este lenguaje es aquí un plano, de tamaño fijo, pero uno puede imaginar posibles alteraciones que podrían mejorar las comunicaciones entre la red. Por ejemplo, el tamaño de la superficie podría configurarse para crecer o reducirse dinámicamente a medida que las redes interactúan durante el aprendizaje, por lo tanto, comprimen o amplían la complejidad del lenguaje. También podríamos imaginar interacciones más dinámicas, a través de la retroalimentación, por ejemplo. Podríamos imaginar la existencia de redes de facilitadores que aprenderían a facilitar la comunicación entre redes, existiendo como una red paralela que aprende a modular la entrada de la primera red en función de la entrada y salida de la segunda red. Podríamos imaginar redes de contexto complejas que actúan como influjo tónico (variación lenta) en múltiples redes más especializadas ... ¡Fascinante área de investigación futura!

Los casos de fallas indican las posibles funciones que podrían tener los nuevos módulos

Vale la pena señalar que los errores a menudo se deben a errores motores y que el número de errores aumenta con la complejidad de la tarea.

La función motora no debe deteriorarse solo al aumentar el número de objetivos, esta es una fuerte evidencia de que la forma en que la red de reproducción aprende a hablar con la red motora es demasiado abstracta. Es extraño porque dicen que su prueba muestra que la interfaz entre la red de contexto y la red motora es relativamente concreta (posición del robot, posición del objetivo).

Una posible solución podría ser, dado que se trata de una arquitectura modular, utilizar diferentes funciones de pérdida o funciones de pérdida modular que representan cada uno un aspecto específico de la tarea. También sería ayudado por un equivalente de las áreas pre-motoras del cerebro para asegurar que la red de demostración y contexto pueda permanecer abstracta sin deteriorar el comando motor. Las regiones premotoras son necesarias para localizar mejor los objetos en función del objetivo (de redes abstractas) y las entradas sensoriales, para seleccionar el mejor comando motor. Parece que la red de contexto está tratando de transferir la demostración a una inserción de nivel superior y preparar la acción motora al mismo tiempo en un contexto actual. El papel de una red pre-motora sería aprender a comunicarse con el sistema motor de una manera adaptativa y orientada a objetivos, combinando las funciones del premotor y el cerebelo para el aprendizaje motor y la adaptación rápida.

Existe una teoría interesante, la paradoja de Moravec, que predice que no será una cognición de nivel superior lo que será agotador computacionalmente, sino el tratamiento de las entradas sensoriales y las salidas de los sistemas motores. De hecho, esto podría explicar la gran cantidad de neuronas presentes en nuestro cerebelo (más que en el resto de nuestro cerebro) para controlar adaptativamente la acción motora. Esta paradoja se formuló en una época (los años 80) cuando aún creíamos que podíamos incorporar nuestro propio conocimiento en una máquina para realizar tareas complejas en entornos ruidosos y descontrolados. Por supuesto, esta paradoja tiene sentido si de alguna manera la máquina es capaz de representar el mundo en un conjunto discreto de estados, construir una función de nivel superior sería más fácil. Pero creo que ambas demostrarán ser extremadamente exigentes, y la representación interna utilizada en la interfaz entre redes estará lejos de ser algo parecido a nuestras propias representaciones conscientes.

Conclusión

Al combinar diferentes redes neuronales, cada una a cargo de un tratamiento específico del problema, este artículo muestra que al crear una tarea que inherentemente necesita generalización, y al construir un entorno de aprendizaje apropiado a través de la aleatorización de dominio, una red neuronal con acceso a una memoria y un El sistema de atención puede aprender a generalizar más allá de la simple reproducción. Puede aprender a descubrir un objetivo de orden superior que se ha demostrado solo una vez en un flujo visual de información, y realiza el cálculo en un espacio generalizado para recuperar las acciones apropiadas capaces de reproducir ese objetivo en un contexto diferente.

En el futuro, veremos una creciente complejidad de estructuras construidas sobre esos bloques de construcción atómicos capaces de aprender a generalizar tareas complejas pero, lo que es más importante, realizar varias de esas tareas, en entornos nuevos, con menos dependencia de métodos codificados, como el preprocesamiento de entradas o almacenamiento de memoria. El almacenamiento de memoria será reemplazado por representaciones distribuidas a través de una red de memoria, los sistemas atencionales serán reemplazados por actividad cíclica en redes atencionales en tiempo real. La pregunta sigue siendo cómo podremos adaptar una tecnología serial fuerte (máquinas de Turing) a nuestra mayor dependencia de la computación distribuida en un sistema incorporado.