La empresa Apple lanza un artículo científico donde nos habla de las #CAPACIDADES de los Modelos de Lenguaje Multimodal a Gran Escala (#MLLMs)-

Si, has leído bien, el artículo lo firma #Apple, una empresa que aún no tiene un modelo competitivo en el mercado y que nos enseña nuevas técnicas de entrenamiento multimodal.

https://arxiv.org/abs/2403.09611

¡Vamos a entender la investigación!

Los #MLLMs, como el modelo #MM1 mencionado en la investigación, logran una eficiencia notable en el procesamiento de texto e imagen gracias a varias estrategias y características clave:

Son entrenados con grandes cantidades tanto texto como imágenes. Esto les permite aprender no solo la semántica y la gramática del lenguaje humano sino también las características visuales del mundo físico, y cómo el texto y las imágenes se correlacionan entre sí.

Además utilizan arquitecturas capaces de manejar diferentes tipos de datos de entrada. Esto permite al modelo procesar eficientemente la información textual y visual, extrayendo y combinando características relevantes de ambos dominios.

Uno de los hallazgos clave de la investigación es la importancia de la proporción y resolución adecuadas de los datos de imagen y texto durante el entrenamiento. Encontrar el balance correcto entre estos elementos es crucial para maximizar la eficiencia y la efectividad del modelo en tareas multimodales.

¿Cómo funciona?.. un ejemplo

Un niño comienza a explorar una biblioteca llena de libros de cuentos. Cada libro contiene una mezcla de palabras e imágenes: las palabras narran historias de aventuras, emociones y conocimientos, mientras que las imágenes complementan estas historias, brindando contextos visuales que enriquecen la comprensión y la imaginación del niño

Al igual que un niño, los #MLLMs son alimentados con grandes cantidades de datos que contienen pares de texto e imágenes. Este «preentrenamiento» es como permitir que el niño lea extensamente, absorbiendo información de ambos formatos y aprendiendo cómo se relacionan las palabras con las imágenes para contar historias completas.

El niño no solo disfruta de las historias, sino que también comienza a notar patrones: cómo las descripciones en el texto a menudo se reflejan en las ilustraciones y viceversa. De manera similar los modelos aprenden a identificar y comprender las relaciones entre los datos textuales y visuales, lo que les permite generar inferencias y conocimientos que abarcan ambas modalidades.

Con cada libro que el niño termina, su habilidad para imaginar escenas y personajes mejora, al igual que su capacidad para «leer» imágenes y entender su significado sin necesidad de texto. Este proceso es análogo a cómo los MLLMs desarrollan la capacidad de procesar y generar contenido que integra texto e imagen de manera fluida y coherente.

Después de esta lectura y aprendizaje, el niño no solo puede disfrutar y entender nuevos libros más rápidamente, sino que también puede contar sus propias historias, usando tanto palabras como dibujos. Al igual los MLLMs pueden aplicar lo que han aprendido a tareas nuevas y desconocidas, realizando inferencias y creaciones con pocos ejemplos adicionales.