¿Conoces la idea de «MEZCLA DE EXPERTOS» en la #IA? . Pues realmente puede ser uno de los secretos de la rapidez y eficiencia de GPT4. 😮  
 
La técnica MEZCLA DE EXPERTOS (Mixture of Experts) o MoE, como se conoce con sus siglas en inglés se basa en la idea de utilizar múltiples «expertos» especializados en tareas específicas, en lugar de una sola red neuronal en los modelos LLMs. 
 
Imagina una escuela donde cada profesor es un experto en un tema específico, como matemáticas, historia o arte. Cada estudiante tiene diferentes necesidades y intereses. Al usar la técnica MoE, cuando un estudiante tiene una pregunta, en lugar de ir a un solo profesor que lo sabe todo, se dirige al profesor experto en ese tema específico. De esta manera, cada estudiante recibe la ayuda más efectiva y personalizada 
 
El paper titulado «Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning» y publicado el pasado septiembre nos habla de esta interesante técnica y su posible mejora, ya que es una técnica que no es nueva y que se ha usado en otros ámbitos. 

https://arxiv.org/pdf/2309.05444.pdf

La idea es que SI, cada experto es una red neuronal que se entrena (de manera individualizada) para ser buena en un tipo particular de tarea. Cuando el modelo recibe una entrada, selecciona y utiliza solo los expertos más relevantes para esa tarea, lo que lo hace más eficiente y efectivo.  
 
A diferencia de los LLMs tradicionales, que utilizan una única red para todas las tareas, los modelos MoE distribuyen el trabajo entre varios expertos, optimizando el rendimiento y la eficiencia. 


En los modelos MoE, el «organizador» se refiere generalmente al mecanismo de enrutamiento o selección de expertos. Cuando llega una tarea, el modelo necesita decidir qué experto o expertos son los más adecuados para manejar esa tarea específica. Este proceso de decisión se maneja a través de un «gate» o mecanismo de enrutamiento. 


 
El gate evalúa la entrada (la tarea) y, basándose en su aprendizaje y en las características de la entrada, determina qué experto(s) dentro del modelo tienen más probabilidades de procesar eficazmente esa tarea. El gate puede dirigir la tarea a un único experto, o a varios expertos, dependiendo de cómo esté configurado el modelo y de la complejidad de la tarea. 
 
¿Porqué puede ser uno de los secretos de GPT4? (no es oficial) 
El 20 de junio, George Hotz, fundador de la startup autónoma Comma.ai, filtró que GPT-4 no es un único modelo denso monolítico (como GPT-3 y GPT-3.5), sino una mezcla de 8 modelos x 220 mil millones de parámetros. 
A veces es más fácil crear un modelo menos complicado que funcione bien para realizar una tarea específica 
 
¿Es posible que el rendimiento no siempre provenga del escalamiento sino de una implementación inteligente?