En este capítulo, exploramos una nueva generación de arquitecturas de inteligencia artificial conocidas como “world models”, sistemas diseñados no solo para predecir palabras, sino para construir representaciones internas del mundo físico. Frente a los grandes modelos de lenguaje como ChatGPT, entrenados con enormes cantidades de texto, estas nuevas aproximaciones aprenden observando vídeo, movimiento y dinámica temporal para anticipar acciones, comprender escenas y planificar en entornos reales.
Hablamos sobre los límites actuales de los LLMs, el concepto de espacio latente, las propuestas impulsadas por Yann LeCun y el desarrollo de sistemas capaces de funcionar en robots, gafas inteligentes o asistentes físicos del futuro.
Nos lo cuenta Lorenzo Mur-Labadia, investigador de la Universidad de Zaragoza y colaborador del equipo de Meta FAIR en trabajos sobre modelos predictivos y vídeo egocéntrico.