En los últimos años hemos visto cómo la inteligencia artificial ha transformado la forma en que las máquinas perciben, piensan y actúan. Pero 2025 marca un punto de inflexión: los nuevos modelos de Visión-Lenguaje-Acción (VLA) están llevando la robótica a un nivel de autonomía y comprensión del entorno que antes solo parecía ciencia ficción.
Estos modelos integran tres capacidades esenciales. La visión permite interpretar el entorno físico en tiempo real; el lenguaje aporta la comprensión de instrucciones humanas o la generación de descripciones contextuales; y la acción ejecuta tareas físicas de forma coherente con lo que el sistema “entiende” del mundo.
A diferencia de los sistemas tradicionales, que requerían una programación rígida y predefinida, los robots impulsados por VLA pueden razonar espacialmente, aprender de la observación y adaptar sus movimientos ante escenarios nuevos. Google, por ejemplo, presentó recientemente su modelo Gemini Robotics-ER, capaz de combinar información visual, instrucciones de texto y datos sensoriales para actuar de manera segura y autónoma en entornos reales.
Este avance abre enormes oportunidades para la Industria 4.0. Imaginemos robots capaces de aprender tareas complejas observando a los operarios, sistemas de mantenimiento autónomo que identifican, diagnostican y ejecutan acciones correctivas, o entornos colaborativos donde humanos y máquinas trabajan de forma más intuitiva y natural, reduciendo tiempos de configuración y entrenamiento.
No obstante, los retos siguen siendo significativos. Garantizar la seguridad en la interacción entre humanos y robots, asegurar la trazabilidad de las decisiones de la IA y lograr una integración fluida con los sistemas industriales existentes son desafíos que aún deben resolverse.
Estamos, en definitiva, ante un cambio de paradigma. La robótica ya no solo ejecuta instrucciones: entiende, decide y actúa. Y en esa convergencia de visión, lenguaje y acción, se perfila el futuro de la automatización inteligente.