NVIDIA Cosmos 3: el modelo open-source que enseña a las máquinas a entender el mundo físico
NVIDIA presentó Cosmos 3, un modelo de visión abierto diseñado para que robots, vehículos autónomos y sistemas industriales construyan representaciones del mundo real que les permitan planificar y actuar con seguridad.

Puntos Clave
Cosmos 3 es open-source y puede adaptarse a casos de uso específicos
El modelo construye representaciones 3D del entorno a partir de video, no solo clasifica imágenes
Mejora la planificación de movimiento en robots un 45% respecto a métodos anteriores
NVIDIA lo posiciona como la base para toda la IA física: robots, drones, vehículos autónomos
El modelo entiende propiedades físicas como gravedad, fricción y colisiones
Cosmos 3 no es otro modelo de visión por computador. Mientras la mayoría de modelos de visión se especializan en clasificar imágenes o generar contenido visual, Cosmos 3 tiene un objetivo diferente: construir una representación interna del mundo físico que permita a las máquinas planificar acciones reales.
1¿Qué hace diferente a Cosmos 3?
La diferencia fundamental es que Cosmos 3 no solo "ve" el mundo; lo entiende. Mientras un modelo de clasificación puede decirte que hay una mesa en una imagen, Cosmos 3 entiende:
- Dónde está la mesa en el espacio 3D
- Qué hay encima de la mesa y cuánto pesa aproximadamente
- Qué pasaría si empujas un objeto al borde de la mesa
- Por dónde puede moverse un robot sin chocar con la mesa
Un modelo que clasifica imágenes es un observador. Un modelo que entiende la física del mundo es un actor potencial.
Propiedades físicas aprendidas
Cosmos 3 demuestra comprensión implícita de propiedades físicas fundamentales:
- **Gravedad**: Predice correctamente cómo caen los objetos
- **Fricción**: Entiende que una caja sobre una rampa se deslizará
- **Colisiones**: Anticipa qué ocurre cuando dos objetos interactúan
- **Oclusión**: Sabe que un objeto detrás de otro sigue existiendo
2Rendimiento y benchmarks
📊 En el benchmark RoboNav-2026, Cosmos 3 mejora la precisión de planificación de movimiento en un 45% respecto al mejor modelo anterior. En navegación autónoma, reduce los incidentes de colisión simulados en un 67%.
Estas cifras son impresionantes, pero el verdadero impacto está en las aplicaciones del mundo real.
3Aplicaciones prácticas
Conducción autónoma
Cosmos 3 puede procesar la información de múltiples cámaras y sensores LiDAR para construir una representación completa del entorno de conducción. Esto incluye predecir el movimiento de peatones, ciclistas y otros vehículos.
Robótica industrial
En fábricas y almacenes, Cosmos 3 permite que los robots planifiquen rutas de navegación que eviten obstáculos dinámicos (personas, carretillas, otros robots) en tiempo real.
Drones de inspección
Para drones que inspeccionan infraestructura (puentes, torres eléctricas, paneles solares), Cosmos 3 proporciona la capacidad de navegar de forma autónoma alrededor de estructuras complejas.
Agricultura de precisión
Robots agrícolas pueden usar Cosmos 3 para navegar entre filas de cultivos, identificar plantas individuales y ejecutar acciones precisas como riego selectivo o eliminación de maleza.
4El enfoque open-source
NVIDIA ha tomado la decisión estratégica de hacer Cosmos 3 open-source. Esto permite que:
- La comunidad adapte el modelo a casos específicos
- Empresas pequeñas y startups accedan a tecnología de vanguardia
- Investigadores lo usen como base para nuevos avances
- Se cree un ecosistema de herramientas y aplicaciones alrededor del modelo
💡 La estrategia de NVIDIA es clara: al hacer el modelo open-source, aumenta la adopción de sus GPUs (que son necesarias para ejecutar el modelo), creando un flywheel de valor.
5Requisitos de hardware
Cosmos 3 viene en tres variantes:
- **Cosmos 3 Lite**: Para dispositivos edge con GPUs NVIDIA Jetson
- **Cosmos 3 Standard**: Para servidores con GPUs A100/H100
- **Cosmos 3 Ultra**: Para centros de datos con clusters de GPUs
6El futuro de la IA física
Cosmos 3 representa un paso importante en la transición de modelos que solo procesan información digital (texto, imágenes, código) a modelos que entienden y pueden interactuar con el mundo físico. Esta es la base sobre la que se construirán los robots y vehículos autónomos de la próxima década.