Computer Vision1 de junio de 2026

NVIDIA Cosmos 3: el modelo open-source que enseña a las máquinas a entender el mundo físico

NVIDIA presentó Cosmos 3, un modelo de visión abierto diseñado para que robots, vehículos autónomos y sistemas industriales construyan representaciones del mundo real que les permitan planificar y actuar con seguridad.

4 min de lectura76 vistas636 palabras
NVIDIA Cosmos 3: el modelo open-source que enseña a las máquinas a entender el mundo físico

Puntos Clave

1

Cosmos 3 es open-source y puede adaptarse a casos de uso específicos

2

El modelo construye representaciones 3D del entorno a partir de video, no solo clasifica imágenes

3

Mejora la planificación de movimiento en robots un 45% respecto a métodos anteriores

4

NVIDIA lo posiciona como la base para toda la IA física: robots, drones, vehículos autónomos

5

El modelo entiende propiedades físicas como gravedad, fricción y colisiones

Cosmos 3 no es otro modelo de visión por computador. Mientras la mayoría de modelos de visión se especializan en clasificar imágenes o generar contenido visual, Cosmos 3 tiene un objetivo diferente: construir una representación interna del mundo físico que permita a las máquinas planificar acciones reales.

1¿Qué hace diferente a Cosmos 3?

La diferencia fundamental es que Cosmos 3 no solo "ve" el mundo; lo entiende. Mientras un modelo de clasificación puede decirte que hay una mesa en una imagen, Cosmos 3 entiende:

  • Dónde está la mesa en el espacio 3D
  • Qué hay encima de la mesa y cuánto pesa aproximadamente
  • Qué pasaría si empujas un objeto al borde de la mesa
  • Por dónde puede moverse un robot sin chocar con la mesa

Un modelo que clasifica imágenes es un observador. Un modelo que entiende la física del mundo es un actor potencial.

Propiedades físicas aprendidas

Cosmos 3 demuestra comprensión implícita de propiedades físicas fundamentales:

  • **Gravedad**: Predice correctamente cómo caen los objetos
  • **Fricción**: Entiende que una caja sobre una rampa se deslizará
  • **Colisiones**: Anticipa qué ocurre cuando dos objetos interactúan
  • **Oclusión**: Sabe que un objeto detrás de otro sigue existiendo

2Rendimiento y benchmarks

📊 En el benchmark RoboNav-2026, Cosmos 3 mejora la precisión de planificación de movimiento en un 45% respecto al mejor modelo anterior. En navegación autónoma, reduce los incidentes de colisión simulados en un 67%.

Estas cifras son impresionantes, pero el verdadero impacto está en las aplicaciones del mundo real.

3Aplicaciones prácticas

Conducción autónoma

Cosmos 3 puede procesar la información de múltiples cámaras y sensores LiDAR para construir una representación completa del entorno de conducción. Esto incluye predecir el movimiento de peatones, ciclistas y otros vehículos.

Robótica industrial

En fábricas y almacenes, Cosmos 3 permite que los robots planifiquen rutas de navegación que eviten obstáculos dinámicos (personas, carretillas, otros robots) en tiempo real.

Drones de inspección

Para drones que inspeccionan infraestructura (puentes, torres eléctricas, paneles solares), Cosmos 3 proporciona la capacidad de navegar de forma autónoma alrededor de estructuras complejas.

Agricultura de precisión

Robots agrícolas pueden usar Cosmos 3 para navegar entre filas de cultivos, identificar plantas individuales y ejecutar acciones precisas como riego selectivo o eliminación de maleza.

4El enfoque open-source

NVIDIA ha tomado la decisión estratégica de hacer Cosmos 3 open-source. Esto permite que:

  • La comunidad adapte el modelo a casos específicos
  • Empresas pequeñas y startups accedan a tecnología de vanguardia
  • Investigadores lo usen como base para nuevos avances
  • Se cree un ecosistema de herramientas y aplicaciones alrededor del modelo

💡 La estrategia de NVIDIA es clara: al hacer el modelo open-source, aumenta la adopción de sus GPUs (que son necesarias para ejecutar el modelo), creando un flywheel de valor.

5Requisitos de hardware

Cosmos 3 viene en tres variantes:

  • **Cosmos 3 Lite**: Para dispositivos edge con GPUs NVIDIA Jetson
  • **Cosmos 3 Standard**: Para servidores con GPUs A100/H100
  • **Cosmos 3 Ultra**: Para centros de datos con clusters de GPUs

6El futuro de la IA física

Cosmos 3 representa un paso importante en la transición de modelos que solo procesan información digital (texto, imágenes, código) a modelos que entienden y pueden interactuar con el mundo físico. Esta es la base sobre la que se construirán los robots y vehículos autónomos de la próxima década.

Última actualización: 2 de julio de 2026