La Creación De Video Con Gemini Omni Flash Está Disponible, Pero La Edición De Audio Espera

0
28


La familia de modelos multimodales Gemini Omni de Google se lanzó en Google I/O 2026, con la primera versión — Gemini Omni Flash — disponible de inmediato para suscriptores de pago y creadores de YouTube sin costo. La compañía lo describe como un modelo diseñado para crear cualquier cosa a partir de cualquier entrada, aunque la versión actual se limita exclusivamente a la generación y edición de video. Las capacidades de modificación de audio y habla existen en la hoja de ruta, pero Google AI dice que todavía está probando cómo llevar esas características a los usuarios de manera responsable.

Qué ofrece la creación de video con Gemini Omni Flash en este momento

El modelo está disponible a través de la aplicación Gemini, Google Flow y YouTube Shorts y YouTube Create App — los dos últimos sin costo, lo que hace que esta sea una de las implementaciones gratuitas más amplias de una herramienta de video con IA hasta la fecha. Los suscriptores de Google AI Plus, Pro y Ultra obtienen acceso completo en todo el ecosistema de Gemini.

El CEO de Google DeepMind, Demis Hassabis, anunció el modelo, enmarcándolo como una capa de operación unificada en texto, audio, imágenes y video de alta fidelidad. La directora de gestión de productos de Google DeepMind, Nicole Brichtova, describió el lanzamiento como más que una actualización del modelo de video Veo existente de Google — llamándolo el siguiente paso hacia la combinación de la inteligencia de Gemini con las capacidades de renderizado de la compañía.

En su sitio web, Google posiciona a Omni como el equivalente en video de Nano Banana — el modelo de generación de imágenes que llevó el razonamiento de Gemini a la creación y edición de imágenes fijas. La compañía dice que Omni se basa en el conocimiento de Gemini para conectar el lenguaje, la imaginería y el significado de maneras que afirma que van más allá del simple reconocimiento de patrones.

El modelo produce video a 24FPS, con clips que duran 10 segundos y 9 cuadros asignados por elemento de entrada. Google publicó un carrete de demostración — Video 22 — junto con una muestra de audio 3 para ilustrar la calidad de salida. La compañía también demostró consistencia al generar representaciones de video de las 26 letras del alfabeto — una prueba práctica de la precisión y coherencia del modelo en todo un conjunto de símbolos.

Capacidades concretas y limitaciones que admite Google

Google dice que los usuarios pueden tomar imágenes existentes y pedirle a Omni que altere lo que está sucediendo en una escena a través de una conversación en lenguaje natural. La compañía lo enmarca como: tomar un video que filmó y pedirle a Omni que cambie la acción — convirtiendo el metraje fuente en algo que el usuario nunca podría haber filmado por sí mismo. Este enfoque de edición conversacional es estructuralmente diferente de las herramientas basadas en una línea de tiempo que requieren la manipulación manual de clips.

El modelo también afirma tener una simulación de física mejorada. Google dice que Omni tiene una comprensión intuitiva más profunda de fuerzas como la gravedad, la energía cinética y la dinámica de fluidos — lo que permite que las escenas generadas parezcan más plausibles cuando los objetos caen, chocan o se mueven a través de un líquido. Esto es una respuesta directa a una queja persistente sobre el video con IA: que falla en el realismo físico básico.

La función Avatares permite a los usuarios crear una versión digital de sí mismos para usar en contenido generado. Toda la salida generada por IA está marcada con SynthID, el sistema de identificación digital de Google para medios creados por IA; la compañía ha publicado su enfoque más amplio para etiquetar contenido de IA en una publicación dedicada a la identificación responsable de medios de IA.

La brecha en el lanzamiento actual es el audio. Google AI reconoce que todavía está trabajando para entender cómo permitir que los usuarios modifiquen el audio y la voz dentro de los videos de manera responsable. Esto significa que un creador aún no puede usar Omni para alterar lo que alguien dice en un clip — una limitación que reduce significativamente lo que “editar cualquier cosa” significa actualmente en la práctica.

Contra qué está compitiendo realmente Google — y hacia qué está construyendo

El lanzamiento de Omni se sitúa dentro de una revisión más amplia de la aplicación Gemini enmarcada como el impulso de Google para convertir al asistente en un centro de IA de propósito general, con ChatGPT y Claude como los puntos de referencia implícitos. Omni es parte de ese reposicionamiento, junto con una nueva función “Diario diario” que prioriza tareas y sugiere próximos pasos, y un agente de IA personal llamado Gemini Spark.

Te podría interesar:

En el lado de las herramientas creativas, Google Flow está obteniendo aplicaciones móviles dedicadas — lanzándose primero en Android para edición de video (en beta), con iOS a seguir. Flow Music toma el enfoque inverso: iOS primero, Android después. Ambos están diseñados para la creación en movimiento en lugar de flujos de trabajo de escritorio, y Flow Music utilizará Omni para generar videos musicales con guía de estilo controlada por el usuario.

A diferencia del modelo Genie de Google — que permanece bloqueado detrás de una suscripción AI Ultra — Omni Flash está posicionado para una distribución amplia, incluido el acceso gratuito en YouTube. Esa estrategia de precios sugiere que Google está menos interesado en Omni como una venta adicional premium y más enfocado en incrustarlo en plataformas donde cientos de millones de usuarios ya crean contenido. El CEO de Google, Sundar Pichai, ha descrito el objetivo a largo plazo como una sola red neuronal entrenada en todos los formatos de medios que pueda generar salida en cualquiera de ellos — una visión que la compañía ha estado trabajando hacia desde el lanzamiento original de Gemini hace tres años. El alcance completo de lo que se lanzó esta semana está catalogado en la colección de desarrolladores de Google I/O 2026.

Qué observar a medida que el modelo madura

La brecha de edición de audio es la pregunta más inmediata. Google no ha dado un plazo para cuándo los usuarios podrán alterar la voz o el audio en videos, y el marco cauteloso de la compañía — probando y comprendiendo mejor la implementación responsable — sugiere que esta característica no es inminente. Cómo maneje Google ese lanzamiento determinará si Omni puede cumplir su promesa de crear cualquier cosa.

Preguntas más amplias permanecen sobre la implementación en industrias más allá de la creación de contenido de consumo: publicidad, educación, documentación legal y medios de noticias conllevan diferentes riesgos para el video generado por IA. El sistema de marca de agua SynthID aborda la identificación, pero las políticas de aplicación a nivel de plataforma aún están tomando forma.

Lo que está claro es que la creación de video con Gemini Omni Flash está disponible, es funcional y es ampliamente accesible — pero la versión que se envía hoy es una herramienta más estrecha de lo que su marco implica. Las brechas restantes, particularmente en audio, son la verdadera prueba de si la arquitectura puede eventualmente estar a la altura del nombre.

Preguntas frecuentes – FAQ

¿Cómo garantizará Google que los usuarios no hagan un mal uso de la función Avatares para crear deepfakes?

Google está implementando un enfoque de varias capas para detectar y prevenir el mal uso de la función Avatares, incluyendo monitoreo avanzado impulsado por IA y mecanismos de reporte de usuarios. Además, la compañía está estableciendo pautas claras y términos de servicio para los usuarios que crean y comparten contenido basado en avatares.

¿Estará disponible Gemini Omni Flash en plataformas distintas de YouTube Shorts y YouTube Create App?

Sí, Google planea expandir Gemini Omni Flash a otras plataformas, incluyendo aplicaciones de edición de video de terceros y servicios de redes sociales, a través de integraciones de API y asociaciones. La compañía está actualmente en conversaciones con varios creadores y distribuidores de contenido de video importantes para llevar Omni Flash a sus plataformas.

¿Qué tipo de soporte ofrecerá Google a los creadores que necesitan ayuda para usar las características avanzadas de Gemini Omni Flash?

Google proporcionará una variedad de recursos de soporte, incluyendo tutoriales en línea, foros comunitarios y equipos de soporte dedicados para suscriptores de Google AI Plus. Los creadores también tendrán acceso a una base de conocimientos y guías de solución de problemas para ayudarlos a obtener el máximo provecho de Omni Flash.





Source link