Last Updated on agosto 30, 2025 1:26 pm by Laszlo Szabo / NowadAIs | Published on agosto 29, 2025 by Laszlo Szabo / NowadAIs
Google DeepMind ha presentado lo que muchos usuarios consideran el avance más impresionante en edición de imágenes con IA hasta la fecha. El modelo secreto que dominaba las clasificaciones de LMArena.ai bajo el misterioso nombre en clave “Nano Banana” se ha presentado oficialmente como Gemini 2.5 Flash Image. No se trata de una simple actualización incremental, sino que representa un cambio fundamental en la forma en que la IA gestiona la edición de imágenes, sobre todo a la hora de mantener la coherencia de los caracteres y permitir flujos de trabajo de edición conversacionales naturales.
El avance más significativo de Gemini en la edición de imágenes reside en su capacidad para mantener la identidad de los personajes en múltiples ediciones. Los anteriores editores de imágenes por IA sufrían lo que Google denomina el problema de “parecido pero no igual”, en el que las fotos editadas de personas perdían rasgos faciales sutiles que hacen que alguien sea reconocible. El nuevo modelo de Google está diseñado específicamente para que las fotos de amigos, familiares y mascotas se parezcan siempre a ellos mismos, tanto si estás probando un corte de pelo de los años 60 como si le pones un tutú a tu chihuahua. Este avance resuelve una de las limitaciones más frustrantes que impedían que la edición de imágenes con IA fuera práctica para las fotos personales.

La tecnología funciona analizando y preservando los rasgos identificativos clave durante el proceso de edición. El modelo mantiene la apariencia de un personaje u objeto a través de múltiples indicaciones y ediciones, lo que permite a los usuarios colocar el mismo personaje en diferentes entornos conservando el sujeto. Esta capacidad se extiende más allá de los rostros humanos para incluir mascotas y otros sujetos, lo que la hace realmente útil para una amplia gama de aplicaciones creativas.
Este enfoque conversacional representa un cambio fundamental con respecto a los flujos de trabajo tradicionales de edición de imágenes. En lugar de empezar de nuevo con cada edición, Gemini 2.5 Flash Image Preview admite la edición multigiro mejorada, lo que permite responder al modelo con cambios tras recibir una imagen. El sistema recuerda el contexto de las ediciones anteriores y se basa en ellas, creando una experiencia de edición más natural y eficaz.
Esta tecnología de fusión de múltiples imágenes demuestra una notable comprensión de la iluminación, la perspectiva y la composición. El modelo puede entender y fusionar varias imágenes de entrada, lo que permite a los usuarios colocar un objeto en una escena, cambiar el estilo de una habitación con una combinación de colores o una textura y fusionar imágenes con una sola indicación. Los resultados suelen parecer fotografías naturales en lugar de composiciones artificiales, lo que supone un avance significativo en la composición de imágenes con IA.
La función de transferencia de estilo va más allá de los simples cambios de color. La IA puede entender patrones visuales complejos, texturas y elementos artísticos, y aplicarlos contextualmente a diferentes objetos manteniendo proporciones e iluminación realistas. Esta capacidad hace que la edición de imágenes en Gemini sea especialmente valiosa para el diseño de moda, la visualización de productos y la exploración creativa.
Las pruebas comparativas muestran claras ventajas sobre los competidores. Las pruebas revelaron que Gemini mantiene la mayor fidelidad al editar imágenes en comparación con ChatGPT y otras herramientas, destacando especialmente a la hora de realizar transformaciones específicas conservando los elementos originales de la imagen. Esta ventaja de fidelidad lo hace especialmente útil para aplicaciones prácticas en las que es crucial mantener la integridad de la foto original.
También está disponible para desarrolladores a través de múltiples canales. Se puede acceder a Gemini 2.5 Flash Image a través de la API de Gemini, Google AI Studio y las plataformas Vertex AI, con un precio de 30,00 dólares por 1 millón de tokens de salida. Este acceso para desarrolladores permite la integración en aplicaciones y servicios de terceros, ampliando potencialmente el alcance de estas capacidades más allá de los propios productos de Google.
El enfoque de la marca de agua responde a la creciente preocupación por los contenidos generados por IA y la desinformación. SynthID incrusta una marca de agua digital directamente en el contenido generado por IA sin comprometer la calidad del contenido original, y la marca de agua puede soportar técnicas de edición habituales como el recorte, la compresión y los filtros. Esta tecnología garantiza la transparencia manteniendo la calidad de la imagen.
La edición de imágenes en Gemini se beneficia de la integración con las capacidades más amplias de IA de Google. El modelo se beneficia del conocimiento del mundo de Gemini, que desbloquea nuevos casos de uso más allá de la generación tradicional de imágenes estéticas. Esto significa que la IA puede comprender el contexto, las referencias culturales y las relaciones del mundo real a la hora de tomar decisiones de edición.
La base técnica combina múltiples técnicas avanzadas de IA. El sistema utiliza modelos de difusión para la generación de imágenes e incorpora grandes capacidades de modelos de lenguaje para el seguimiento de instrucciones. Este enfoque híbrido hace posible una interfaz de lenguaje natural que hace que el proceso de edición sea intuitivo para usuarios sin conocimientos técnicos.
Las implicaciones competitivas son considerables. ChatGPT cuenta ya con más de 700 millones de usuarios semanales, mientras que Gemini, de Google, tenía 450 millones de usuarios mensuales en julio. La capacidad superior de edición de imágenes podría ayudar a Google a cerrar esta brecha de usuarios al proporcionar una funcionalidad convincente que diferencie a Gemini de sus competidores.
Uno de los aspectos más atractivos de la edición de imágenes en Gemini es su accesibilidad para los usuarios no expertos. La interfaz de lenguaje natural elimina la necesidad de aprender complejas interfaces de software o terminología técnica. Los usuarios sólo tienen que describir los cambios que desean realizar en un lenguaje sencillo, lo que pone la edición avanzada de imágenes al alcance de un público mucho más amplio que las herramientas tradicionales como Photoshop.
La naturaleza conversacional del proceso de edición también reduce la curva de aprendizaje. Los usuarios pueden experimentar con distintas instrucciones y ver resultados inmediatos, y así comprender las posibilidades que ofrece la experiencia directa en lugar de estudiar documentación o tutoriales.
SynthID: tecnología de marca de agua digital invisible de Google DeepMind que incrusta marcadores indetectables en contenidos generados por IA para identificarlos como creados artificialmente sin afectar a la calidad de la imagen.
Edición multivuelta: Un enfoque conversacional de la edición de imágenes en el que los usuarios pueden realizar modificaciones secuenciales en la misma imagen a través de un diálogo continuo, en el que cada edición se basa en los cambios anteriores.
Consistencia del personaje: La capacidad de la IA para mantener los rasgos faciales, las expresiones y las características identificativas de la misma persona en diferentes ediciones, poses y escenarios.
LMArena: Una plataforma de crowdsourcing en la que los modelos de IA compiten de forma anónima, permitiendo a los usuarios votar sobre qué modelo produce mejores resultados para diversas tareas.
Nano Banana: El misterioso nombre en clave utilizado durante las pruebas de lo que ahora se llama oficialmente Gemini 2.5 Flash Image, que dominaba las clasificaciones de edición de imágenes antes de su lanzamiento público.
Fusión de imágenes: El proceso de combinar varias imágenes separadas en una única composición cohesiva con iluminación, sombras e integración de perspectiva realistas.
P: ¿Cómo mantiene la edición de imágenes en Gemini la coherencia de los caracteres mejor que otras herramientas de IA?
R: La edición de imágenes en Gemini utiliza algoritmos avanzados diseñados específicamente para analizar y conservar los rasgos identificativos clave durante el proceso de edición. A diferencia de otras herramientas que pueden distorsionar los rostros o cambiar características sutiles, el modelo de Gemini mantiene la estructura facial, las expresiones y los rasgos identificativos únicos a través de múltiples ediciones. El sistema reconoce que para mantener la identidad de un personaje es necesario conservar las proporciones y los detalles específicos que hacen que alguien sea reconocible. Esta tecnología aborda el efecto del “valle inquietante”, en el que las fotos editadas con IA parecen casi correctas pero en cierto modo incorrectas, por lo que resulta práctica para editar fotos personales.
P: ¿Puedo utilizar la edición de imágenes en Gemini para proyectos comerciales sin marcas de agua?
R: Todas las imágenes creadas o editadas con Gemini incluyen marcas de agua SynthID visibles e invisibles para identificarlas como contenido generado por IA. Actualmente, no existe ninguna opción para eliminar estas marcas de agua, ya que forman parte de la iniciativa de IA responsable de Google para garantizar la transparencia del contenido generado por IA. Para uso comercial, deberás considerar si los requisitos de las marcas de agua se ajustan a las necesidades de tu proyecto. Las marcas de agua están diseñadas para ser mínimamente intrusivas y, al mismo tiempo, identificar claramente la participación de la IA.
P: ¿En qué se diferencia la edición de imágenes en Gemini del software tradicional de edición fotográfica como Photoshop?
R: La edición de imágenes en Gemini funciona mediante comandos de lenguaje natural en lugar de la manipulación manual de herramientas, lo que la hace accesible a usuarios sin conocimientos técnicos. En lugar de seleccionar herramientas específicas, ajustar controles deslizantes o trabajar con capas, los usuarios sólo tienen que describir los cambios que desean en un lenguaje sencillo. La IA entiende el contexto y puede realizar ediciones complejas que requerirían múltiples pasos en el software tradicional. Además, el enfoque conversacional permite el perfeccionamiento iterativo a través del diálogo, y el sistema mantiene el contexto a través de múltiples rondas de edición.
P: ¿Cómo funciona la función de edición multigiro en la edición de imágenes de Gemini?
R: La edición multivuelta en la edición de imágenes en Gemini permite a los usuarios mantener conversaciones continuas sobre las modificaciones de la imagen, en las que cada edición se basa en cambios anteriores. Se puede comenzar con una imagen de base, realizar una edición inicial y, a continuación, seguir perfeccionando aspectos específicos mediante indicaciones adicionales. El sistema recuerda el contexto de las ediciones anteriores y conserva los cambios realizados con éxito mientras aplica las nuevas modificaciones. Esto crea una experiencia de edición colaborativa en la que puede perfeccionar progresivamente su imagen hasta que coincida con su visión, en lugar de empezar de nuevo con cada cambio.
P: ¿La edición de imágenes en Gemini es gratuita y cuáles son sus limitaciones?
R: La edición de imágenes en Gemini está disponible tanto para usuarios gratuitos como premium a través de la aplicación Gemini, lo que permite acceder a funciones avanzadas de edición de IA sin requisitos de suscripción. Los usuarios gratuitos pueden encontrar cuotas de uso o límites en el número de ediciones por día, aunque las restricciones específicas no están claramente definidas. Todas las imágenes generadas incluyen marcas de agua, independientemente del tipo de cuenta. El servicio está disponible en más de 45 idiomas y en la mayoría de los países, aunque la disponibilidad puede variar según la región. Los usuarios Premium pueden recibir acceso prioritario durante periodos de alta demanda y límites de uso potencialmente más altos.

