El lanzamiento de Sora hace unos días ha vuelto a asombrarnos por el realismo logrado en esos vídeos generados por IA. Sin embargo este modelo es distinto a ChatGPT y desde luego a DALL-E.
Y lo es porque mietras que ChatGPT trata de “adivinar” por probabilidad las palabras adecuadas para contestar a nuestras preguntas, Sora trata de simular la física del mundo real. Es al menos lo que indican expertos en inteligencia artificial como Jim Fan, que trabaja en NVIDIA y que está fascinado por este modelo en particular.
Ese vídeo es una buena demostración de su teoría. En él se le pide al modelo que simule una batalla naval entre dos barcos piratas que navegan en una taza de café. El vídeo resultante no es perfecto, pero sigue siendo asombroso por varios motivos.
Para empezar, porque los dos barcos navegan evitándose el uno al otro, pero también porque la mecánica de fluidos del café, espuma incluida, es especialmente llamativa. Como indica Fan, “la simulación de fluidos es un subcampo por sí mismo en los gráficos generados por ordenador, y tradicionalmente requiere algoritmos y ecuaciones muy complejas”. El simulador incluso tiene en cuenta que la escena tiene lugar en una taza de café y aplica la técnica fotográfica tilt-shift para darle un aspecto aún más curioso al vídeo resultante.
Muchos criticaban la opinión de Fan en las respuestas a su hilo y argumentaban que Sora “simplemente está manipulando pixels en 2D”. Este experto cree que esa es una teoría reduccionista y es como decir que “GPT-4 no aprende a programar, solo está muestreando cadenas de texto”.
Para él la simulación de física “suave” de Sora es una “propiedad emergente” que se ampliará de forma masiva con el entrenamiento de texto a vídeo. Como se ve en ese vídeo del vaso, la física es imperfecta. Los propios responsables de OpenAI lo dejaban claro en su informe técnico, en el que decían que “En la actualidad Sora exhibe numerosas limitaciones como simulador. Por ejemplo, no modela de forma precisa la física de muchas interacciones básicas, como cuando se rompe un cristal”.