Así es CM3leon, la nueva IA de Meta para crear imágenes a partir de texto y viceversa

Puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, incluso, puede responder preguntas sobre una imagen.

2023-07-15

Por Europa Press

Meta ha presentado CM3leon, el primer modelo multimodal de inteligencia artificial (IA) generativa capaz de crear imágenes a partir de texto y viceversa, con una “receta adaptada” de lenguaje multimodal que, además, se entrena con “cinco veces menos recursos”.

Tal y como ha explicado la compañía en un comunicado en su blog, se trata de una solución innovadora porque es “primer modelo multimodal” que está entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.

Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento “de última generación” para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la “versatilidad y efectividad de los modelos autorregresivos”. Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.

Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a “secuencias arbitrarias de otro contenido de imagen y texto”. Tal y como ha sentenciado la compañía, “esto amplía enormemente la funcionalidad de los modelos anteriores que eran solo de texto a imagen o solo de imagen a texto”.

Meta planea el lanzamiento de una versión comercial de su modelo de IA

Gracias a todas sus características, CM3leon puede proceder a la generación y edición de imágenes guiadas por texto. En concreto, la edición modificada por texto es “un desafío” ya que es necesario que el modelo comprenda tanto las instrucciones de texto como la propia imagen generada para editarla posteriormente.

Este nuevo modelo de Meta también puede editar imágenes siguiendo instrucciones de estructura. Esto es una opción que permite crear ediciones “visualmente coherentes y contextualmente apropiadas” para una imagen que se adhieren a las pautas de diseño ya descritas previamente.

Otra de las capacidades que desempeña CM3leon es la de generar una imagen a partir de un texto con descripciones. Pero, en concreto, a partir de un texto que describa una imagen “potencialmente muy compositiva”, lo que pone a prueba al modelo para seguir de forma coherente las indicaciones del texto.

CM3leon también es capaz de llevar a cabo tareas de texto. En este sentido, puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, incluso, puede responder preguntas sobre una imagen.

Dentro de sus habilidades para generar imágenes, el usuario puede redactar una descripción que incluya la localización exacta de dónde se han de situar los objetos que se hayan incluido en la descripción, dentro de un espacio delimitado.

Igualmente, CM3leon también es capaz de ofrecer resultados de “súper resolución”, esta opción agrega una etapa entrenada por separado para introducir imágenes de mayor resolución a los resultados del modelo original.