Meta Platforms, Inc. aumenta agresivamente su gestión para alcanzar el desarrollo de una inteligencia artificial competitiva. Quiere acortar la distancia con otros grandes de la tecnología que ya están sumergidos es este proyecto como Google, Microsoft y OpenAI.

La IA de META, un modelo de texto a imagen, ha sido llamada CM3leon. Según voceros de la compañía, esta nueva plataforma logrará un rendimiento de última generación para generar imágenes a partir de indicaciones de texto.

Esta innovación de la empresa de Zuckerberg aún no está disponible para pruebas o uso comercial. Sigue en fase de desarrollo y se esperan más avances en las próximas semanas. Sin embargo, para Meta esta IA, CM3leon, marcará un gran avance para las capacidades de inteligencia artificial de la compañía

El desarrollo de todos estos proyectos está sentando las bases para modelos de comprensión de imágenes más avanzados en el futuro. Meta está aprovechando su gran equipo de ciencia de datos y su infraestructura para meterse pronto en la carrera de la IA. 

Si bien la IA basada en la difusión, como la de MidJourney, se han vuelto muy populares.  El camino del gigante de las redes sociales está más relacionado con arquitecturas de transformadores autorregresivos, muy parecidas a las que utiliza ChatGPT.

Te puede interesar: CEO de Unity: “IA Hará Juegos más Rápidos, Baratos y Mejores”

La IA de Meta busca ser más rápida

La empresa afirma que CM3leon necesita 5 veces menos cómputo de entrenamiento que otros métodos comparables. Esto acorta mucho el tiempo de respuesta. En esta misma vía se han hecho algunas comparaciones y CM3leon parece manejar objetos complejos y restricciones en las indicaciones de texto mejor que modelos como DALL-E 2 de OpenAI e incluso Midjourney. 

Meta ha compartido ya algunas imágenes que muestran a su nuevo generador de texto a imagen es capaz de representar con precisión la anatomía humana. Comparadas con las deficiencias de otras plataformas esta es capaz de representar texto preciso.

CM3leon también proporciona imágenes avanzadas, permitiendo a los usuarios crear representaciones más precisas de sus ideas. La relación puede darse de diferentes maneras como texto a imagen, imagen a imagen, edición de imágenes guiada por estructura, objeto a imagen, segmentación a imagen y aumento de escala de superresolución. Esto último no está disponible en cualquier generador solo se puede encontrar en Stable Diffusion utilizando Controlnet.

Por último, Meta también planea relanzar LLaMA pero con una versión comercial. Esto será para desarrolladores externos, permitiendo a las empresas construir aplicaciones personalizadas impulsadas por la IA de la compañía. Esto sí la coloca en competencia directa con  ChatGPT (OpenAI-Microsoft), Bard (Google) y Claude v2 (Anthropic-Google)