paint-brush
Científicos rusos desarrollan la primera arquitectura de texto a imagen utilizando difusión latente previa a la imagenpor@autoencoder
350 lecturas
350 lecturas

Científicos rusos desarrollan la primera arquitectura de texto a imagen utilizando difusión latente previa a la imagen

por Auto Encoder: How to Ignore the Signal Noise
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture

Auto Encoder: How to Ignore the Signal Noise

@autoencoder

Research & publications on Auto Encoders, revolutionizing data compression and...

3 min read2024/12/18
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
es-flagES
Lee esta historia en Español!
en-flagEN
Read this story in the original language, English!
ja-flagJA
この物語を日本語で読んでください!
az-flagAZ
Bu hekayəni Azərbaycan dilində oxuyun!
sk-flagSK
Prečítajte si tento príbeh v slovenčine!
bs-flagBS
Pročitajte ovu priču na bosanskom!
rw-flagRW
Soma iyi nkuru muri Kinyarwanda!
ne-flagNE
यो कथा नेपालीमा पढ्नुहोस्!
id-flagID
Baca cerita ini dalam bahasa Indonesia!
ms-flagMS
Baca cerita ini dalam bahasa Melayu!
fa-AF-flagFA-AF
این داستان را به زبان دری بخوانید!
ky-flagKY
Бул окуяны кыргызча окуңуз!
ay-flagAY
¡Aka sarnaqäw aymar arun ullart’apxam!
ES

Demasiado Largo; Para Leer

Los investigadores han desarrollado un modelo de generación de texto a imagen llamado Kandinsky que utiliza un novedoso modelo de difusión latente para producir imágenes que parecen naturales.
featured image - Científicos rusos desarrollan la primera arquitectura de texto a imagen utilizando difusión latente previa a la imagen
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
Auto Encoder: How to Ignore the Signal Noise

Auto Encoder: How to Ignore the Signal Noise

@autoencoder

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Autores:

(1) Anton Razzhigaev, AIRI y Skoltech;

(2) Arseniy Shakhmatov, Sber AI;

(3) Anastasia Maltseva, Sber AI;

(4) Vladimir Arkhipkin, Sber AI;

(5) Igor Pavlov, Sber AI;

(6) Ilya Ryabov, Sber AI;

(7) Angelina Kuts, Sber AI;

(8) Alexander Panchenko, AIRI y Skoltech;

(9) Andrey Kuznetsov, AIRI y Sber AI;

(10) Denis Dimitrov, AIRI y Sber AI.


Nota del editor: Esta es la primera parte de ocho de un estudio que detalla el desarrollo de Kandinsky, la primera arquitectura de texto a imagen diseñada utilizando una combinación de difusión latente y previa de la imagen. Lea el resto a continuación.

Tabla de enlaces


Abstracto

La generación de texto a imagen es un dominio importante en la visión artificial moderna y ha logrado mejoras sustanciales a través de la evolución de las arquitecturas generativas. Entre ellas, hay modelos basados en difusión que han demostrado mejoras esenciales en la calidad. Estos modelos generalmente se dividen en dos categorías: enfoques a nivel de píxel y a nivel latente. Presentamos Kandinsky[1], una nueva exploración de la arquitectura de difusión latente, que combina los principios de los modelos a priori de imagen con técnicas de difusión latente. El modelo a priori de imagen se entrena por separado para mapear incrustaciones de texto a incrustaciones de imagen de CLIP. Otra característica distintiva del modelo propuesto es la implementación de MoVQ modificada, que sirve como componente de autocodificador de imagen. En general, el modelo diseñado contiene 3.3B parámetros. También implementamos un sistema de demostración fácil de usar que admite diversos modos generativos, como generación de texto a imagen, fusión de imágenes, fusión de texto e imagen, generación de variaciones de imagen y pintura interior/exterior guiada por texto. Además, publicamos el código fuente y los puntos de control para los modelos Kandinsky. Las evaluaciones experimentales demuestran una puntuación FID de 8,03 en el conjunto de datos COCO-30K, lo que marca a nuestro modelo como el de código abierto con mejor desempeño en términos de calidad de generación de imágenes medibles.

1 Introducción

En un período de tiempo bastante corto, las capacidades generativas de los modelos de texto a imagen han mejorado sustancialmente, brindando a los usuarios una calidad fotorrealista, una velocidad de inferencia casi en tiempo real, una gran cantidad de aplicaciones y funciones, incluidas plataformas basadas en web simples y fáciles de usar y sofisticados editores de gráficos de IA.


Este artículo presenta nuestra investigación única sobre el diseño de la arquitectura de difusión latente, ofreciendo una perspectiva fresca e innovadora sobre este dinámico campo de estudio. En primer lugar, describimos la nueva arquitectura de Kandinsky y sus detalles. También se describe el sistema de demostración con las características implementadas del modelo. En segundo lugar, mostramos los experimentos realizados en términos de calidad de generación de imágenes y llegamos al puntaje FID más alto entre los modelos de código abierto existentes. Además, presentamos el riguroso estudio de ablación de configuraciones anteriores que realizamos, lo que nos permitió analizar y evaluar cuidadosamente varias configuraciones para llegar al diseño de modelo más efectivo y refinado.


Nuestras contribuciones son las siguientes:


• Presentamos la primera arquitectura de texto a imagen diseñada utilizando una combinación de difusión latente y previa de imagen.


• Demostramos resultados experimentales comparables a los modelos de última generación (SotA) como Stable Diffusion, IF y DALL-E 2, en términos de métrica FID y logramos la puntuación SotA entre todos los modelos de código abierto existentes.


• Ofrecemos una implementación de software del método de última generación propuesto para la generación de texto a imagen y publicamos modelos preentrenados, que son únicos entre los métodos de mejor rendimiento. La licencia Apache 2.0 permite utilizar el modelo tanto con fines comerciales como no comerciales.2 3


• Creamos una aplicación de edición de imágenes web que se puede utilizar para la generación interactiva de imágenes mediante indicaciones de texto (se admiten los idiomas inglés y ruso) sobre la base del método propuesto, y proporciona la funcionalidad de pintar hacia adentro o hacia afuera.4 La demostración en video está disponible en YouTube.5


Figura 1: Esquema previo de imagen y regímenes de inferencia del modelo Kandinsky.

Figura 1: Esquema previo de imagen y regímenes de inferencia del modelo Kandinsky.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.


[1] El sistema lleva el nombre de Wassily Kandinsky, un famoso pintor y teórico del arte.


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/en/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU

L O A D I N G
. . . comments & more!

About Author

Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
Auto Encoder: How to Ignore the Signal Noise@autoencoder
Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite