Stable Diffusion se hace pública, e Internet enloquece

0
3
Stable Diffusion se hace pública, e Internet enloquece

Bienvenido a La visión a largo plazo—donde examinamos las noticias de la semana y las despojamos de lo esencial. Vamos a ejercitarnos lo que realmente importa.

Esta semana: un Propagación estable Especial

A menos que haya estado viviendo debajo de una roca durante la última semana, habrá visto alguna cosa sobre Difusión Estable. Es el nuevo modelo de aprendizaje automático de código abierto para crear imágenes a partir de texto. e incluso otras fotos.

Experiencia DevOps 2022

Análisis: El código abierto es la clave

Al igual que DALL-E y Midjourney, le das un “mensaje” textual y genera imágenes asombrosas (o, a veces, basura total). A diferencia de esos otros modelos, es de código abierto, por lo que ya estamos viendo un explosión de innovación.

Mark Hachman lo llama La nueva aplicación asesina’

Afina tu arte algorítmico
El arte de la IA es fascinante. Ingrese un mensaje y el algoritmo generará una imagen según sus especificaciones. Generalmente, todo esto tiene lugar en la Web, con algoritmos como DALL-E. [But] Stability.Ai y su modelo Stable Diffusion rompieron ese molde… con un modelo que está disponible públicamente y puede ejecutarse en GPU de consumo.

Por ahora, Stability.Ai recomienda tener una GPU con al menos 6,9 GB de RAM de video. Desafortunadamente, actualmente solo se admiten las GPU Nvidia. [But] si posee una PC potente, puede tomarse todo el tiempo que desee para afinar su arte algorítmico y crear algo realmente impresionante.

De la boca del caballo, es Emad Mostaque: Lanzamiento público de difusión estable

Usar esto de manera ética, moral y legal.
Es un placer anunciar el lanzamiento público de la difusión estable. … En las últimas semanas, todos nos hemos sentido abrumados por la respuesta y hemos estado trabajando arduamente para garantizar un lanzamiento seguro y ético, incorporando datos de nuestras pruebas de modelos beta y la comunidad para que los desarrolladores actúen.

Dado que estos modelos se entrenaron con pares de imagen y texto de un amplio análisis de Internet, el modelo puede reproducir algunos sesgos sociales y producir contenido inseguro, por lo que las estrategias abiertas de mitigación, así como una discusión abierta sobre esos sesgos, pueden atraer a todos a esta conversación. … Esperamos que todos usen esto de manera ética, moral y legal y contribuyan tanto a la comunidad como al discurso a su alrededor.

Sí claro. ¿Alguna vez has estado en Internet? Kyle Wiggers parece preocupado: Deepfakes para todos

90% son de mujeres
Stable Diffusion… ahora lo utilizan servicios de generación de arte como Artbreeder, Pixelz.ai y más. Pero la naturaleza sin filtrar del modelo significa que no todo el uso ha sido completamente legítimo.

Otros sistemas de generación de arte de IA, como DALL-E 2 de OpenAI, han implementado filtros estrictos para material pornográfico. … Además, muchos no tienen la capacidad de crear arte de figuras públicas. … Las mujeres, desafortunadamente, tienen más probabilidades de ser víctimas de esto. Un estudio realizado en 2019 reveló que, del 90% al 95% de las falsificaciones profundas que no son consentidas, alrededor del 90% son mujeres.

¿Por qué es tan importante? Pregúntale a Simon Willison:

la ciencia ficcion es real
Stable Diffusion es realmente un gran problema. Si no has estado prestando atención a lo que está pasando… realmente deberías estarlo. … Es similar a modelos como DALL-E de Open AI, pero con una diferencia crucial: lanzaron todo.

En tan solo unos días, ha habido una explosión de innovación a su alrededor. Las cosas que la gente está construyendo son absolutamente asombrosas. … Generar imágenes a partir de texto es una cosa, pero generar imágenes a partir de otras imágenes es un juego de pelota completamente nuevo. … Imagine tener un artista conceptual a pedido que pueda generar cualquier cosa que pueda imaginar y pueda iterar con usted hacia su resultado ideal.

La ciencia ficción es real ahora. Los modelos generativos de aprendizaje automático están aquí, y la velocidad con la que están mejorando es irreal. Vale la pena prestarle mucha atención.

¿Cómo se compara con el DALL-E? Pregúntale a Beyondo:

Personalmente, la difusión estable es mejor. … OpenAI hace parecer que crearon el santo grial de los modelos de generación de imágenes, pero sus imágenes no impresionan a nadie que haya usado una difusión estable.

@fabianstelzer hizo un montón de pruebas comparativas:

Estos sintetizadores de imágenes son como instrumentos: es increíble que obtengamos tantos, cada uno con un “sonido” único. …DALL-E es realmente genial para las expresiones faciales. [Midjourney] limpia el piso con los demás cuando se trata de… incita a buscar detalles de textura. … DALL-E suele ser mi opción para escenas que involucran a 2 o más “actores” claros. … DALL-E y SD son mejores en las fotos … Stable Diffusion puede hacer fotos increíbles … pero debe tener cuidado de no “sobrecargar” la escena.

En el momento en que pones “arte” en un mensaje, Midjourney se vuelve loco. … Las imperfecciones de DALL-E se ven muy digitales, a diferencia de las de MJ. … Cuando se trata de copiar estilos específicos, SD es absolutamente 🤯🤌 [but] DALL-E no te dejará hacer un cuadro de Trump de Botticelli.

¿Y los datos de entrenamiento? Aquí está Andy Baio:

Una de las mayores frustraciones de los modelos de IA de generación de texto a imagen es que se sienten como una caja negra. Sabemos que fueron entrenados con imágenes extraídas de la web, pero ¿cuáles? … El equipo detrás de Stable Diffusion ha sido muy transparente sobre cómo se entrena su modelo. Desde que se lanzó públicamente la semana pasada, Stable Diffusion se ha disparado en popularidad, en gran parte debido a su licencia libre y permisiva.

simón willison [and I] capturó los datos de más de 12 millones de imágenes utilizadas para entrenar Stable Diffusion. [It] fue entrenado a partir de tres conjuntos de datos masivos recopilados por LAION. … Todos los conjuntos de datos de imágenes de LAION se basan en Common Crawl, [which] extrae miles de millones de páginas web mensualmente y las publica como conjuntos de datos masivos. … Casi la mitad de las imágenes, alrededor del 47 %, se obtuvieron de solo 100 dominios, con la mayor cantidad de imágenes provenientes de Pinterest. … Los blogs alojados en WordPress en wp.com y wordpress.com representaron … el 6,8 % de todas las imágenes. Otros sitios de fotografía, arte y blogs incluyen… Smugmug… Blogspot… Flickr… DeviantArt… Wikimedia… 500px y… Tumblr.

Mientras tanto, ¿cómo funciona? Letitia Parcalabescu es fácil para ella decir:

¿Cómo funcionan los modelos de difusión latente? Si desea respuestas a estas preguntas, ¡lo tenemos cubierto!


La moraleja de la historia:
Que tontos son estos mortales

has estado leyendo La visión a largo plazo por Richi Jennings. Puedes contactarlo en @RiCHi oro [email protected].

Imagen: Stable Diffusion, a través de Andy Baio (Creative ML OpenRAIL-M; nivelado y recortado)

LEAVE A REPLY

Please enter your comment!
Please enter your name here