banner
Lar / blog / Como funciona a IA do Google Muse? uma entrada
blog

Como funciona a IA do Google Muse? uma entrada

Mar 30, 2023Mar 30, 2023

Descubra a mágica por trás do Google Muse AI! Nosso guia abrangente decifra como essa ferramenta inovadora aproveita a IA para estimular a criatividade e transformar sua experiência digital.

O Google Muse AI é um modelo de transformador de texto para imagem de ponta que tem o potencial de revolucionar o campo da geração de imagens. Este modelo inovador afirma ser mais eficiente e mais rápido do que seus concorrentes, como Imagen, DALL-E 2 e Parti.

Coleção das principais ferramentas de IA para usar em diferentes tarefas.

Nesta visão geral abrangente e aprofundada, exploraremos o funcionamento interno do Google Muse AI, seus recursos, especificações técnicas e o que o diferencia de outras ferramentas de inteligência artificial (IA) no mercado.

IA do Google Muse

O Google Muse AI é um modelo de geração de texto para imagem de última geração que utiliza arquitetura avançada baseada em transformador. Este modelo foi projetado para ser significativamente mais eficiente do que os modelos de difusão existentes, como Stable Diffusion e DALL-E 2, ou modelos autorregressivos, como o Google Parti.

Ao alavancar um modelo de linguagem grande pré-treinado (LLM) e espaço de token discreto, o Muse AI atinge tempos de geração de imagem mais rápidos e saídas de alta qualidade.

O campo da arte gerada por IA teve avanços notáveis, com ferramentas como DALL-E e Midjourney atraindo atenção significativa. O Muse AI do Google é a mais recente adição a esta lista de ferramentas revolucionárias, prometendo recursos e eficiência de geração de imagens ainda melhores do que seus antecessores.

Este modelo foi desenvolvido por pesquisadores do Google Research e possui uma série de características únicas que o colocam à frente da concorrência.

O Muse AI é treinado para usar as incorporações de texto adquiridas de um LLM pré-treinado, o modelo de linguagem T5.

Essa abordagem permite que o Muse preveja e gere tokens de imagem (partes de uma imagem) com base em um prompt de texto, usando tokens discretos em vez de pixels para criar imagens.

O uso de tokens discretos pelo Muse AI permite gerar imagens com menos iterações de amostragem ou prompts de texto. Isso resulta em um processo de geração de imagem mais preciso, eficiente e rápido em comparação com modelos de difusão de espaço de pixel como Imagen e DALL-E 2.

Ao contrário dos modelos autorregressivos tradicionais, como o Parti, o Muse AI emprega arquitetura de decodificação paralela. Essa abordagem permite que o Muse produza imagens de alta qualidade mesmo com um tamanho de amostra menor, tornando o modelo mais rápido e eficiente.

O Muse AI aproveita o modelo de linguagem grande T5-XXL para entender as nuances da linguagem. Esse modelo de linguagem pré-treinado permite que o Muse compreenda o contexto subjacente e gere imagens de alta fidelidade.

Também compreende conceitos visuais como objetos, suas relações com o ambiente, pose e cardinalidade.

Nesta seção, vamos nos aprofundar nos aspectos técnicos do Muse AI, destacando seu tipo de modelo, modelo de linguagem usado, método de decodificação, submodelos e recursos.

O Muse AI consiste em vários modelos de componentes, incluindo o modelo de tokenizer VQGAN, um modelo de imagem mascarada de base e um modelo de transformador super-res baseado em incorporações T5-XXL.

Esses submodelos são usados ​​para codificar e decodificar textos, prever a distribuição de tokens e aprimorar a qualidade de imagens de baixa resolução.

Usuários aproveitando o Google Muse AI – Imagem via Freepik

O Google Muse AI possui vários recursos notáveis ​​que o distinguem de outros modelos geradores de texto para imagem, como DALL-E 2 e Midjourney. Alguns desses recursos exclusivos incluem:

O Muse AI emprega uma técnica chamada reamostragem iterativa de tokens de imagem com base nos prompts de texto fornecidos.

Essa abordagem permite que o modelo faça alterações em qualquer área de uma imagem com base nos prompts de texto, sem a necessidade de mascarar outras áreas. Esse recurso de edição zero-shot e sem máscara não está presente em modelos como Midjourney e DALL-E 2.

O modelo Muse 3B pode gerar uma imagem de 512 × 512 em apenas 1,3 segundos no TPUv4, tornando-o mais rápido do que qualquer outra ferramenta geradora de texto para imagem.