IA transforma voz em vídeo a partir de fotos

Heloisa Guimarães04/03/2024

0 3.174 1 minuto de leitura

O Instituto para Computação Inteligente, vinculado ao Alibaba Group, anunciou uma nova conquista no campo da inteligência artificial (IA): o sistema Emote Portrait Alive (EMO). Essa tecnologia é capaz de converter fotos estáticas do rosto de uma pessoa em vídeos animados, simulando movimentos de fala ou canto.

Funcionamento da IA EMO

Diferentemente de abordagens anteriores que permitiam apenas animações parciais, o EMO vai além, integrando áudio ao vídeo. Essa IA não utiliza modelos 3D ou referências faciais diretas. Em vez disso, os pesquisadores treinaram o sistema com vastos conjuntos de dados de áudio e vídeo, utilizando cerca de 250 horas de informações.

Criação de vídeos realistas

A IA EMO funciona convertendo automaticamente ondas de áudio em quadros de vídeo. Isso permite a captura de gestos e peculiaridades sutis da fala humana, criando animações que se assemelham a expressões naturais de um rosto humano. Os vídeos gerados mostram movimentos labiais condizentes com as palavras e frases pronunciadas na gravação de áudio original.

Veja o vídeo da demonstração abaixo:

Exemplos de sucesso e realismo

No GitHub da equipe, é possível encontrar diversos vídeos demonstrativos da eficácia da tecnologia EMO. Os resultados mostram um alto nível de realismo e expressividade, superando outras ferramentas similares.

Apesar do potencial da IA EMO, os pesquisadores destacam a importância de monitorar seu uso para evitar práticas antiéticas.

Os resultados e detalhes do desenvolvimento da tecnologia foram publicados no servidor de pré-impressão arXiv, permitindo uma revisão mais ampla pela comunidade científica.