IA transforma voz em vídeo a partir de fotos
O Instituto para Computação Inteligente, vinculado ao Alibaba Group, anunciou uma nova conquista no campo da inteligência artificial (IA): o sistema Emote Portrait Alive (EMO). Essa tecnologia é capaz de converter fotos estáticas do rosto de uma pessoa em vídeos animados, simulando movimentos de fala ou canto.
Funcionamento da IA EMO
Diferentemente de abordagens anteriores que permitiam apenas animações parciais, o EMO vai além, integrando áudio ao vídeo. Essa IA não utiliza modelos 3D ou referências faciais diretas. Em vez disso, os pesquisadores treinaram o sistema com vastos conjuntos de dados de áudio e vídeo, utilizando cerca de 250 horas de informações.
Criação de vídeos realistas
A IA EMO funciona convertendo automaticamente ondas de áudio em quadros de vídeo. Isso permite a captura de gestos e peculiaridades sutis da fala humana, criando animações que se assemelham a expressões naturais de um rosto humano. Os vídeos gerados mostram movimentos labiais condizentes com as palavras e frases pronunciadas na gravação de áudio original.
Veja o vídeo da demonstração abaixo:
Exemplos de sucesso e realismo
No GitHub da equipe, é possível encontrar diversos vídeos demonstrativos da eficácia da tecnologia EMO. Os resultados mostram um alto nível de realismo e expressividade, superando outras ferramentas similares.
Apesar do potencial da IA EMO, os pesquisadores destacam a importância de monitorar seu uso para evitar práticas antiéticas.
Os resultados e detalhes do desenvolvimento da tecnologia foram publicados no servidor de pré-impressão arXiv, permitindo uma revisão mais ampla pela comunidade científica.
Leia mais:
- Avanço em mão biônica permite que amputado sinta frio, calor e toque humano
- Conheça o robô que usa IA para separar lixo
- Primeiro usuário de chip da Neuralink já controla mouse com a mente
Fonte: Olhar Digital