A Microsoft desenvolveu uma inteligência artificial capaz de reproduzir vozes humanas a partir de amostras em pelo menos três segundos. Treinado com mais de 60.000 horas de voz em inglês.
Anúncios
O AI VALL-E pode simular a reprodução de conversão de texto em fala, simulando emoções, tons diferentes e até frases e falas que não estão na voz original.
O VALL-E é uma inteligência artificial text-to-speech (do português para “texto para fala” ou TTS).
E é objeto de pesquisa na Cornell University, em Nova York, nos Estados Unidos.
É um modelo de codec de linguagem natural que pode sintetizar fala privada de alta qualidade com apenas três segundos de gravações.
Anúncios
Por exemplo, a plataforma pega pequenos pedaços de áudio.
E os altera para ler um pequeno pedaço de texto com diferentes pausas e entonações de acordo com os sinais de pontuação da música.
No GitHub, a Microsoft apresentou vários resultados das simulações de som do ALL-E.
Algumas das vozes simuladas são críveis e leem a passagem apresentada de forma coerente e coerente, enquanto outros exemplos são claramente gerados por computador, mais gaguejantes e robóticos.
Problemas éticos
Anúncios
Assim como criar imagens a partir de referências, o AI VALL-E é extremamente perigoso.
Embora o resultado não seja tão convincente em todos os cenários, a ferramenta funciona perfeitamente para simular vozes de outras pessoas sem a devida permissão.
Por exemplo, a IA pode ser usada para simular discursos de políticos e registrar figuras-chave.
Enquanto usa mídia social e compactação de voz de mensageiro para cobrir erros exemplares.
Se for aberto a todos, sem discriminação, qualquer um pode inserir exemplos de políticos, artistas ou amigos e fazer um discurso.
Vozes sintéticas também podem ser usadas para atingir indivíduos específicos, como sequestro.
Exigência de dinheiro e humilhação de pessoas. As músicas criadas pelo VALL-E também podem ser usadas para falar com bancos e pessoas de confiança e se passar por outra pessoa.
Uso limitado de IA
Devido a esse perigo, o VALL-E não está disponível ao público e só pode ser verificado em amostras fornecidas pela empresa.
“Os experimentos neste artigo foram conduzidos sob a suposição de que o usuário do modelo é o orador-alvo, e o orador o apoiou”, escreveram os autores do estudo.
*Fonte de pesquisa: VALL-E