[Deep.In. [Artigo] AdaSpeech2: texto adaptável à fala com dados não transcritos - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
March 2, 2022
Equipe de aprendizado profundo: Colin
Abstrato

Como o modelo AdaSpeech que analisamos da última vez, o método de adaptação TTS existente usou dados de pares de texto e fala para sintetizar as vozes de um alto-falante específico. No entanto, como é praticamente difícil preparar dados em pares, será uma forma muito mais eficiente de adaptar o modelo TTS somente com dados de fala que não são transcritos. A maneira mais fácil de acessar é usar o sistema de reconhecimento automático de fala (ASR) para transcrição, mas é difícil de aplicar em determinadas situações e a precisão do reconhecimento não é alta o suficiente, o que pode reduzir o desempenho final da adaptação. E houve tentativas de resolver esse problema por meio do treinamento conjunto do pipeline TTS e do módulo de adaptação, o que tem a desvantagem de não poder ser combinado facilmente com outros modelos comerciais de TTS.

O AdaSpeech2 projeta um módulo adicional que pode combinar qualquer modelo TTS para permitir o aprendizado com fala não transcrita (conectável) e, a partir disso, propõe um modelo que pode produzir resultados equivalentes ao desempenho do modelo TTS totalmente adaptado com dados de texto e fala (efetivo).

Resumo para pessoas ocupadas
  • Módulos adicionais foram anexados à estrutura do AdaSpeech para induzir a adaptação a alto-falantes específicos usando apenas dados de fala.
  • O espaço latente do Mel Encoder é treinado para ser semelhante ao espaço latente do Phoneme Encoder, então o Mel Decoder pode receber os mesmos recursos, independentemente de a entrada vir em texto ou fala. Isso é adequado para situações em que somente dados de fala devem ser inseridos no modelo TTS pré-treinado.
  • O método de adaptação do AdaSpeech2 pode ser usado anexando qualquer modelo TTS e pode produzir desempenho semelhante aos modelos que adaptaram certos alto-falantes com dados de pares de texto e fala.

Estrutura do modelo

O AdaSpeech2 usa o AdaSpeech, que consiste em um codificador de fonema e um decodificador de espectrograma mel, como modelo de backbone. A modelagem da condição acústica e a normalização da camada condicional são usadas como o AdaSpeech existente, mas não são expressas na figura acima para simplificar. Aqui, adicione um codificador de espectrograma mel que receba e codifique dados de fala e aplique a perda de L2 para torná-la semelhante à saída do codificador de fonemas. O processo detalhado de aprendizado será explicado abaixo.

Processo de treinamento e inferência

Etapa 1. Treinamento do modelo de origem

Antes de tudo, é importante treinar bem o modelo TTS de origem. Treine o codificador de fonema e o decodificador de espectrograma mel do modelo AdaSpeech com uma quantidade suficiente de pares de texto e fala, onde as informações de duração para estender a saída do codificador de fonema até o comprimento do espectrograma mel são obtidas por meio do Alinhamento Forçado de Montreal (MFA).

Etapa 2. Alinhamento do codificador Mel

Se você tiver um modelo de origem bem treinado, conecte um codificador de espectrograma mel para adaptação de fala não transcrita. Finalmente, ele desempenha um papel na criação de recursos que entrarão no decodificador de espectrograma mel enquanto codifica automaticamente a fala, e precisa ser feito para ser igual ao espaço latente do codificador de fonema, pois precisa emitir a mesma saída do recurso a partir dos dados de transcrição (texto). Assim, à medida que prosseguimos com o aprendizado de TTS novamente usando dados de texto e fala, obtemos e minimizamos a perda de L2 entre a sequência do codificador do fonema e a sequência do codificador do espectrograma mel, levando ao alinhamento dos espaços latentes entre os dois. No momento, esse método pode ser expresso como conectável porque não retreina toda a estrutura, mas corrige os parâmetros do modelo de origem e atualiza somente os parâmetros do codificador de espectrograma mel.

Etapa 3. Adaptação de fala não transcrita

Agora ajuste o modelo usando somente os dados de fala (não transcritos) do alto-falante específico que você deseja sintetizar. Como a fala de entrada é sintetizada de volta à fala via codificador de espectrograma mel e decodificador de espectrograma mel, é um método de restauração de fala por meio de codificação automática, no qual o modelo fonte atualiza apenas a normalização da camada condicional do decodificador de espectrograma mel e minimiza a computação.

Etapa 4. Inferência

Depois que todos os processos de adaptação acima forem concluídos, o modelo agora pode imitar a voz de um locutor específico por meio de um codificador de fonema que não foi ajustado e de um decodificador de espectrograma mel-ajustado parcialmente quando o texto é inserido.

Resultados do experimento
Qualidade de voz de adaptação

Na Tabela 1, o treinamento conjunto é uma configuração usada como base neste experimento, aprendendo codificadores de fonema e codificadores de espectrograma mel ao mesmo tempo, e a estratégia para aprender codificadores de fonema e espectrograma mel em ordem é considerada superior.

Além disso, o desempenho dos modelos baseados em Adaspech e PPG usados como backbone foi considerado o limite superior para o desempenho do AdaSpeech2, então conduzimos um experimento para compará-los juntos. A partir dos resultados do MOS e do SMOS, podemos ver que o AdaSpeech2 sintetiza vozes com quase a mesma qualidade dos modelos considerados limites superiores.

Análises sobre estratégia de adaptação

 

O estudo de ablação foi realizado para avaliar se as estratégias mencionadas anteriormente no processo de aprendizagem contribuíram para a melhoria do desempenho do modelo. Como resultado, a qualidade da voz se deteriora se a perda de L2 for removida entre a saída do codificador de fonema e o codificador de espectrograma mel, ou se o codificador de espectrograma mel também for atualizado na etapa de ajuste fino.

 

Dados de adaptação variáveis

Quando o número de amostras de dados de fala adaptáveis é menor que 20, a qualidade da síntese melhora significativamente à medida que a quantidade de dados aumenta, mas se for além disso, não haverá melhora significativa na qualidade.

 

Conclusão e opinião

Os engenheiros de aprendizado de máquina que treinam modelos TTS sabem que a qualidade dos dados é sintética, então eles se esforçam muito para coletar e pré-processar dados. E para sintetizar vozes com novos alto-falantes, os arquivos de fala dos novos alto-falantes e o texto transcrito são coletados em pares para retreinar o modelo TTS do zero, mas usando o método AdaSpeech2, os dados só precisam ser coletados e o modelo precisa ser ajustado. Outra vantagem é que é fácil de aplicar na realidade, pois pode ser combinado com qualquer modelo TTS.

Se prosseguirmos com pesquisas adicionais no ADASpeech2, pode ser um tópico interessante observar as mudanças de desempenho resultantes usando novas funções de distância, como semelhança de cosseno, como restrições em vez da perda de L2.

Na próxima vez, teremos tempo para apresentar o último artigo da série AdaSpeech.

Referência

(1) [artigo AdaSpeech2] AdaSpeech 2: texto adaptável à fala com dados não transcritos

(2) [Demonstração do AdaSpeech2] https://speechresearch.github.io/adaspeech2/

 

Most Read

Most Read

Vamos ficar conectados

Nossa equipe está pronta para apoiá-lo em sua jornada humana virtual. Clique abaixo para entrar em contato e alguém entrará em contato em breve.