Команда глубокого обучения: Колин

Аннотация

Как и модель AdaSpeech, которую мы рассмотрели в прошлый раз, существующий метод адаптации TTS использует данные пар текста и речи для синтеза голосов конкретного говорящего. Однако, поскольку готовить данные парами практически сложно, гораздо эффективнее будет адаптировать модель TTS только к речевым данным, которые не транскрибируются. Самый простой способ доступа — использовать систему автоматического распознавания речи (ASR) для транскрипции, но в некоторых ситуациях ее трудно применять, а точность распознавания недостаточно высока, что может снизить эффективность окончательной адаптации. И были предприняты попытки решить эту проблему путем совместного обучения конвейеру TTS и модуля адаптации. Недостаток этого метода заключается в том, что его нелегко комбинировать с другими коммерческими моделями TTS.

AdaSpeech2 разрабатывает дополнительный модуль, который может объединять любую модель TTS, чтобы обеспечить обучение с использованием нетранскрибированной речи (подключаемый), и на основе этого предлагает модель, которая может давать результаты, эквивалентные производительности модели TTS, полностью адаптированной к текстовым и речевым данным (эффективная).

Резюме для занятых людей

К структуре AdaSpeech были присоединены дополнительные модули, чтобы стимулировать адаптацию к конкретным динамикам, используя только речевые данные.
Скрытое пространство Mel Encoder обучено быть похожим на скрытое пространство Phoneme Encoder, поэтому Mel Decoder может получать одни и те же функции независимо от того, поступает ли входной сигнал в виде текста или речи. Это подходит для ситуаций, когда в предварительно обученную модель TTS необходимо вводить только речевые данные.
Метод адаптации AdaSpeech2 можно использовать при подключении любой модели TTS, и он может обеспечить производительность, аналогичную моделям, в которых некоторые динамики адаптированы к данным пар текста и речи.

Структура модели

AdaSpeech2 использует AdaSpeech, состоящий из фонемного кодера и декодера mel-спектрограммы, в качестве магистральной модели. Моделирование акустических условий и условная нормализация слоев используются так же, как и существующая модель AdaSpeech, но для простоты они не представлены на рисунке выше. Здесь следует добавить кодер с мел-спектрограммой, принимающий и кодирующий речевые данные, и применить потери L2, чтобы сделать его похожим на выходные данные фонемного энкодера. Подробный процесс обучения будет описан ниже.

Процесс обучения и вывода

Шаг 1. Обучение работе с исходной моделью

Прежде всего, важно хорошо обучить исходную модель TTS. Обучите кодировщик фонем и декодер mel-спектрограмм модели AdaSpeech, используя достаточное количество пар текста и речи, при этом информация о продолжительности, позволяющая увеличить выходной сигнал кодировщика фонем до длины mel-спектрограммы, получена с помощью метода принудительного выравнивания в Монреале (MFA).

Шаг 2 Выравнивание энкодера Mel

Если у вас есть хорошо обученная исходная модель, подключите кодер мел-спектрограммы для адаптации речи без транскрибирования. Наконец, он играет роль в создании функций, которые будут поступать в декодер мел-спектрограммы при автоматическом кодировании речи. При этом его необходимо сделать так, чтобы оно соответствовало скрытому пространству кодировщика фонем, поскольку он должен выводить из данных транскрипции (текст) тот же результат, что и объект. Таким образом, когда мы снова приступаем к обучению TTS с использованием текстовых речевых данных, мы получаем и минимизируем потери L2 между последовательностью из кодировщика фонем и последовательностью из кодера мел-спектрограммы, что приводит к выравниванию скрытых пространств между ними. В настоящее время этот метод можно назвать подключаемым, поскольку он не переобучает всю структуру, а фиксирует параметры исходной модели и обновляет только параметры кодера mel-спектрограммы.

Шаг 3 Адаптация речи без транскрибирования

Теперь настройте модель, используя только (нетранскрибированные) речевые данные конкретного динамика, который вы хотите синтезировать. Поскольку входная речь синтезируется обратно в речь с помощью кодера mel-спектрограммы и декодера mel-спектрограммы, этот метод восстановления речи представляет собой метод автоматического кодирования, при котором исходная модель обновляет только нормализацию условного слоя декодера mel-спектрограммы и сводит к минимуму вычисления.

Шаг 4 Вывод

После завершения всех вышеперечисленных процессов адаптации модель теперь может имитировать голос конкретного говорящего с помощью фонемного энкодера, который не был точно настроен, и частично настроенного декодера мел-спектрограммы при вводе текста.

Результаты эксперимента

Адаптация: качество голоса

В таблице 1 в качестве основы в этом эксперименте используется совместное обучение, заключающееся в одновременном изучении кодеров фонем и кодеров mel-спектрограмм, а стратегия изучения фонемных кодеров и мел-спектрограммы по порядку считается превосходной.

Кроме того, производительность моделей на основе Adaspech и PPG, используемых в качестве основы, считалась верхним пределом производительности AdaSpeech2, поэтому мы провели эксперимент по их сравнению. Из результатов MOS и SMOS видно, что AdaSpeech2 синтезирует голоса почти того же качества, что и модели, считающиеся верхними пределами.

Анализ стратегии адаптации

Было проведено исследование абляции, чтобы оценить, способствовали ли стратегии, упомянутые ранее в процессе обучения, повышению производительности модели. В результате качество голоса ухудшается, если устранить потери L2 между выходом фонемного энкодера и кодера mel-спектрограммы или обновить кодер mel-спектрограммы также на этапе точной настройки.

Различные данные по адаптации

Когда количество выборок адаптивных речевых данных меньше 20, качество синтеза значительно улучшается по мере увеличения объема данных, но если оно вырастет, существенного улучшения качества не произойдет.

Заключение и мнение

Инженеры по машинному обучению, обучающие модели TTS, знают, что качество данных — это синтетическое качество, поэтому они прилагают много усилий для сбора и предварительной обработки данных. А чтобы синтезировать голоса с помощью новых динамиков, речевые файлы новых ораторов и расшифрованный текст собираются попарно, чтобы заново обучить модель TTS с нуля, но с помощью метода AdaSpeech2 достаточно собрать данные и доработать модель. Еще одно преимущество заключается в том, что его легко применять на практике, поскольку его можно комбинировать с любой моделью TTS.

Если мы продолжим дальнейшие исследования в AdaSpeech2, было бы интересно наблюдать за возникающими изменениями производительности с использованием новых функций расстояния, таких как сходство косинусов, в качестве ограничений вместо потерь L2.

В следующий раз у нас будет время представить последнюю статью из серии AdaSpeech.