VASynth — это программа на основе ИИ для синтезирования озвучки на основе внутриигровых голосов из игр Bethesda. Автор этой программы «скормил» нейросети звуковые файлы из разных игр Bethesda и обучил ее генерировать новые реплики.

Приложение умеет загружать готовые модели (в частности для Skyrim сделаны модели на основе Астрид, Мираака, Сераны, мужских и женских нордов и данмеров, например). Также есть возможность изменять тональность и продолжительность букв для лучшего контроля эмоций и акцента. 

Пример работы приложения

Использование нейронного синтеза речи приводит к естественному звучанию голосов. Можно создать новый словарный запас, помимо того, что актеры озвучивания уже создали. Применимость у VASynth высокая. Теперь можно:

  • создавать новые реплики для новых квестов (и не искать подходящих актеров озвучки);
  • расширить или отредактировать уже существующие квесты;
  • разнообразить внутриигровые голоса, добавив пакеты голосов других игр (например, добавить голоса Fallout/Oblivion в Skyrim);
  • добавить новые имена игроков в списке имен (в Fallout 4, например);
  • отредактировать голоса существующих персонажей, если вам кажется, что текущий голос не очень подходит персонажу
  • делать больше мемов, в конце концов! 

Автор для примера создал небольшой мод, перенеся в Skyrim известную всем фразу «Stop right there!». Голос у стражника, конечно, звучит компьютерным, но тем не менее.

Stop!

Проект вышел сразу для всех релизов от Bethesda. Кроме того, автор обещает выпустить приложение и под Starfield, когда игра выйдет. Приложения доступны для скачивания на NexusMods:

Еще больше информации можно найти на странице проекта на Github.

Материал подготовлен gkalian специально для TGM — Tesall Game Magazine.
24

Комментарии

Добавить комментарий

Теперь всё озвучат голосом ординаторов из Морровинда, во всех частях Свитков, чтобы чувствовать себя полным ничтожеством, но уже по настоящему.

Кому-то может пригодиться, кто моделирует там вечно моды свои к этим играм.

Интересно можно ли скормить программе русскую локализацию для обучения и генерировать русскую озвучку?

Похоже, что не всё так просто. Нужно скачать NVIDIA FastPitch и с его помощью обучить модель по семплам.

github.com/DanRuta/xVA-Synth/discussions/10

Проверил. Если программе скормить русский текст, то она сгенерирует озвучку, но звучать она будет с невероятно жутким акцентом, как будто текст читает человек, который очень приблизительно знает как звучат слова на русском.
Впрочем, может на какой-то из множества представленных моделей, и выйдет что-нибудь приличное. Но лучше всё же сгенерировать модель из семплов на русском для нормальной озвучки.

katkat74
модмейкер
14.01.2021 — 04:41

Кербер, А зачем головы загружать? он лип файлы делает? Отличается вобще от синтезатора речи на андроид например?

gkalian
администратор
автор
14.01.2021 — 07:28

katkat74, он лип-файлы не делает, программа создает только звук в формате wav.

Кербер, ага, я тоже пробовал русский текст. Там надо модель натренировать именно на русскую речь. Но судя по комментариям на нексусе, автор в целом и не против, просто у него немного другие приоритеты сейчас.

Я автора и сам спрашивал по поводу обучения новых моделей. Это всё можно сделать, но достаточно геморройно. Нужно сделать датасет для каждого звукового файла с таймингами текста используя Tacotron2 и потом скормить это FastPitch и уже оттуда в xVASynth. У автора сделаны датасеты для английского языка.

katkat74, lip файлы не делает как и сказал Кальян. Думаю для их создания можно найти подходящий генератор который сможет из этих же датасетов создавать их.

Синтезатор речи Андроида не сможет сделать тебе озвучку похожую на речь другого человека, в этом и смысл обучения модели озвучки на семплах речи определённого человека.

Теперь при создании модов мододелам не будут нужны актеры для озвучки. Насколько же озвучка модов станет легче... Прекрасное приложение.

Drazgar
модератор
14.01.2021 — 02:42

А не будет ли правовых проблем, если начнут таким образом пользоваться образцами голосов актёров озвучки? Просто вопросы уже поднимались подобного плана.
wsj.com/articles/BL-LB-55168
theverge.com/2020/4/28/21240488/jay-z-deepfakes-roc-nation-youtube-removed-ai-copyright-impersonation

А то ведь джинн из этой бутылки может оказаться настоящим ифритом.

Drazgar, на фоне того, что многие игры теперь ограничиваются переводами без озвучки, это могло быть дать им шанс... Права правами, но... если на эту работу всё равно никогда и никого не наймут - за что бодаться?..
Хороший джинн, в общем, пусть подрастает и ифритится.

СКАЙнет, СКАЙрим. У меня нехорошее предчувствие.

1ex0
модмейкер
15.01.2021 — 14:55

Наконец-то! Если такую штуковину добавят в редактор игр, то можно будет наконец-то называть игрока его именем, а не придумывать всякие "Комбезы" и т.п. Надо, чтобы Беседчики воспользовались такой штукой.

Упустила, где Уэс Джонсон? Для кого это вот все, если там нет голоса Шеогората?

Так понимаю эта нейросеть очень сильно облегчит работу мододелам . Как по мне хорошая новость )

Авторизуйтесь, чтобы оставить новый комментарий. Или зарегистрируйтесь.