Аугментация экспрессивных аудиоданных на основе TTS

Аугментация экспрессивных аудиоданных на основе TTS

В этой статье мы поговорим о системах клонирования голоса на основе TTS (Text-to-Speech), которые мы используем в корпоративной лаборатории человеко-машинного взаимодействия ИТМО для аугментации речевых баз данных в рамках задачи мультимодального распознавания доминантности…

21 августа 2023, понедельник 0:14 Оставить комментарий Источник

Похожие материалы

Анализ аудиоданных (часть 2)

В первой части анализа аудиоданных мы рассмотрели характеристики, которые есть у каждого аудиосигнала.Анализ аудиоданных (часть1) - https://habr.com/ru/post/668518/ Характеристики аудиофайлов для разных аудио записей. В наборе аудиоданных есть Human files - 10322 файла ( записи “живого” голоса (класс

10 июня 2022, пятница 1:59 Источник
Анализ аудиоданных (часть 3)

Машинное обучениеВ третьей части анализа аудиоданных мы разберем относительно простой и более быстрый способ классификации аудиофайлов - алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов.В двух частях анализа аудиоданных мы рассмотрели характеристики,…

17 июня 2022, пятница 23:08 Источник
Как мы выбирали TTS для озвучек примеров в Словаре

Словарь в Puzzle English помогает пользователям учить лексику наряду с аудио- и видеопазлами, подкастами, фильмами, сериалами и песнями. В Словаре переводы сопровождаются аудиопримерами слов и выражений. Для озвучек мы используем записи живых дикторов и TTS — text-to-speech system, синтезаторы речи из текста. Сегодня расскажем, как выбрали TTS-движок Vocalware, почему хотим подключить вместо него систему Amazon Polly и какие задачи человек пока решает лучше робота. Читать дальше →

3 октября 2018, среда 16:11 Источник

Аугментация экспрессивных аудиоданных на основе TTS

Комментарии

Похожие материалы

Анализ аудиоданных (часть 2)

Анализ аудиоданных (часть 3)

Как мы выбирали TTS для озвучек примеров в Словаре