В этой статье мы поговорим о системах клонирования голоса на основе TTS (Text-to-Speech), которые мы используем в корпоративной лаборатории человеко-машинного взаимодействия ИТМО для аугментации речевых баз данных в рамках задачи мультимодального распознавания доминантности…
В первой части анализа аудиоданных мы рассмотрели характеристики, которые есть у каждого аудиосигнала.Анализ аудиоданных (часть1) - https://habr.com/ru/post/668518/ Характеристики аудиофайлов для разных аудио записей. В наборе аудиоданных есть Human files - 10322 файла ( записи “живого” голоса (класс
Машинное обучениеВ третьей части анализа аудиоданных мы разберем относительно простой и более быстрый способ классификации аудиофайлов - алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов.В двух частях анализа аудиоданных мы рассмотрели характеристики,…
Словарь в Puzzle English помогает пользователям учить лексику наряду с аудио- и видеопазлами, подкастами, фильмами, сериалами и песнями. В Словаре переводы сопровождаются аудиопримерами слов и выражений. Для озвучек мы используем записи живых дикторов и TTS — text-to-speech system, синтезаторы речи из текста. Сегодня расскажем, как выбрали TTS-движок Vocalware, почему хотим подключить вместо него систему Amazon Polly и какие задачи человек пока решает лучше робота. Читать дальше →