Словарь в Puzzle English помогает пользователям учить лексику наряду с аудио- и видеопазлами, подкастами, фильмами, сериалами и песнями. В Словаре переводы сопровождаются аудиопримерами слов и выражений. Для озвучек мы используем записи живых дикторов и TTS — text-to-speech system, синтезаторы речи из текста. Сегодня расскажем, как выбрали TTS-движок Vocalware, почему хотим подключить вместо него систему Amazon Polly и какие задачи человек пока решает лучше робота. Читать дальше →
Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере. Читать далее
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект (RustTTS) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей.Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем. Читать далее
В этой статье мы поговорим о системах клонирования голоса на основе TTS (Text-to-Speech), которые мы используем в корпоративной лаборатории человеко-машинного взаимодействия ИТМО для аугментации речевых баз данных в рамках задачи мультимодального распознавания доминантности…