Как мы подходим к поддержке ML-моделей в синтезе речи

Как мы подходим к поддержке ML-моделей в синтезе речи

Всем привет! Меня зовут Александра Сорока, я занимаюсь синтезом речи в Тинькофф. А это — мой текст о том, зачем вообще думать о долгосрочной поддержке кода и ML-моделей. Я расскажу, почему мы отказались от опенсорсных решений, как работаем с датасетами и разными версиями моделей и как замеряем их качество. Статья может оказаться полезной для всех, кто хочет знать, как ничего не поломать. Читать далее

3 июня 2022, пятница 16:27 Оставить комментарий Источник

Похожие материалы

Как управлять просодией в синтезе речи

Привет, Хабр! Меня зовут Дарима Мылзенова, я инженер-исследователь Just AI.В компании я работаю над задачами синтеза речи. Возможно, вы слышали, как мы синтезировали голос Кроша из Смешариков. В этой статье я хочу поделиться современными методами управления просодией в синтезе речи. Если вас интересует вопрос о том, как можно сделать синтез более реалистичным, то, надеюсь, вам будет полезен этот материал. Читать далее

23 ноября 2022, среда 17:51 Источник
Наш новый LLM-based синтез речи

Рассказываем о нашем новом синтезе речи.Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при…

21 ноября 2025, пятница 9:07 Источник
[Перевод] VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами,…

6 декабря 2024, пятница 16:15 Источник

Как мы подходим к поддержке ML-моделей в синтезе речи

Комментарии

Похожие материалы

Как управлять просодией в синтезе речи

Наш новый LLM-based синтез речи

[Перевод] VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot