Всем привет! Меня зовут Александра Сорока, я занимаюсь синтезом речи в Тинькофф. А это — мой текст о том, зачем вообще думать о долгосрочной поддержке кода и ML-моделей. Я расскажу, почему мы отказались от опенсорсных решений, как работаем с датасетами и разными версиями моделей и как замеряем их качество. Статья может оказаться полезной для всех, кто хочет знать, как ничего не поломать. Читать далее
Привет, Хабр! Меня зовут Дарима Мылзенова, я инженер-исследователь Just AI.В компании я работаю над задачами синтеза речи. Возможно, вы слышали, как мы синтезировали голос Кроша из Смешариков. В этой статье я хочу поделиться современными методами управления просодией в синтезе речи. Если вас интересует вопрос о том, как можно сделать синтез более реалистичным, то, надеюсь, вам будет полезен этот материал. Читать далее
Рассказываем о нашем новом синтезе речи.Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при…
VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами,…