Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM (Giga Acoustic Model) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования.Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей! Читать далее
В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке: поддерживает новые домены и end-to-end нормализацию текста. Читать далее
Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry, sad, neutral, positive. Для некоторых задач бывает не достаточно классифицировать эмоции на 4 класса и хочется иметь более полный список эмоций. В статье рассмотрим: существующие корпуса данных для…
В июне команда ученых из Калифорнийского университета в Сан-Франциско опубликовала исследование, которое проливает свет на то, как люди меняют высоту тона в своей речи. Результаты этого исследования могут быть полезными в создании синтезаторов естественно звучащей речи — с эмоциями и различными интонациями. Об исследовании — в нашей сегодняшней статье. Читать дальше →