Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM (Giga Acoustic Model) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования.Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей! Читать далее
Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry, sad, neutral, positive. Для некоторых задач бывает не достаточно классифицировать эмоции на 4 класса и хочется иметь более полный список эмоций. В статье рассмотрим: существующие корпуса данных для…
В июне команда ученых из Калифорнийского университета в Сан-Франциско опубликовала исследование, которое проливает свет на то, как люди меняют высоту тона в своей речи. Результаты этого исследования могут быть полезными в создании синтезаторов естественно звучащей речи — с эмоциями и различными интонациями. Об исследовании — в нашей сегодняшней статье. Читать дальше →
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в…