Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и
В прошлый раз [Загрузка данных с сайта открытых данных data.gov.ru] мне не без проблем удалось научиться загружать данные с портала открытых данных России. Портал открытых данных должен предоставлять наиболее актуальные сведения об открытых данных федеральных органов власти, органов региональной власти и иных организаций (цитата с сайта data.gov.ru). Посмотрим, какие данные на портале, насколько они актуальны и в каком виде размещаются. Читать дальше →
Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками. Мы торопимся исправить это годами длящееся недоразумение. Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников. Подробности под катом. Читать дальше →
В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось, можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд…