Создаем датасет печатных букв с любым шрифтом за 170 строк

Создаем датасет печатных букв с любым шрифтом за 170 строк

В этой работе разбирается простой способ генерации изображений букв для подготовки данных для обучения нейронной сети для классификации (распознавания) букв русского алфавита. Читать далее

4 июля 2025, пятница 17:15 Оставить комментарий Источник

Похожие материалы

Огромный открытый датасет русской речи версия 1.0

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось, можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд…

5 ноября 2019, вторник 12:28 Источник
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут…

11 апреля 2024, четверг 8:26 Источник
40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения

Я собрал датасет метаданных по ~40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и др. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT. Ниже — как скачать, что внутри и идеи использования.Датасет: ibragim-bad/github-repos-metadata-40M Читать далее

2 сентября 2025, вторник 20:14 Источник

Создаем датасет печатных букв с любым шрифтом за 170 строк

Комментарии

Похожие материалы

Огромный открытый датасет русской речи версия 1.0

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения