Как мы собирали датасет для разработки ML-инструмента, помогающего спасать жизни

Как мы собирали датасет для разработки ML-инструмента, помогающего спасать жизни

Привет, Хабр! В этом посте речь пойдет о специфическом датасете, предназначенном для решения очень важной задачи — разработки ML-инструмента, помогающего своевременно выявлять предпосылки и предотвращать суициды. Мы с командой «Пситехлаб», специализирующейся на ИИ-решениях для психотерапии, собирали его по вечерам. Этот проект диссертационный, он не входит в мои обязанности в рамках работы в MWS AI, но опыт, приобретенный в компании, стал базой, без которой его бы не было. Читать далее

15 января 2026, четверг 9:59 Оставить комментарий Источник

Похожие материалы

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи. Читать далее

22 декабря 2025, понедельник 12:13 Источник
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут…

11 апреля 2024, четверг 8:26 Источник
40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения

Я собрал датасет метаданных по ~40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и др. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT. Ниже — как скачать, что внутри и идеи использования.Датасет: ibragim-bad/github-repos-metadata-40M Читать далее

2 сентября 2025, вторник 20:14 Источник

Как мы собирали датасет для разработки ML-инструмента, помогающего спасать жизни

Комментарии

Похожие материалы

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения