Яндекс открывает крупнейший русскоязычный датасет отзывов на организации

Яндекс открывает крупнейший русскоязычный датасет отзывов на организации

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью. Читать далее

29 сентября 2023, пятница 12:00 Оставить комментарий Источник

Похожие материалы

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в…

20 июня 2025, пятница 14:05 Источник
MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM

Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под…

23 сентября 2025, вторник 10:40 Источник
RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи. Читать далее

22 декабря 2025, понедельник 12:13 Источник

Яндекс открывает крупнейший русскоязычный датасет отзывов на организации

Комментарии

Похожие материалы

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков