Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с…
Компания OneSoil разрабатывает бесплатные приложения для фермеров, которыми пользуются более чем в 180 странах мира. В своей работе мы используем большие данные и машинное обучение, и отдельный квест для нас — найти ground truth данные. Рассказываем, как мы решаем эту нетривиальную задачу. Читать далее
В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С. Читать далее
Бенчмарк для технологии манипуляции Бенчмарк предназначен для оценки эффективности применения робототехнического комплекса (РТК) в задачах манипуляции предметами по сравнению с использованием ручного человеческого труда. Бенчмарк содержит следующий набор…