GR00T N1.5: архитектура, данные и эволюция VLA-моделей

GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление…

31 октября 2025, пятница 12:22 Оставить комментарий Источник

Похожие материалы

Несколько слов в защиту VLA

Исходный вариант этого опуса я написал еще в 2019 на другом ресурсе. Он планировался как вялый ответ на поток совершенно незаслуженной критики, направленной на такое свойство языка, как Variable Length Array (VLA). Поток обладал свойствами типичной эхо-камеры и пытаться противостоять ему…

8 августа 2022, понедельник 9:51 Источник
CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение…

9 декабря 2025, вторник 7:00 Источник
Помидор, которого нет: почему VLA-модели не понимают, что они держат

Современные VLA-модели (RT-2, π0, Helix) научились впечатляюще двигать роботом, но не понимают, что он держит. Помидор для них — кластер пикселей, статистически связанный с типичной траекторией хвата, а не сущность со свойствами. Поэтому они сыпятся на краевых случаях: подгнивший бок,…

27 мая 2026, среда 14:38 Источник

GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Комментарии

Похожие материалы

Несколько слов в защиту VLA

CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

Помидор, которого нет: почему VLA-модели не понимают, что они держат