Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков. Читать далее
Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM…
Привет Хабр!Это научный дайджест и сегодня на нашем столе: - ИИ генерирует устройства в области оптики, и они выходят даже лучше чем то что делают ручками - Учёные представили UAV-CodeAgents — систему планирования миссий БПЛА, где дроны управляются через LLM и VLM - LLM, взаимодействуя между собой, начинают вести себя… как общества людей Читать далее
Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?Всем привет! Меня зовут Константин Розанов, DS в RnD отделе Raft и в этой статье я сравниваю, как современные VLM-модели (GPT Vision, Gemini, Qwen и др.) определяют повреждения автомобиля по фото: замечают ли они вмятины, отличают ли грязь от трещины, и какая из них ближе всего к эксперту из СТО. Читать далее