По ощущениям, на Хабре одна группа пользователей пользуется LLM локально, а другая - через внешние API. А третья еще не определилась, и у неё периодически возникают следующие вопросы:- Что будет, если запускать LLM на CPU вместо GPU? Сильно упадет скорость?- А как это от размера модели…
Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций». Читать далее
Как запускать LLM локально с LM Studio: Полное руководство 2026Запускайте большие языковые модели оффлайн на своём компьютере — без API-ключей, без облачных зависимостей, полная приватность Читать далее
Большие языковые модели (LLM) научились не только генерировать текст, но и выполнять реальные задачи, используя команды на естественном языке. Это открыло новую эру в автоматизации, породив так называемых LLM-агентов. Исследование "API Agents vs. GUI Agents: Divergence and Convergence" от Microsoft разбирает два ключевых подхода к созданию таких агентов. Давайте посмотрим, в чем их суть, различия и перспективы. Читать далее