Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

Хотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система.Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого

23 июня 2026, вторник 6:33 Оставить комментарий Источник

Похожие материалы

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 -

4 мая 2026, понедельник 14:37 Источник
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

3 дня борьбы с ROCm, RX580 и Ollama: как я запустил LLM на домашней видеокартеЯ попытался запустить LLM inference на старой AMD RX580 через ROCm и Ollama в Kubernetes. GPU определялся, VRAM занималась, контейнеры запускались — но inference падал с ошибками hipMemGetInfo, а иногда просто выдавал бессмысленный текст.В статье

15 марта 2026, воскресенье 6:15 Источник
[Перевод] Полное руководство по оценке компонентов системы RAG: что необходимо знать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций». Читать далее

24 ноября 2024, воскресенье 14:35 Источник

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

Комментарии

Похожие материалы

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

[Перевод] Полное руководство по оценке компонентов системы RAG: что необходимо знать