Архитектура AI-сервисов: почему монолит убивает latency и GPU

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси?В этом туториале — реальная архитектура low‑latency инференса на high‑load: почему изолированный inference‑bundle вместо монолита, как выбрать между vLLM и SGLang без маркетинга, зачем нужны continuous batching и admission control. Читать разбор

21 мая 2026, четверг 6:51 Оставить комментарий Источник

Похожие материалы

От микросервисного монолита к оркестратору бизнес-сервисов

Когда компании решают разделить монолит на микросервисы, в большинстве случаев они последовательно проходят четыре этапа: монолит, микросервисный монолит, микросервисы, оркестратор бизнес-сервисов. Если вы определите, на каком из этапов находитесь сейчас, это поможет вам понять плюсы и минусы текущего этапа, оценить стоит ли идти на следующий этап и, если стоит, увидеть шаги необходимые для перехода. Читать дальше →

13 апреля 2020, понедельник 14:08 Источник
[Перевод] Agile учит нас истинному смыслу Архитектуры

Что такое архитектура? Не города или здания, а организационная версия: архитектура предприятия, архитектура решения, архитектура приложения, архитектура программного обеспечения, бизнес-архитектура, архитектура инфраструктуры? Волосы на моей голове начинают шевелиться,…

11 мая 2020, понедельник 12:56 Источник
[Перевод] Верните мне мой монолит

Кажется, пик хайпа по микросервисам остался позади. Мы уже не читаем по нескольку раз в неделю посты «Как я перенес свой монолит на 150 сервисов». Теперь я чаще слышу разумные мысли: «Я не ненавижу монолит, я просто забочусь об эффективности». Мы даже наблюдали несколько миграций от микросервисов обратно к монолиту. При переходе от одного большого приложения к нескольким службам меньшего размера вам придётся решать несколько новых проблем. Перечислим их максимально кратко. Читать дальше →

18 марта 2019, понедельник 10:20 Источник

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Комментарии

Похожие материалы

От микросервисного монолита к оркестратору бизнес-сервисов

[Перевод] Agile учит нас истинному смыслу Архитектуры

[Перевод] Верните мне мой монолит