Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси?В этом туториале — реальная архитектура low‑latency инференса на high‑load: почему изолированный inference‑bundle вместо монолита, как выбрать между vLLM и SGLang без маркетинга, зачем нужны continuous batching и admission control. Читать разбор
В первой части мы обсуждали оргмодель — как она устроена и какая от нее польза. В этой части поговорим про процессы. Читать далее
Коллеги, приветствуем. Статья адресована читателям, которые в ближайшие дни планируют быть в Санкт-Петербурге и посетить книжный салон.Вчера мы писали, что с 21 по 24 мая работаем для вас на стенде 13 в павильоне Б. Однако, развернув вчера базовый лагерь на территории салона, мы…
Российский продакт-менеджмент построил сильную школу discovery и почти не построил школу delivery. Это самый дорогой пробел в продакт-образовании, и с приходом ИИ он становится только дороже.Анализ 22 ведущих российских продакт-курсов (Karpov Courses, GoPractice, Skillbox, Яндекс Практикум, программы…
Привет, Хабр! Я — Стас Макаров, ранее продуктовый аналитик в Haulmont, ныне свободный вайбкодер))На прежнем месте работы я занимался BPM-продуктом — как из красивых схем, что рисуют аналитики, сделать работающее приложение. И на каждой встрече с клиентами или в тендерных документах…
Я делаю Valpero — uptime-мониторинг с проверками из 10 регионов мира. Когда я только собирал probe-сеть, я был уверен, что 10 географических точек это автоматически и 10 точек отказа. Открыл недавно AS-картину своего же парка — и обнаружил, что из 10 узлов у меня реально 4 разных автономных…
В интеграционных решениях сообщения неизбежно периодически попадают в архив: из-за сетевых ошибок, таймаутов, временной недоступности получателя или проблем валидации.Разовый ручной возврат сообщений в обработку удобен для диагностики, но плохо масштабируется. Если проблема
В одной из прошлых статей я писал о том, как рефакторил CLI-сервис на C#, в котором не был реализован маппинг аргументов в класс конфигураций. Пришлось писать свой.Есть разные библиотеки для этого, в т.ч. от MS. Но эта слишком сложная, другие не очень понравились. А главное то, что нет реализаций пайплайна, т.е. в сервис передаётся набор команд с параметрами и значениями, которые потом выполняются по порядку. Читать далее
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже.Спойлер: это было наивно. Но путь оказался ценнее результата. Читать далее
Беседа Алексея Рыбака с Константином Осиповым (Picodata) о выборе баз данных для хранения больших объёмов. Обсудили MySQL, PostgreSQL, миллионы нод MySQL в одной экстремистской организации, Cassandra, ScyllaDB, автошардирование, особенности и стоимость хранения, LSM, TTL, ScyllaDB в Discord, Cassandra в Netflix и Apple, а…