Неважно, где ты гоняешь инференс: в проде на vLLM под нагрузкой или в локалке на llama.cpp, пытаясь втиснуть Llama-3 в 4 ГБ видеопамяти — вопрос всегда один. Какая конфигурация влезет в бюджет по VRAM и при этом не уронит p95?В статье рассказываю про разработанный харнесс, который берет эту рутину на себя и честно сравнивает бэкенды. Разбираем реальные грабли локального и прод-инференса. Читать далее
Bash-скрипты: начало Bash-скрипты, часть 2: циклы Bash-скрипты, часть 3: параметры и ключи командной строки Bash-скрипты, часть 4: ввод и вывод Bash-скрипты, часть 5: сигналы, фоновые задачи, управление сценариями Bash-скрипты, часть 6: функции и разработка библиотек Bash-скрипты, часть 7: sed и…
Bash-скрипты: начало Bash-скрипты, часть 2: циклы Bash-скрипты, часть 3: параметры и ключи командной строки Bash-скрипты, часть 4: ввод и вывод Bash-скрипты, часть 5: сигналы, фоновые задачи, управление сценариями Bash-скрипты, часть 6: функции и разработка библиотек Bash-скрипты, часть 7: sed и…
Bash-скрипты: начало Bash-скрипты, часть 2: циклы Bash-скрипты, часть 3: параметры и ключи командной строки Bash-скрипты, часть 4: ввод и вывод Bash-скрипты, часть 5: сигналы, фоновые задачи, управление сценариями Bash-скрипты, часть 6: функции и разработка библиотек Bash-скрипты, часть 7: sed и…