Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов

Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов

Кэш режет цену входных токенов в десять раз и держит юнит-экономику агентов, но ломается без единой ошибки в логах. Что на самом деле кэшируется, чем отличаются OpenAI, Anthropic и Google и как собрать промпт, который не убивает собственный кэш. Читать далее

18 июня 2026, четверг 7:00 Оставить комментарий Источник

Похожие материалы

[Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов. Читать далее

19 декабря 2025, пятница 11:09 Источник
[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

12 января 2026, понедельник 11:35 Источник
Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза

Кейс по оптимизации затрат на Claude API в проекте по автоматизации поиска работы. AI анализировал вакансии и генерировал сопроводительные письма. При 100 пользователях затраты достигали $180/месяц. Решение: Prompt Caching от Anthropic. Экономия 52% ($0.51 → $0.245 за batch из 50 вакансий). Теперь можно делать в 2 раза больше AI-вызовов с тем же бюджетом.Кому полезно: всем, кто работает с LLM API и хочет оптимизировать затраты. Читать далее

10 ноября 2025, понедельник 23:17 Источник

Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов

Комментарии

Похожие материалы

[Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза