Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой…

4 мая 2026, понедельник 7:00 Оставить комментарий Источник

Похожие материалы

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Последние новости в сфере ИИ намекают на важный сдвиг: локальный запуск очень больших моделей уже не выглядит чистой фантастикой. В этой статье я разбираю две технологии — Bonsai и TurboQuant, — которые бьют по двум главным ограничениям инференса: размеру весов и объёму KV-cache. А затем прикидываю, что будет, если однажды их удастся объединить и масштабировать до моделей уровня 235B. Читать далее

2 апреля 2026, четверг 22:41 Источник
TurboQuant. Новый алгоритм сжатия от Google

Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз. При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ. Читать далее

25 марта 2026, среда 20:46 Источник
CVE-2021-41589

In Gradle Enterprise before 2021.3 (and Enterprise Build Cache Node before 10.0), there is potential cache poisoning and remote code execution when running the build cache node with its default configuration. This configuration allows anonymous access to the configuration user interface and anonymous write access to the build cache. If access control to the build cache is not changed from the default open configuration, a malicious actor with network access can populate the cache with manipulated entries…

27 октября 2021, среда 22:01 Источник

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

Комментарии

Похожие материалы

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

TurboQuant. Новый алгоритм сжатия от Google

CVE-2021-41589