Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался…
Стильный и практичный карманный калькулятор Assistant AC-1121 имеет 8-разрядный дисплей, чувствительную клавиатуру и износоустойчивые пластиковые кнопки. Устройство поможет осуществить множество вычислительных операций, включая проценты. Калькулятор имеет двойную систему питания: от солнечного элемента и от батареи, что гарантирует ему бесперебойную работу на несколько лет. Assistant AC-1121, Red калькулятор код 0873293005485 Цвет красный Комплектация Калькулятор, ПВХ-обложка, инструкция […]
Главный страх любого инженера ошибка CUDA Out of Memory. Мы выстраиваемся в очереди за H200 на 140 ГБ. Но как только мы спускаемся с уровня Python на уровень написания кастомных ядер, наступает великая ирония. Наша главная цель как оптимизаторов любой ценой избежать обращения к этой самой VRAM. В этой статье мы поговорим о физике видеокарт, "Стене Памяти" и о том, почему настоящие нейросети живут в регистрах, а VRAM это просто холодный склад. Читать далее
Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, посвященную использованию SLM и локальных LLM. Малые языковые модели и локальные LLM становятся всё более популярными среди разработчиков. В статье рассмотрены лучшие из них и приведены советами по их оценке. Читать далее