Привет, Хабр! Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU-ядра на Triton. Зачем? Ну, новые ускорители от NVIDIA обещают невиданную ранее производительность на FP8 — вдвое больше операций, чем на FP16. Для тренировки…
Видеокарты NVIDIA на архитектуре Blackwell в очередной раз трансформируют рынок GPU. Три новые модели — RTX Pro 2000 Blackwell, RTX Pro 4000 SFF Blackwell Edition и RTX Pro 6000 Blackwell — делают технологии AI и высокопроизводительных вычислений более доступными для широкого круга компаний.В этой статье мы…
Разбираем RTX 6000 Blackwell Server Edition: чем она отличается от Workstation и Max-Q, как работает пассивное охлаждение в серверах, результаты тестов в инференсе LLM и генерации видео, а также сравнение с RTX 5090, A5000 и H100. Читать далее
Подобный Python Triton уже работает в ядрах, которые в 2 раза эффективнее эквивалентных реализаций Torch. А ядра матричного умножения FP16, сравнимые производительностью с cuBLAS, на Triton займут менее 25 строк. Как утверждает автор, многие программисты не могут написать такие ядра. Подробностями о Triton делимся к старту курса по ML и DL. Читать далее