Triton FP8: реализация и автотюнинг GEMM/Attention под RTX 40xx/Blackwell

Triton FP8: реализация и автотюнинг GEMM/Attention под RTX 40xx/Blackwell

Привет, Хабр! Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU-ядра на Triton. Зачем? Ну, новые ускорители от NVIDIA обещают невиданную ранее производительность на FP8 — вдвое больше операций, чем на FP16. Для тренировки…

6 октября 2025, понедельник 7:08 Оставить комментарий Источник

Похожие материалы

RTX Pro 2000, 4000 SFF и 6000 Blackwell: новое поколение видеокарт NVIDIA

Видеокарты NVIDIA на архитектуре Blackwell в очередной раз трансформируют рынок GPU. Три новые модели — RTX Pro 2000 Blackwell, RTX Pro 4000 SFF Blackwell Edition и RTX Pro 6000 Blackwell — делают технологии AI и высокопроизводительных вычислений более доступными для широкого круга компаний.В этой статье мы…

27 августа 2025, среда 11:44 Источник
RTX PRO 6000 Blackwell Server Edition — как NVIDIA запутала всех с новым поколением своих профессиональных GPU

Разбираем RTX 6000 Blackwell Server Edition: чем она отличается от Workstation и Max-Q, как работает пассивное охлаждение в серверах, результаты тестов в инференсе LLM и генерации видео, а также сравнение с RTX 5090, A5000 и H100. Читать далее

26 августа 2025, вторник 20:08 Источник
[Перевод] Triton: Open Source язык для ядер Deep Learning

Подобный Python Triton уже работает в ядрах, которые в 2 раза эффективнее эквивалентных реализаций Torch. А ядра матричного умножения FP16, сравнимые производительностью с cuBLAS, на Triton займут менее 25 строк. Как утверждает автор, многие программисты не могут написать такие ядра. Подробностями о Triton делимся к старту курса по ML и DL. Читать далее

23 сентября 2021, четверг 21:49 Источник

Triton FP8: реализация и автотюнинг GEMM/Attention под RTX 40xx/Blackwell

Комментарии

Похожие материалы

RTX Pro 2000, 4000 SFF и 6000 Blackwell: новое поколение видеокарт NVIDIA

RTX PRO 6000 Blackwell Server Edition — как NVIDIA запутала всех с новым поколением своих профессиональных GPU

[Перевод] Triton: Open Source язык для ядер Deep Learning