[Перевод] Оптимизация ядра WebGPU для перемножения матриц и достижения производительности свыше 1ТФЛОПС

[Перевод] Оптимизация ядра WebGPU для перемножения матриц и достижения производительности свыше 1ТФЛОПС

Пишем Surfgrad, высокопроизводительную библиотеку для автоматического дифференцирования выражений при помощи WebGPU.Я работаю в компании Nomic, и многие из моих коллег заняты созданием больших TSNE-подобных визуализаций, работающих в браузере. При визуализации таких двумерных карт

6 декабря 2024, пятница 2:57 Оставить комментарий Источник

Похожие материалы

[Перевод] GPU-вычисления в браузере на скорости нативного приложения: марширующие кубы на WebGPU

WebGPU — это мощный GPU-API для веба, поддерживает продвинутые рендеринговые конвейеры и вычислительные конвейеры GPU. WebGPU ключевым образом отличается от WebGL своей поддержкой вычислительных шейдеров и буферов хранения данных. В WebGL такие возможности отсутствуют, а WebGPU, в свою очередь,…

1 мая 2024, среда 1:13 Источник
Как устроена языковая модель без перемножения матриц

Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора. Именно умножение матриц с его …

3 сентября 2024, вторник 16:07 Источник
[Перевод] Невероятно, но факт: умножение матриц на GPU идёт быстрее на «предсказуемых» данных

Шёл 2022 год. Я обратил внимание на новый интересный проект CUTLASS, отличающийся очень высокой скоростью выполнения операций умножения матриц. Я взял большую задачу по умножению матриц — 8192 x 8192 x 8192, и померял производительность в PyTorch, где используется библиотека cuBLAS. Читать далее

6 мая 2024, понедельник 13:00 Источник

[Перевод] Оптимизация ядра WebGPU для перемножения матриц и достижения производительности свыше 1ТФЛОПС

Комментарии

Похожие материалы

[Перевод] GPU-вычисления в браузере на скорости нативного приложения: марширующие кубы на WebGPU

Как устроена языковая модель без перемножения матриц

[Перевод] Невероятно, но факт: умножение матриц на GPU идёт быстрее на «предсказуемых» данных