cuda-core 1.0 — пишем CUDA-ядра на Python без C++ (ну почти)

cuda-core 1.0 — пишем CUDA-ядра на Python без C++ (ну почти)

11 мая 2026 года NVIDIA выпустила cuda-core v1.0.0 — первый стабильный релиз библиотеки, которая даёт Python-разработчикам прямой доступ к CUDA Runtime без тяжелых C++ обвязок.Мы взяли 3 видеокарты (4090, 3090, A100 80Gb) и протестировали работу библиотеки на каждой.cuda-core — это Pythonic-обёртка над CUDA Runtime. Она…

12 мая 2026, вторник 10:15 Оставить комментарий Источник

Похожие материалы

Кратко про язык программирования Triton

Triton был разработан специально для выполнения на GPU и предоставляет удобную Python-ориентированную среду.Triton позволяет использовать модель программирования, основанную на блоках, которая значительно отличается от традиционной модели CUDA. Вместо управления потоками на уровне скалярных инструкций, Triton оперирует блоками данных, что в целом дает более лучшую производительность. Читать далее

18 апреля 2024, четверг 15:02 Источник
[Перевод] Пишем кастомные CUDA-ядра на Triton

Triton – это языковой компилятор для создания сильно оптимизированных ядер CUDA. Здесь будут изложены основы программирования для GPU и рассказано, как для этой цели используется Triton. Учитывая нынешний успех глубокого обучения и вал исследовательских статей на эту тему, часто…

30 ноября 2022, среда 13:01 Источник
[Перевод] Triton: Open Source язык для ядер Deep Learning

Подобный Python Triton уже работает в ядрах, которые в 2 раза эффективнее эквивалентных реализаций Torch. А ядра матричного умножения FP16, сравнимые производительностью с cuBLAS, на Triton займут менее 25 строк. Как утверждает автор, многие программисты не могут написать такие ядра. Подробностями о Triton делимся к старту курса по ML и DL. Читать далее

23 сентября 2021, четверг 21:49 Источник

cuda-core 1.0 — пишем CUDA-ядра на Python без C++ (ну почти)

Комментарии

Похожие материалы

Кратко про язык программирования Triton

[Перевод] Пишем кастомные CUDA-ядра на Triton

[Перевод] Triton: Open Source язык для ядер Deep Learning