[Перевод] В 10-17 раз быстрее, чем что? Анализ производительности Intel x86-simd-sort (AVX-512)

[Перевод] В 10-17 раз быстрее, чем что? Анализ производительности Intel x86-simd-sort (AVX-512)

В статье приведён анализ производительности недавно ставшей популярной [1] реализации сортировки Intel AVX-512.Intel опубликовала невероятно быструю библиотеку сортировки для AVX-512, Numpy переходит на неё, чтобы ускорить сортировку в 10-17 разВ этом анализе мы рассмотрим производительность…

13 июня 2023, вторник 16:11 Оставить комментарий Источник

Похожие материалы

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

Предыдущая часть вызвала бурную дискуссию, в ходе которой выяснилось, что AVX/AVX2 на самом деле есть в десктопных CPU, нет только AVX512. Поэтому продолжаем знакомиться с SIMD, но уже с современной его частью — AVX. А так же разберём некоторые комментарии: медленнее ли _mm256_load_si256, чем прямое обращение к памяти? влияет ли на скорость использование AVX команд над SSE регистрами? действительно ли так плохо использовать _popcnt? Читать дальше →

18 февраля 2019, понедельник 20:21 Источник
Go 1.11: AVX-512 со вкусом Go

В Go 1.11 значительно обновлён ассемблер под платформу x86. У программистов появится возможность использовать AVX-512 — новейшие инструкции, доступные в процессорах Intel. Под катом: Самые значительные обновления в cmd/asm (go tool asm) Как был внедрён новый набор инструкций в Go ассемблер Использование новых инструкций и специальных возможностей EVEX префикса Уровень интеграции в тулчейн (рецепты обхождения текущих ограничений) Читать дальше →

8 июня 2018, пятница 14:53 Источник
Intel добавит в CPU инструкции для глубинного обучения

Некоторые из последних процессоров Intel поддерживают семейство векторных инструкций AVX-512. Они выполняются блоками по 512 бит (64 байта). Преимущество аппаратной поддержки таких больших инструкций в том, что за один такт процессор обрабатывает больше данных. Если код загружается 64-битными словами (8 байт), то теоретически, если не брать в учёт другие факторы, можно ускорить его выполнение в восемь раз, если использовать инструкции AVX-512. Читать дальше →

15 октября 2016, суббота 17:34 Источник

[Перевод] В 10-17 раз быстрее, чем что? Анализ производительности Intel x86-simd-sort (AVX-512)

Комментарии

Похожие материалы

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

Go 1.11: AVX-512 со вкусом Go

Intel добавит в CPU инструкции для глубинного обучения