Архитектура AMD RDNA 5 удвоит производительность игр
Предполагается, что новое поколение видеопроцессоров Radeon от AMD станет заметным шагом вперёд по сравнению с архитектурой RDNA 4. Одной из ключевых задач команды AMD является реализация возможности выполнения двух инструкций за такт.
Такая особенность позволяет графическому процессору обрабатывать две команды одновременно. Ранее она уже присутствовала в GPU AMD, начиная с RDNA 3, однако жёсткие требования к формированию пар инструкций мешали компиляторам полноценно её использовать, снижая тем самым достижимую теоретическую пиковую производительность. Теперь, согласно новому патчу LLVM, AMD, вероятно, решит эту проблему в рамках архитектуры RDNA 5.
Новые инструкции VOPD3 и изменения в LLVM
Издание Coelacanth’s Dream, ориентированное на Linux, проанализировало последние изменения и установило, что они связаны с набором инструкций gfx13 – производной от gfx130, которую можно считать RDNA 5. Компания, судя по всему, внедряет новый тип инструкций под названием «VOPD3», рассчитанный на более эффективную работу с модулем VALU (векторный арифметико-логический блок, шейдерный элемент), поддерживающим двойную выдачу инструкций. Улучшенная гибкость нового формата должна упростить использование двойных инструкций компиляторами.
Как VOPD3 расширяет возможности вычислений
На аппаратном уровне текущий механизм VOPD работал преимущественно с упрощёнными операциями, содержащими два операнда, что затрудняло формирование совместимых пар инструкций компилятором. VOPD3 расширяет эту возможность до трёхоперандных команд, позволяя выполнять такие операции, как умножение с последующим сложением (FMA). В том же патче уже появилась инструкция F_VMA_F32, что указывает на то, что данная функциональность, вероятно, будет использоваться в RDNA 5.
Прирост производительности и влияние на рендеринг
Благодаря этому частота выполнения пар инструкций возрастёт, что в перспективе обеспечит заметный рост пропускной способности в режиме FP32. Шейдерные блоки будут реже простаивать между тактами, выполняя больше полезной работы, а каждая команда станет эффективнее. Такой подход особенно актуален в высоконагруженных сценариях, например при рендеринге, и поможет игровым движкам лучше задействовать возможности двойной обработки VALU.
Преимущества для ИИ-рендеринга и масштабирования
Сокращение числа ситуаций, в которых синхронизация пар инструкций невозможна из-за архитектурных ограничений, представляет собой важный шаг к повышению общей эффективности оборудования без необходимости искусственно увеличивать показатель IPC за счёт доработки микрокода.
Кроме того, инструкции типа FMA имеют значение и для нейросетевого рендеринга, поэтому технологии масштабирования и генерации кадров также могут получить прирост производительности – даже если само оборудование не становится существенно мощнее – поскольку выполнение двух операций за такт повышает эффективность вычислений.