Видеокарты под маркой Arc дебютировали еще в середине лета, но ускоритель Arc A380, который мы рассмотрели в недавнем обзоре, — устройство, далекое от массового рынка. Надо отдать должное Intel: по совокупности функций Arc A380 стал самым продвинутым решением экономкласса, на который AMD и NVIDIA обращают внимание в последнюю очередь. Однако и стоит A380 немало для своей (прямо скажем, скромной) игровой производительности. Впрочем, младшая модель едва ли была рассчитана на коммерческий успех и выступила для Intel своего рода пробным шаром, о чем говорит и низкое качество релизного ПО, которое явно готовили впопыхах.
На старших видеокартах — Arc A750 и A770 — уже лежит бóльшая ответственность, ведь они принадлежат к самой востребованной, средней ценовой категории. Пока новые архитектуры GPU NVIDIA и AMD (Ada и RDNA 3 соответственно) еще не распространились вниз по модельной лестнице, инициатива оказалась в руках Intel. Ну что ж, пора узнать, не пропала ли даром такая удачная возможность. Сегодня мы рассмотрим топовую позицию линейки Arc — A770, а в ближайшее время займемся ее урезанным аналогом Arc A750.
⇡#Архитектура Xe-HPG
Номенклатура Intel традиционно сложнее, чем у графических процессоров NVIDIА и AMD. Так, микроархитектура современных «зеленых» GPU вообще не имеет общего маркетингового названия, классифицируют только семейство чипов (Turing, Ampere, Ada и т. д.). С другой стороны, Arc — это линейка конечных устройств, которая делится на категории Arc 3, Arc 5 и Arc 7 в соответствии с их производительностью. Сами чипы для ускорителей Arc первой волны объединены в серию Alchemist, которая в будущем уступит место кремнию Battlemage, Celestial и Druid. При этом все дискретные GPU потребительского класса от Intel основаны или будут основаны на тех или иных итерациях логики Xe-HPG.
Xe-HPG не так хорошо документирована, как решения конкурентов, но все ключевые характеристики архитектуры, известные на тот момент, мы обобщили в обзоре Arc A380. Высокоуровневая структура Xe-HPG имеет немало общего с чипами NVIDIA, а для приблизительного сравнения тех или иных «синих» чипов с «зелеными» проще всего оперировать количеством Xe-Core — неделимых строительных блоков GPU. Так же как потоковый мультипроцессор (SM) у NVIDIA, Xe-Core содержит 128 FP32-совместимых шейдерных ALU, кеш нулевого и первого уровня (192 Кбайт), а также матричную (тензорную) логику — Xe Matrix Extensions (XMX). Осталось добавить лишь некоторые ранее неизвестные подробности, которые Intel раскрыла в преддверии релиза Arc A750 и A770. В частности, стало известно, каким образом внутри Xe-Core происходит исполнение разнородных инструкций.
На углубленном уровне шейдерные ALU интеловского Xe-Core разбиты по восемь штук на 16 SIMD-модулей. Каждый SIMD, оперирующий вещественными числами, дублирует точно такой же, но уже целочисленный векторный массив, а в целом два типа SIMD вместе с собственным сегментом регистрового файла образуют так называемый XVE (Xe Vector Engine). В свою очередь, XVE объединяются парами под управлением общего планировщика и диспетчера, который способен загружать одновременно всю вещественно- и целочисленную логику, а также близлежащие к определенным XVE матричные блоки XMX. Конкуренция за порты диспетчера существует только между целочисленными блоками и ALU тригонометрических операций, которые используются сравнительно редко. Таким образом, несмотря на поверхностное сходство, архитектура Xe-HPG фундаментально мощнее, чем «зеленые» Ampere и Ada, благодаря тому что может выполнять целочисленные расчеты в равном темпе с операциями FP32. У NVIDIA просто вдвое меньше целочисленных ALU, а когда они активны, производительность соответствующего SM в операциях FP32 падает вдвое. В чипах RDNA 2 от AMD никаких отдельных INT-массивов не существует вовсе, а целочисленные данные при необходимости обрабатываются вместо вещественночисленных.
Операции половинной точности (FP16) Xe-HPG выполняет с удвоенной скоростью по сравнению с FP32 — это также свойственно архитектуре RDNA 2, но не Ampere и Ada (хотя у «зеленых», в отличие от «красных», FP16 не занимает такты FP32-совместимых ALU). В свою очередь, функция расчетов двойной точности (FP64) потребительским GPU не нужна, и в Alchemist даже нет соответствующих ALU, но, как ни странно, даже в режиме эмуляции пропускная способность FP64 у видеокарт Arc составляет 1/4 от FP32, в то время как игровые чипы NVIDIA и AMD довольствуются темпом 1/64 и 1/16 соответственно.
Что касается матричных вычислений, соответствующая часть Alchemist — 16 блоков XMX в каждом Xe-Core — потенциально развивает вдвое большую производительность, чем все тензорные ядра амперовского SM: вплоть до 1024 операций умножения-сложения с однократным округлением (FMA) над данными FP16 за такт, что означает 2048 индивидуальных операций (или 2048 FLOPS на герц тактовой частоты).
Более крупной организационной единицей архитектуры, нежели Xe-Core, является Render Slice. В рамках семейства Alchemist один Render Slice содержит 4 Xe-Core, ряд обязательных для GPU компонентов фиксированной функциональности — 32 блока наложения текстур и 16 ROP, — геометрический фронтенд, а также 4 блока трассировки лучей. Последние берут на себя тот же набор функций, как в устройствах конкурентов: поиск необходимого треугольника в иерархической структуре сцены (BVH) и поиск точки падения луча на полигон.
Ampere сохраняет лидерство по темпу поиска пересечений луча с полигоном: два за такт против одного, но и здесь Intel нашла чем крыть «зеленую» карту. Помните, что в архитектуре Ada появились специализированные инструкции для того, чтобы оптимальным образом перегруппировывать расходящиеся потоки вычислений при трассировке лучей? Xe-HPG умеет делать то же самое, но за счет умных планировщиков и, следовательно, без дополнительных усилий со стороны разработчиков ПО.
Что касается «красной» архитектуры RDNA 2, ее RT-блок тоже находит одно пересечение луча с полигоном за такт, но втрое меньше пересечений с боксом BVH (4 против интеловских 12). Впрочем, соотношение между Xe-HPG и RDNA 2 частично уравновешивает такая подробность, что AMD выделяет один RT-блок на 64 FP32-совместимых шейдерных ALU, а NVIDIA и Intel — на 128.
Как бы то ни было, и в теории, и, если судить по результатам Arc A380, на практике Arc успешнее конкурирует Ampere аналогами в задачах игрового и рабочего рейтрейсинга. Появление графических процессоров Ada от NVIDIA меняет картину: в ней снова удвоили скорость поиска пересечений луча с полигоном и пропускную способность тензорных блоков. Но, к счастью для Intel, среднебюджетные видеокарты GeForce 40-й серии появятся на рынке еще очень нескоро.
⇡#Технические характеристики, цены
Кремний Alchemist представлен всего двумя кристаллами. DG2-128 (другое наименование — ACM-G11) лежит в основе ускорителей подсемейства Arc 3, в то время как на старшем чипе DG2-512 (ACM-G10) держатся все модели Arc 5 и Arc 7. Для выпуска обоих графических процессоров Intel воспользовалась технологией N6 на мощностях TSMC, которая формально относится к узлу 7 нм, но обеспечивает бóльшую плотность компонентов, нежели самсунговские 8 нм у Ampere или «чистые» 7 нм у топовых «красных» чипов Navi.
DG2-512 — довольно крупный GPU, состоящий из 21,7 млрд транзисторов. На платы Arc A770 устанавливают полностью функциональные чипы, что дает в распоряжение пользователя 32 Xe-Core, а традиционная формула GPU раскрывается на 4096 FP32-совместимых шейдерных ALU, 256 блоков наложения текстур и 128 блоков операций растеризации (ROP). Согласно референсным характеристикам сердце Arc A770 бьется в диапазоне тактовой частоты от 2,1 до 2,4 ГГц, а полный резерв мощности равен 225 Вт.
Кристалл содержит внушительный объем кеша второго уровня (16 Мбайт) — решение, к которому так или иначе пришли все три производителя GPU с целью уменьшить требования к пропускной способности «дальней» памяти. Тем не менее DG2-512 обладает широкой по актуальным стандартам средней ценовой категории 256-битной шиной VRAM. Объем памяти составляет 8 либо 16 Гбайт, при этом к большему объему привязана еще и повышенная скорость: 17,5 вместо 16 Гбит/с на контакт шины. Ускорители Arc подключатся к системе 16 линиями PCI Express 4.0 и — внимание! — требуют поддержки Resizable BAR со стороны процессора и материнской платы. В противном случае, как мы уже выяснили на примере Arc A380, производительность страдает чрезвычайно сильно. Напомним и о другом ограничении: в Xe-HPG отсутствует нативная поддержка Direct3D 9, а совместимость со старыми играми гарантирует прослойка эмуляции D3D9On12.
Может сложиться впечатление, что при таком количестве шейдерных ALU, высоких тактовых частотах и соответствующих оценках вычислительной мощности флагманский ускоритель Intel готов бросить вызов Radeon RX 6800 или GeForce RTX 3070, однако архитектура Xe-HPG не настолько эффективна и, судя по всему, испытывает проблемы с полной загрузкой. Сама Intel признает, что главным соперником Arc A770 выступает GeForce RTX 3060, а следовательно, и Radeon RX 6600 XT. Теоретически Arc A770 оказалась в том же положении, что видеокарты AMD на чипах Polaris несколько лет тому назад, а залогом успеха могла бы стать лучшая игровая производительность по такой же или более привлекательной цене, но — к добру или худу — Intel пошла другим путем.
Рекомендованная розничная стоимость видеокарт была установлена на уровне $329 за версию с 8 Гбайт VRAM и $349 за 16-гигабайтную. В действительности только младшая конфигурация продается по MSRP, а старшая на торговых площадках США стоит не меньше $399. Как следствие, Arc A770 8 Гбайт оказалась дороже по сравнению с GeForce RTX 3060 (минимум $319) и тем более Radeon RX 6600 XT ($289). В свою очередь, Arc A770 16 Гбайт превосходит по цене самые доступные варианты GeForce RTX 3060 Ti ($349) и Radeon RX 6700 XT ($359).
Завышенные цены Intel отчасти компенсирует рядом функциональных инноваций. Так, в кремний Alchemist внедрили аппаратный кодировщик видео VP9 и AV1 и контроллер интерфейса DisplayPort 2.0, который позволяет выводить картинку с разрешением 8К и частотой обновления 60 Гц без потери точности цветопередачи и компрессии либо подключать несколько экранов меньшего разрешения по цепочке. Что касается HDMI, то Alchemist не поддерживает версию 2.1 нативно, но это легко исправить конвертацией сигнала DisplayPort, как сделано, например, в интеловских референсных устройствах Limited Edition.
Однако титульной функцией Arc является масштабирование кадров XeSS на основе глубинного обучения, которое выполняет мощная тензорная логика Xe-HPG. Тем не менее нейросеть XeSS не привязана к железу Intel и поддерживает почти любые современные GPU. На «чужом» кремнии применяются универсальные инструкции шейдеров DP4a вместо матричных и урезанные вычислительные кернелы, что влечет за собой определенную потерю точности. Недавно мы испытывали XeSS в Call of Duty: Modern Warfare II и можем заверить, что интеловский метод апскейлинга ненамного уступает DLSS по качеству изображения и в то же время явно превосходит первую версию FSR даже в упрощенном режиме.
Что касается того, насколько эффективно апскейлинг увеличивает игровой фреймрейт, не будем забывать, что XeSS, как и любое решение на основе нейросети, само по себе не является бесплатным с точки зрения вычислительных ресурсов. Так, XeSS в CoD: MW II на Arc A380 даже в режиме Performance приносит лишь 13 % дополнительных FPS, а FSR — уже 48 %. С Arc A770 все по-другому: XeSS позволяет рассчитывать на бонус в 20–63 % в зависимости от разрешения. Метод FSR все еще более эффективен (прибавка кадровой частоты составляет 40–103 %), но, как мы уже знаем, первая версия FSR даже рядом не стоит с XeSS по качеству изображения.
Кстати, владельцам Arc A770 и Arc A750 полагается бесплатная копия новой «Колды» от Intel, а это громадный бонус при текущей стоимости ААА-тайтлов ($70 на PC) для тех, кто в любом случае собирался купить Modern Warfare II. Наши сограждане по очевидной причине не смогут воспользоваться акцией, но в Россию и сами ускорители Arc официально не поставляют. Отдельные компании помогают достать новинку из-за рубежа по цене как минимум 27 000 или 37 577 тыс. руб. в зависимости от объема памяти. А значит, на местном рынке Arc A770 с 8 Гбайт VRAM также стоит больше, чем GeForce RTX 3060 (25 755 руб.) и Radeon RX 6600 XT (26 874 руб.), а версия с 16 Гбайт превосходит по цене GeForce RTX 3600 Ti (33 149 руб.) и Radeon RX 6700 XT (37 439 руб.).
Обе конфигурации Arc A770 представлены редкими партнерскими устройствами, но Intel предлагает референсный вариант с 16 Гбайт VRAM под собственным брендом — Arc A770 Limited Edition, — доступность которого на самом деле не ограничена: компания объявила, что будет выпускать его и дальше. На западных торговых площадках видеокарта в дефиците и стоит заоблачные $549 в момент работы над статьей, у нас — чуть больше 37 тыс. рублей. Ее мы и выбрали для обзора Arc A770.
⇡#Конструкция
Не можем сказать, кто из OEM-производителей приложил руку к созданию Arc A770 Limited Edition, но в облике устройства читается самобытный интеловский стиль. Это компактная видеокарта, которая занимает в корпусе ПК два слота расширения, а другие габаритные размеры составляют 27 и 11,5 см. Весит новинка чуть меньше 1,1 кг.
Пластиковый кожух системы охлаждения и бэкплейт (он, кстати, металлический) имеют черное, глубоко матовое покрытие с эффектом софт-тач. Лицевую панель и вентиляторы размером 85 мм окаймляет светодиодная лента. Но для того, чтобы настроить или выключить подсветку, придется соединить разъем, закрытый резиновой заглушкой, с внутренней колодкой USB на материнской плате (для этого к видеокарте прилагается специальный кабель). Теряемся в догадках, что именно помешало Intel открыть доступ к контроллеру светодиодов по шине PCI Express, как это делают все конкуренты.
А вот и другой признак, говорящий о недостатке опыта инженеров Intel (или избранного компанией OEM-партнера) в проектировании дискретных видеокарт: бэкплейт удерживают на месте не винты, а клейкая лента. К счастью, это эластичная прослойка, которую можно размягчить горячим воздухом, и затем панель снимается без повреждений клеевого слоя. Под бэкплейтом мы нашли дочернюю плату, через которую проходят соединения между основной PCB, вентиляторами и подсветкой, а также плоскую деталь с термопрокладкой, прижатую к зоне VRM, но радиатор из нее так себе, ведь никакого движения воздуха под бекплейтом нет.
С фронтальной стороны к плате прилегает металлическая рама, которая является главным средством охлаждения VRM и в то же время обеспечивает конструкции необходимую жесткость.
Кристалл GPU и микросхемы памяти обслуживает радиатор с массивной испарительной камерой и пятью тепловыми трубками — отсюда небольшие размеры видеокарты с довольно-таки внушительным энергопотреблением 225 Вт. Тем не менее вращение вентиляторов не прекращается даже в простое графического процессора, что наверняка является очередной недоработкой драйвера.
⇡#Печатная плата
Взяв за образец продукты NVIDIA и AMD последних лет, Intel не стала экономить на элементной базе референсных ускорителей. Система питания графического процессора всего лишь шестифазная, но она построена на чрезвычайно мощных силовых каскадах Monolithic Power Systems MP86956 с номинальным током 70 А. Питание чипов памяти GDDR6 — четырехфазное, на основе 50-амперных сборок MP86950. Обоими VRM управляют экзотические ШИМ-контроллеры MP2979, также от Monolithic Power Systems. Сглаживающие фильтры на входе и выходе регуляторов укомплектованы высококачественными SMD-конденсаторами. Другим необычным компонентом Arc A770 Limited Edition является чип Realtek RTD2173, который выполняет конвертацию сигнала DisplayPort в HDMI 2.1
Видеопамять Arc A770 Limited Edition набрана восемью чипами Samsung с маркировкой K4ZAF325BM-HC18, которая означает пропускную способность 18 Гбит/с. Intel ограничила ее до 17,5 Гбит/с, что могло бы стать почвой для эффективного разгона, однако оверклокинг VRAM в серии Alchemist принципиально заблокирован.
from Наука и техника - Последние - Google Новости https://ift.tt/dtRnaDZ
via IFTTT
Комментариев нет:
Отправить комментарий