Разные подходы Intel и AMD к объединению процессоров


Epyc или Xeon, больше ядер = больше кремния, и дальше всё становится только сложнее.

Вскоре после выпуска в 2017 году процессоров AMD Epyc первого поколения под кодовым названием Naples, компания Intel пошутила, что её конкуренту пришлось склеивать несколько настольных процессоров, чтобы оставаться на плаву. К несчастью для Intel, этот комментарий не устарел, поскольку всего несколько лет спустя гигант x86 сам взялся за склеивание, пишет The Register.

Процессоры Intel Xeon 6, выпуск которых начался поэтапно в этом году, представляют собой третье поколение многокристальных процессоров Xeon и первые чипы для центров обработки данных с гетерогенной архитектурой, похожей на архитектуру AMD.

Хотя Intel в конечном счёте осознала целесообразность стратегии AMD по выпуску чипов, их подходы сильно различались.

Многие разработчики процессоров отказываются от монолитных архитектур, то в основном это связано с двумя факторами: ограничениями и производительностью.
Если не говорить о значительных улучшениях в технологии производства, большее количество ядер неизбежно означает большее количество кремния. Однако существуют практические ограничения на размер кристаллов — так называемый «предел сетки» — который составляет примерно 800 мм2. Как только вы достигаете этого предела, единственный способ продолжить масштабирование вычислений — использовать больше кристаллов.

Сейчас это реализовано в ряде продуктов — не только в процессорах, — в которых два больших кристалла помещаются в один корпус. Gaudi 3, Nvidia Blackwell и Intel Emerald Rapids Xeons — вот лишь несколько примеров.

Проблема с несколькими кристаллами заключается в том, что мост между ними часто становится узким местом с точки зрения пропускной способности и может приводить к дополнительным задержкам. Обычно это не так плохо, как распределение рабочей нагрузки между несколькими сокетами, но это одна из причин, по которой некоторые разработчики микросхем предпочитают использовать меньшее количество более крупных кристаллов для масштабирования вычислений.

Однако производство более крупных кристаллов обходится очень дорого, потому что чем больше кристалл, тем выше вероятность брака. Это делает использование множества более мелких кристаллов привлекательным предложением и объясняет, почему в конструкции AMD используется так много кристаллов — до 17 в последних моделях Epyc.

Разобравшись с основами, рассмотрим различные концепции дизайна новейших процессоров Intel и AMD Xeons и Epyc.

Начнём с процессоров AMD Epyc Turin 5-го поколения. В частности, рассмотрим 128-ядерный вариант процессора Zen 5, в котором 16 4-нм кристаллов (CCD) окружают один кристалл ввода-вывода (IOD), изготовленный по 6-нм техпроцессу TSMC.
AMD использовала ту же базовую формулу ещё в процессорах Epyc второго поколения. Для сравнения, в Epyc первого поколения не было отдельного кристалла ввода-вывода.
Использование множества небольших вычислительных ядер означает, что AMD может добиться гораздо более высокой производительности, но это также означает, что они могут использовать одни и те же кристаллы для процессоров Ryzen и Epyc.

Кроме того, использование восьми или 16-ядерных CCD-процессоров, каждый из которых имеет 32 МБ кэш-памяти L3, даёт AMD дополнительную гибкость при масштабировании количества ядер пропорционально кэш-памяти и памяти.

Например, если вам нужен Epyc с 16 ядрами, что является распространённым SKU для рабочих нагрузок HPC из-за ограничений по лицензированию, то наиболее очевидным способом добиться этого будет использование двух восьмиъядерных CCD с 64 МБ кэш-памяти L3 на двоих. Однако вы также можете использовать 16 CCD, каждый из которых имеет одно активное ядро, но 512 МБ кэш-памяти на борту. Как ни странно, но оба этих чипа действительно существуют.
С другой стороны, кристалл ввода-вывода отвечает практически за всё, кроме вычислений, включая память, безопасность, PCIe, CXL и другие интерфейсы ввода-вывода, такие как SATA, а также служит основой для связи между кристаллами и другими разъёмами.

Размещение контроллеров памяти на кристалле ввода-вывода имеет свои плюсы и минусы. С одной стороны, это означает, что пропускная способность памяти по большей части не зависит от количества ядер. С другой стороны, для некоторых рабочих нагрузок потенциально увеличивается задержка доступа к памяти и кэшу. «Потенциально» -поскольку это сильно зависит от рабочей нагрузки.

Что касается Intel, то подход производителя микросхем к многокристальным процессорам значительно отличается от подхода AMD. В то время как современные процессоры Xeon используют гетерогенную архитектуру с отдельными вычислительными кристаллами и кристаллами ввода-вывода, так было не всегда.

В первом многокристальном процессоре Intel Xeon под кодовым названием Sapphire Rapids использовался либо один монолитный кристалл со средним количеством ядер, либо четыре кристалла с большим количеством ядер, каждый из которых имел собственный контроллер памяти и ввода-вывода на плате. В Emerald Rapids использовалась аналогичная схема, но для чипов с большим количеством ядер использовались два кристалла большего размера.
Всё это изменилось с выходом Xeon 6, в котором Intel перенесла устройства ввода-вывода, каналы UPI и ускорители на пару кристаллов, изготовленных на технологическом узле Intel 7, которые располагались между одним и тремя вычислительными кристаллами в центре, изготовленными на Intel 3.

Взглянув на вычислительные микросхемы Intel, видно первое существенное отличие от AMD. В каждой вычислительной микросхеме есть как минимум 43 ядра, которые могут быть включены или выключены в зависимости от SKU. Это означает, что Intel нужно гораздо меньше микросхем для достижения 128 ядер, чем AMD, но из-за большей площади микросхемы могут быть менее производительными.

Наряду с большим количеством ядер Intel решила разместить контроллер памяти для этих чипов на самих вычислительных кристаллах, поддерживающих по четыре канала на кристалл. Теоретически это должно снизить задержки при доступе к памяти, но также означает, что для использования всех 12 каналов памяти необходимо задействовать все три кристалла.

Что касается процессоров серии 6900P, в каждом SKU есть три вычислительных кристалла. Однако это означает, что 72-ядерная версия использует лишь часть кремния в корпусе. С другой стороны, то же самое можно сказать и о 16-ядерном процессоре Epyc, ориентированном на высокопроизводительные вычисления.

С другой стороны, процессоры Intel серии 6700P, которые должны выйти в начале следующего года, будут поставляться с одним или двумя вычислительными ядрами в зависимости от требуемой пропускной способности памяти и количества ядер. Это означает, что память будет ограничена 8 каналами на верхнем уровне и потенциально всего четырьмя каналами в конфигурациях с одним вычислительным ядром на плате. Пока не известно о конфигурации памяти на ядрах HCC и LCC, поэтому есть вероятность, что Intel усилила контроллеры памяти на этих процессорах.

Платы ввода-вывода Intel также немного тоньше и содержат комбинацию каналов PCIe, CXL и UPI для связи с накопителями, периферийными устройствами и другими разъёмами. Помимо этого, находится множество ускорителей для прямого потока (DSA), аналитики в памяти (IAA), шифрования/дешифрования (QAT) и балансировки нагрузки.
Ускорители на кристалле ввода-вывода были размещены таким образом, чтобы находиться ближе к данным, которые поступают в чип и выходят из него.

На первый взгляд, многоядерные процессоры Intel следующего поколения под кодовым названием Clearwater Forest, которые должны выйти в первой половине следующего года, выглядят так же, как и Granite Rapids, с двумя платами ввода-вывода и тремя вычислительными модулями.
Однако внешность может быть обманчивой. Три вычислительных кристалла на самом деле являются просто структурным кремнием, скрывающим несколько вычислительных кристаллов меньшего размера, которые, в свою очередь, расположены поверх активного кремниевого межсоединенного элемента.

Судя по изображениям, которые Intel продемонстрировала ранее в этом году, в Clearwater Forest может использоваться до 12 вычислительных кристаллов в одном корпусе. Использование кремниевых разделителей отнюдь не ново и даёт ряд преимуществ, в том числе более высокую пропускную способность между кристаллами и более низкую задержку, чем обычно бывает в органических подложках. Это довольно сильно отличается от пары вычислительных кристаллов с 144 ядрами, которые используются в самых мощных процессорах Intel Sierra Forest.

Важный вопрос заключается в том, куда AMD направит свою архитектуру чиплетов в дальнейшем. Если посмотреть на 128-ядерные процессоры AMD Turin, то на корпусе остаётся не так много места для дополнительного кремния, но у компании Zen всё ещё есть несколько вариантов на выбор.

Во-первых, AMD могла бы просто выбрать более крупный корпус, чтобы освободить место для дополнительных чиплетов. Кроме того, производитель микросхем мог бы разместить больше ядер на кристалле меньшего размера. Однако возможно что Epyc шестого поколения от AMD на самом деле могут выглядеть гораздо больше как ускорители Instinct серии MI300.

В свое время вместе с графическим процессором MI300X был выпущен APU, в котором две микросхемы CDNA3 были заменены на три микросхемы CCD с 24 ядрами Zen 4. Эти вычислительные микросхемы расположены поверх четырёх микросхем ввода-вывода и соединены с блоком из восьми модулей HBM3.

Опять же, это всего лишь предположение, но нетрудно представить, что AMD может сделать что-то подобное, заменив микросхемы памяти и графического процессора дополнительными CCD-микросхемами. Такая конструкция, вероятно, будет обладать более высокой пропускной способностью и меньшими задержками при межкристальной связи.

Произойдёт ли это на самом деле, покажет только время. Ожидается, что процессоры AMD Epyc 6-го поколения появятся раньше конца 2026 года.

Оставьте отзыв

Ваш емейл адрес не будет опубликован. Обязательные поля отмечены *