Таємниці комутатора NVIDIA NVSwitch

2018 10/04

Автор: Зінаїда Іванівна

| Перегляди: 17

E-mail

На минулій недавно конференції GTC (GPU Technology Conference) корпорація NVIDIA представила новий внутрішній інтерконнект NVSwitch, метою якої є ефективне об'єднання в мережу безлічі обчислювальних Volta. Саме NVSwitch є серцем демонстраційної системи DGX-2, аналоги якої планується використовувати в подальшому для побудови суперкомп'ютера нового покоління Saturn V. З моменту офіційного анонсу нової технології про неї стали відомі нові деталі, включаючи дані про внутрішню архітектуру самого комутатора NVSwitch. Як відомо, обчислювальні прискорювачі мають три фундаментальні обмеження, що впливають на ефективність їх роботи у складі кластерної системи: продуктивність підсистеми вводу-виводу, пропускна здатність пам'яті і обсяг цієї самої пам'яті.

Останні два, втім, обходяться досить малою кров'ю: прискорювачі Volta можуть нести на борту до 32 Гбайт пам'яті типу HBM2, яка, до того ж, може прокачувати до 900 Гбайт/с. Але по мірі масштабування системи проблема I/O постає все гостріше, оскільки швидкості, наведені вище, мереж і мережевих середовищ поки недоступні, а значить, на завданнях з великим ступенем паралелізації головним чинником, що обмежує продуктивність, може стати саме мережа. Це підтверджують і результати тестування суперкомп'ютерів за допомогою нової методики, про що ми нещодавно розповідали нашим читачам.

Вирішити цю проблему покликана технологія NVIDIA NVSwitch. Саме серце технології, чіп-комутатор може працювати в різних топологіях. Як вже було сказано, вперше він знайде застосування в системі DGX-2, поставки якого повинні початися в третьому кварталі. NVIDIA поки не передбачає використання цього комутатора для мережного з'єднання декількох «корпусів», тобто, як «зовнішнього інтерконекту», але це не означає, що розробники суперкомп'ютерів не вирішать спробувати новинку і в якості такого рішення.

Виглядає знімок кристала NVSwitch досить вражаюче, що не дивно, оскільки складається цей кристал з 2 мільярдів транзисторів. Імовірно, у його виробництві задіяно 12-нм техпроцес класу FinFET, розроблений TSMC, але компанія-розробник зберігає з цього приводу мовчання, принаймні, поки що. Архітектурно у складі NVSwitch можна виділити два блоки по 8 портів NVLink плюс два додаткових порти цієї шини. Система сполук (кроссбар) працює в неблокирующем режимі, так що будь-який з портів NVLink в правому або лівому модулі може напряму працювати з одним з двох портів у верхньому модулі. Це істотно відрізняє реальний чіп від опублікованих у момент представлення даних про технології NVSwitch.

На попередніх слайдах зображено 16 чіпів в 8 парах, з'єднаних один з одним на швидкості 300 Гбайт/с (150 Гбайт/с в кожну сторону) з тотальною пропускною здатністю, що досягає 2,4 Тбайт/с. Але NVSwitch має 18 портів, тому при підключенні 16 процесорів Volta залишається місце для подальшого розширення конфігурації. Якщо блок-схема DGX-2, продемонстрована на презентації, вірна, то в неї є 12 комутаторів NVSwitch, але тоді не всі порти залишаються задіяними.

Це дозволяє припустити, що 16-процессорая версія DGX-2 є пілотною, а дизайн NVSwitch створений з доробком на майбутнє і дозволяє створювати, наприклад, 32-процесорні системи в одному корпусі-сайті. Поки що цьому заважає поточна версія модуля backplane, якою оснащується DGX-2, але архітектурного заборони на створення системи з тими ж 32 обчислювальними GPU немає. Точних даних про топологію DGX-2 поки немає, на наявному слайді видно по шість «товстих» шин на кожну «половину» кластера. З урахуванням вільних портів, швидкість «спілкування половин» між собою може досягати 6 Гбайт/с (3 Гб/с в кожну сторону).

Були різні припущення про топології, включаючи схему «подвійне кільце», але в найгіршому сценарії така схема з'єднує два ДП через шість «стрибків» (hops), а це не найкращий варіант з точки зору латентності. NVIDIA вживає термін «fully connected crossbar internally» по відношенню до NVSwitch, але не говорить цього про систему в цілому і про з'єднання між двома половинами DGX-2. Якщо припустити, що для з'єднання використовується пара верхніх портів комутатора, то ДП можуть бути з'єднані попарно, але тоді для повноцінного з'єднання всієї системи в єдине ціле потрібні інші механізми, наприклад, додаткові з'єднання PCI Express, що виглядає не надто осмисленим, якщо порівняти швидкості PCIe і декларовані NVIDIA цифри, що відносяться до NVLink.

Як виявилося згодом і було підтверджено офіційно, 12 «зайвих» портів NVLink в NVSwitch не задіяні в DGX-2. Топологія внутрішньої мережі в новій системі простіше, і кожен з шести портів в Volta з'єднаний з одним із NVSwitch «зверху». Аналогічним чином підключається вісімка ДП «знизу». Така схема дозволяє досягти латентності в два «хопу» між двома будь-якими ДП на одній половині» системи, а якщо потрібно комунікація між різними половинами, то кількість «хоперів» збільшується до трьох.

Зрозуміло, це не єдиний сценарій: в даному варіанті використано всього 6 чіпів NVLink для кожної половини, але ніщо не заважає збільшити їх число до, скажімо, дванадцяти. Нова система дуже ефективна: для демонстрації NVIDIA використовувала кілька серверів DGX-1 з 8 ДП Volta V100 в кожному. Вони були з'єднані між собою чотирма каналами InfiniBand з сукупної пропускною спроможністю 400 Гбіт/с. Порівняльні тести показали більш ніж двократне (від 2,4 до 2,7 x) перевага системи DGX-2, що використовує нові технології з NVSwitch на чолі.

Виглядає нова технологія дуже багатообіцяюче, але цікаво буде поглянути, як вона поведеться при збільшенні кількості обчислювальних вузлів, адже модулі DGX-2 доведеться якось з'єднувати між собою, і не поглине це всі переваги у випадку споруди досить великого кластера? Є варіант NUMA, але практичний межа, досягнутий на сьогодні, становить 128 процесорів; більш того, після 32 процесорів в такій схемі критичну роль починають грати черги запитів і затримки. Як тільки DGX-2 почне поставлятися масово, ми, швидше за все, дізнаємося відповідь.