Софт-line:
O&O SafeErase Pro 12.5.168 -- "SafeErase - дана програма повністю виключає можливість відновлення ..." -- 18 липня 2018
MiTeC Internet Browser History 1.3.1 -- "MiTeC Internet Browser History - утиліта, яка виявляє, збирає і ..." -- 17 липня 2018
Ultra Adware Killer 7.5.0.0 -- "Ultra Adware Killer - потужний інструмент для пошуку і видалення ..." -- 16 липня 2018
Image for Windows 3.20 -- "Image for Windows - потужна програма для створення копій (знімків) ..." -- 16 липня 2018
Lim Anti Boss 1.0 -- "Lim Anti Boss - безкоштовна програма, за допомогою якої легко і ..." -- 16 липня 2018
Калькулятор розрахунку шлакобетонних блоків ... -- "Калькулятор розрахунку шлакобетонних блоків призначений для ..." -- 16 липня 2018
Windows Mail Restore Tool 2.1.1 -- "Windows Mail Restore Tool - засіб відновлення Windows Mail, який ..." -- 16 липня 2018
iClone Pro 7.21.1609.2 -- "iClone Studio - програма для створення 3D-анімації. У ній користувачі ..." -- 16 липня 2018
Ashampoo Photo Commander 16.0.3 / 11.2.0 -- "Ashampoo Photo Commander - універсальний набір засобів для роботи з ..." -- 14 липня 2018
Калькулятор розрахунку полістиролбетонних блоків ... -- "Калькулятор розрахунку полістиролбетонних блоків призначений для ..." -- 13 липня 2018


На минулій недавно конференції GTC (GPU Technology Conference) корпорація NVIDIA представила новий внутрішній інтерконнект NVSwitch, метою якої є ефективне об'єднання в мережу безлічі обчислювальних Volta. Саме NVSwitch є серцем демонстраційної системи DGX-2, аналоги якої планується використовувати в подальшому для побудови суперкомп'ютера нового покоління Saturn V. З моменту офіційного анонсу нової технології про неї стали відомі нові деталі, включаючи дані про внутрішню архітектуру самого комутатора NVSwitch. Як відомо, обчислювальні прискорювачі мають три фундаментальні обмеження, що впливають на ефективність їх роботи у складі кластерної системи: продуктивність підсистеми вводу-виводу, пропускна здатність пам'яті і обсяг цієї самої пам'яті.

Останні два, втім, обходяться досить малою кров'ю: прискорювачі Volta можуть нести на борту до 32 Гбайт пам'яті типу HBM2, яка, до того ж, може прокачувати до 900 Гбайт/с. Але по мірі масштабування системи проблема I/O постає все гостріше, оскільки швидкості, наведені вище, мереж і мережевих середовищ поки недоступні, а значить, на завданнях з великим ступенем паралелізації головним чинником, що обмежує продуктивність, може стати саме мережа. Це підтверджують і результати тестування суперкомп'ютерів за допомогою нової методики, про що ми нещодавно розповідали нашим читачам.

Вирішити цю проблему покликана технологія NVIDIA NVSwitch. Саме серце технології, чіп-комутатор може працювати в різних топологіях. Як вже було сказано, вперше він знайде застосування в системі DGX-2, поставки якого повинні початися в третьому кварталі. NVIDIA поки не передбачає використання цього комутатора для мережного з'єднання декількох «корпусів», тобто, як «зовнішнього інтерконекту», але це не означає, що розробники суперкомп'ютерів не вирішать спробувати новинку і в якості такого рішення.

Виглядає знімок кристала NVSwitch досить вражаюче, що не дивно, оскільки складається цей кристал з 2 мільярдів транзисторів. Імовірно, у його виробництві задіяно 12-нм техпроцес класу FinFET, розроблений TSMC, але компанія-розробник зберігає з цього приводу мовчання, принаймні, поки що. Архітектурно у складі NVSwitch можна виділити два блоки по 8 портів NVLink плюс два додаткових порти цієї шини. Система сполук (кроссбар) працює в неблокирующем режимі, так що будь-який з портів NVLink в правому або лівому модулі може напряму працювати з одним з двох портів у верхньому модулі. Це істотно відрізняє реальний чіп від опублікованих у момент представлення даних про технології NVSwitch.

На попередніх слайдах зображено 16 чіпів в 8 парах, з'єднаних один з одним на швидкості 300 Гбайт/с (150 Гбайт/с в кожну сторону) з тотальною пропускною здатністю, що досягає 2,4 Тбайт/с. Але NVSwitch має 18 портів, тому при підключенні 16 процесорів Volta залишається місце для подальшого розширення конфігурації. Якщо блок-схема DGX-2, продемонстрована на презентації, вірна, то в неї є 12 комутаторів NVSwitch, але тоді не всі порти залишаються задіяними.

Це дозволяє припустити, що 16-процессорая версія DGX-2 є пілотною, а дизайн NVSwitch створений з доробком на майбутнє і дозволяє створювати, наприклад, 32-процесорні системи в одному корпусі-сайті. Поки що цьому заважає поточна версія модуля backplane, якою оснащується DGX-2, але архітектурного заборони на створення системи з тими ж 32 обчислювальними GPU немає. Точних даних про топологію DGX-2 поки немає, на наявному слайді видно по шість «товстих» шин на кожну «половину» кластера. З урахуванням вільних портів, швидкість «спілкування половин» між собою може досягати 6 Гбайт/с (3 Гб/с в кожну сторону).

Були різні припущення про топології, включаючи схему «подвійне кільце», але в найгіршому сценарії така схема з'єднує два ДП через шість «стрибків» (hops), а це не найкращий варіант з точки зору латентності. NVIDIA вживає термін «fully connected crossbar internally» по відношенню до NVSwitch, але не говорить цього про систему в цілому і про з'єднання між двома половинами DGX-2. Якщо припустити, що для з'єднання використовується пара верхніх портів комутатора, то ДП можуть бути з'єднані попарно, але тоді для повноцінного з'єднання всієї системи в єдине ціле потрібні інші механізми, наприклад, додаткові з'єднання PCI Express, що виглядає не надто осмисленим, якщо порівняти швидкості PCIe і декларовані NVIDIA цифри, що відносяться до NVLink.

Як виявилося згодом і було підтверджено офіційно, 12 «зайвих» портів NVLink в NVSwitch не задіяні в DGX-2. Топологія внутрішньої мережі в новій системі простіше, і кожен з шести портів в Volta з'єднаний з одним із NVSwitch «зверху». Аналогічним чином підключається вісімка ДП «знизу». Така схема дозволяє досягти латентності в два «хопу» між двома будь-якими ДП на одній половині» системи, а якщо потрібно комунікація між різними половинами, то кількість «хоперів» збільшується до трьох.

Зрозуміло, це не єдиний сценарій: в даному варіанті використано всього 6 чіпів NVLink для кожної половини, але ніщо не заважає збільшити їх число до, скажімо, дванадцяти. Нова система дуже ефективна: для демонстрації NVIDIA використовувала кілька серверів DGX-1 з 8 ДП Volta V100 в кожному. Вони були з'єднані між собою чотирма каналами InfiniBand з сукупної пропускною спроможністю 400 Гбіт/с. Порівняльні тести показали більш ніж двократне (від 2,4 до 2,7 x) перевага системи DGX-2, що використовує нові технології з NVSwitch на чолі.

Виглядає нова технологія дуже багатообіцяюче, але цікаво буде поглянути, як вона поведеться при збільшенні кількості обчислювальних вузлів, адже модулі DGX-2 доведеться якось з'єднувати між собою, і не поглине це всі переваги у випадку споруди досить великого кластера? Є варіант NUMA, але практичний межа, досягнутий на сьогодні, становить 128 процесорів; більш того, після 32 процесорів в такій схемі критичну роль починають грати черги запитів і затримки. Як тільки DGX-2 почне поставлятися масово, ми, швидше за все, дізнаємося відповідь.

Головне на ПК-манія

Революція смартфонів: чому поява App Store було важливіше, ніж iPhone

Для багатьох з нас смартфон став найвпливовішим технологічним винаходом останніх двох десятиліть. ...

IT новини 2018-07-18 04:13:23

«МегаФон» перестане бути публічною компанією

«МегаФон» оголосив про відхід з Лондонської біржі, оскільки рада директорів прийшов до висновку, ...

Новини інтернету 2018-07-17 15:34:01

Xiaomi випустила автоматичний стельовий світильник

Китайська компанія Xiaomi випустила стельовий світильник Yeelight Meteorite Induction Ceiling ...

IT новини 2018-07-17 15:16:22

Відео дня

Живі додатки

Мультимедіа

Ace Video Converter 3.8

Ace Video Converter - потужний аудіо і відео конвертер з зручним інтерфейсом і підтримкою безлічі форматів

Системні програми

Show or hide updates 1.0

Show or hide updates - спеціальна утиліта від Microsoft для ручного відключення установки вибраних патчів для новітньої

  • Prev
  • software
Scroll to top