100 000 процесорів: як функціонує перший у світі суперкомп'ютер штучного інтелекту xAI Colossus


Colossus відповідає за розробку та навчання різноманітних моделей штучного інтелекту для компанії X (колишня Twitter). Головним чином, він підтримує чат-бота Grok 3, який доступний виключно для підписників X Premium.

Новий дорогий проєкт Ілона Маска, суперкомп'ютер xAI Colossus AI, було вперше представлено в деталях. Про це пише Tom's Hardware.

YouTube-канал ServeTheHome отримав можливість зняти кілька частин серверів, демонструючи їхню роботу. У новій установці використовуються GPU-сервери на базі Nvidia HGX H100, які містять по вісім графічних процесорів H100 у кожному. Платформа HGX H100 інтегрована в універсальну рідинно-охолоджувальну систему GPU формату 4U від Supermicro. Сервери монтуються в стійки, що дозволяє вмістити до 64 GPU в одному блоці. Між кожними двома HGX H100 розташовані 1U колектори, які забезпечують необхідне рідинне охолодження. Внизу кожної стійки розміщений ще один 4U блок Supermicro, що містить резервну насосну систему і систему моніторингу для контролю стану стійки.

Стійки згруповані по вісім, утворюючи масив з 512 графічних процесорів. Кожен сервер обладнаний чотирма резервними блоками живлення, а задня частина стійок з графічними процесорами містить 3-фазні блоки живлення, Ethernet-комутатори та колектор, що відповідно до розмірів стійки забезпечує рідинне охолодження.

У кластері Colossus розміщено більше 1500 стійок графічних процесорів, що еквівалентно приблизно 200 масивам. Як зазначив генеральний директор Nvidia Дженсен Хуанг, установка графічних процесорів для цих 200 масивів була завершена всього за три тижні.

Кожен сервер HGX H100 здатний обробляти дані зі швидкістю 3,6 терабіт на секунду. Весь кластер функціонує на основі Ethernet, а не на InfiniBand або інших типах з'єднань, які зазвичай використовуються в сфері суперкомп'ютерних технологій.

Суперкомп'ютер xAI Colossus є найбільшим суперкомп'ютером ШІ у світі, заявляють у Nvidia. Багато суперкомп'ютерів використовують різні компанії та НДІ, а ось Colossus відповідає за розробку та навчання різноманітних моделей штучного інтелекту для компанії X (колишня Twitter). Головним чином, він підтримує чат-бота Grok 3, який доступний виключно для підписників X Premium. ServeTheHome також повідомили, що Colossus навчає ШІ "майбутнього" -- моделі, використання і можливості яких, імовірно, виходять за рамки можливостей сьогоднішнього флагманського ШІ.

Перша фаза будівництва Colossus завершена, і кластер повністю запущений, але ще не все готово. Суперкомп'ютер Memphis скоро буде модернізовано, щоб подвоїти свою потужність GPU, додавши 50 000 додаткових H100 GPU і 50 000 наступного покоління H200 GPU.

Related posts