RTX Pro 6000 Blackwell: работа с локальными LLM

Расскажу все особенности и нюансы работы RTX Pro 6000 Blackwell 96 GB с локальными LLM-системами.

Карта выпускается в трёх вариантах:

Server Edition — пассивное охлаждение, от 400 до 600 W.

Workstation Edition — активное охлаждение, 600 W.

Max-Q Workstation Edition — активное охлаждение, 300 W, компактное исполнение в 2U.

RTX Pro 6000 Blackwell построена на отборных кристаллах GB202. Точно таких же, как у RTX 5090. Но с, примерно, на 10% большим количеством вычислительных ядер. Впрочем, в данном случае это не главное.

Видеокарта является представителем семейства Quadro, которое пару поколений назад переименовали в PRO. Это первая карта семейства Quadro, получившая 96 GB GDDR7 ECC с пропускной способностью 1792 GB/s, и вот это её ключевая особенность. Прошлый флагман линейки, NVIDIA RTX 6000 Ada Generation, была оснащена 48 GB GDDR6 ECC с пропускной способностью 960 GB/s.

600 W

У нас на стенде версия Workstation Edition. Карта имеет разъём питания 12VHPWR connector, и в заводских настройках, при лимите 600 W, её паспортные данные такие:

AI performance — 4000 TOPS

FP32 — 125 TFLOPS

RTX Pro 6000 Max-Q Workstation Edition с точно таким же чипом и потреблением 300 W показывает:

AI performance — 3511 TOPS

FP32 — 110 TFLOPS

С завода RTX Pro 6000 Blackwell разогнана маркетологами до умопомрачительных 600 W, хотя, как видно из официальных данных, снижение потребления до 300 W приводит лишь к потере примерно 10% производительности в части задач. Зачем логику игрового флагмана применили к карте, которая должна работать 24/7 ближайшие 5 лет, мне совершенно не понятно.

Я рекомендую сразу после установки драйверов на уровне Ubuntu или BMC ограничивать лимит энергопотребления в районе 300–350 W.

600 W нужны только для подогрева котла в аду Marketing Edition.

96 GB памяти

Ключевая сила карты — это 96 GB памяти в одном месте, без головной боли с NVLink, кластеризацией и других сложностей.

Вы можете позволить себе:

  • LLM 32B FP16 и KV-cache 64K.
  • LLM 72B Q8 и KV-cache 64K.
  • LLM 32B Q8 и 8 шт. KV-cache 64K — идеально подходит для одновременной работы корпоративного ассистента для отдела или компании в 20–40 сотрудников.

Какой сервер выбрать под эту карту?

Я считаю LLM базами данных второго поколения. Базы данных первого поколения — SQL, Oracle, Postgres — хорошо работали только тогда, когда полностью помещались в оперативную память сервера. У баз данных второго поколения ситуация аналогичная: LLM обязана влезать в память вашей видеокарты.

Лучший сервер, который вы можете собрать под эту задачу, — это тот, который вы недавно хотели списать и выкинуть. Идеально подойдут Dell R740 2U или HPE DL380 Gen10: проверяете, что у вас блоки питания на 1100 W или мощнее, ставите туда одну или две карты, уменьшаете лимит питания до 300 W — и получаете отличный LLM-сервер.

Процессоры уровня Xeon Silver, 64 GB DDR4 и пара-тройка локальных SSD 960 GB SAS — этого уже достаточно.

У вас вся работа базы данных идёт на 100% внутри видеокарты, процессор и память используются только при распаковке архивов или CPU-сканировании изображений при подготовке, например через Paddle OCR CPU. Оперативной памяти у вас может быть меньше, чем видеопамяти в сервере, и это абсолютно нормально.

PCIe 3.0 x16 режет скорость загрузки на карту примерно в 4 раза, но сама карта всё равно грузит LLM размером 70 GB за пару секунд. От покупки DDR5 ECC, PCIe 5.0 и Xeon Gold 6-го поколения ваша LLM разницы не заметит.

Две видеокарты

Две видеокарты могут позволить вам работать сразу с 3–5 LLM-ботами. Одну карту вы можете отдать для постоянной работы корпоративного ассистента, а вторая карта будет по очереди запускать запросы к LLM-комбайнам.

Made on
Tilda