Расскажу все особенности и нюансы работы RTX Pro 6000 Blackwell 96 GB с локальными LLM-системами.
Карта выпускается в трёх вариантах:
Server Edition — пассивное охлаждение, от 400 до 600 W.
Workstation Edition — активное охлаждение, 600 W.
Max-Q Workstation Edition — активное охлаждение, 300 W, компактное исполнение в 2U.
RTX Pro 6000 Blackwell построена на отборных кристаллах GB202. Точно таких же, как у RTX 5090. Но с, примерно, на 10% большим количеством вычислительных ядер. Впрочем, в данном случае это не главное.
Видеокарта является представителем семейства Quadro, которое пару поколений назад переименовали в PRO. Это первая карта семейства Quadro, получившая 96 GB GDDR7 ECC с пропускной способностью 1792 GB/s, и вот это её ключевая особенность. Прошлый флагман линейки, NVIDIA RTX 6000 Ada Generation, была оснащена 48 GB GDDR6 ECC с пропускной способностью 960 GB/s.
У нас на стенде версия Workstation Edition. Карта имеет разъём питания 12VHPWR connector, и в заводских настройках, при лимите 600 W, её паспортные данные такие:
AI performance — 4000 TOPS
FP32 — 125 TFLOPS
RTX Pro 6000 Max-Q Workstation Edition с точно таким же чипом и потреблением 300 W показывает:
AI performance — 3511 TOPS
FP32 — 110 TFLOPS
С завода RTX Pro 6000 Blackwell разогнана маркетологами до умопомрачительных 600 W, хотя, как видно из официальных данных, снижение потребления до 300 W приводит лишь к потере примерно 10% производительности в части задач. Зачем логику игрового флагмана применили к карте, которая должна работать 24/7 ближайшие 5 лет, мне совершенно не понятно.
Я рекомендую сразу после установки драйверов на уровне Ubuntu или BMC ограничивать лимит энергопотребления в районе 300–350 W.
600 W нужны только для подогрева котла в аду Marketing Edition.
Ключевая сила карты — это 96 GB памяти в одном месте, без головной боли с NVLink, кластеризацией и других сложностей.
Вы можете позволить себе:
Я считаю LLM базами данных второго поколения. Базы данных первого поколения — SQL, Oracle, Postgres — хорошо работали только тогда, когда полностью помещались в оперативную память сервера. У баз данных второго поколения ситуация аналогичная: LLM обязана влезать в память вашей видеокарты.
Лучший сервер, который вы можете собрать под эту задачу, — это тот, который вы недавно хотели списать и выкинуть. Идеально подойдут Dell R740 2U или HPE DL380 Gen10: проверяете, что у вас блоки питания на 1100 W или мощнее, ставите туда одну или две карты, уменьшаете лимит питания до 300 W — и получаете отличный LLM-сервер.
Процессоры уровня Xeon Silver, 64 GB DDR4 и пара-тройка локальных SSD 960 GB SAS — этого уже достаточно.
У вас вся работа базы данных идёт на 100% внутри видеокарты, процессор и память используются только при распаковке архивов или CPU-сканировании изображений при подготовке, например через Paddle OCR CPU. Оперативной памяти у вас может быть меньше, чем видеопамяти в сервере, и это абсолютно нормально.
PCIe 3.0 x16 режет скорость загрузки на карту примерно в 4 раза, но сама карта всё равно грузит LLM размером 70 GB за пару секунд. От покупки DDR5 ECC, PCIe 5.0 и Xeon Gold 6-го поколения ваша LLM разницы не заметит.
Две видеокарты могут позволить вам работать сразу с 3–5 LLM-ботами. Одну карту вы можете отдать для постоянной работы корпоративного ассистента, а вторая карта будет по очереди запускать запросы к LLM-комбайнам.