Проанализируем сколько и какой памяти съедают локальные LLM модели при работе в 2026 году.
Ключевой параметр для запуска локальной большой языковой модели будет определяться тем, влезет ли LLM в память вашей видеокарты. Если вам не хватит видеопамяти при запуске LLM с вашими настройками, то задача либо вылетит, либо время расчётов вырастет в десятки раз.
Даже если вы соедините две карты по PCI-E, их память не объединится. Пропускная способность памяти RTX PRO 6000 — 1800 GB/s, а у PCI-E 5.0 X16 скорость обмена данными 64 GB/s. То есть если вы две карты объедините по PCI-E, скорость обмена данными упадёт в 30 раз.
При работе LLM большую часть времени перемножает матрицы, для этого матрицы надо найти в ячейках памяти и отправить на одно ядро для перемножения. На поиск и перенос матриц до тензорного ядра тратится в десятки раз больше времени, чем на их умножение.
Любое число в LLM можно записать с какой-то точностью, по умолчанию LLM записывают числа в FP32, то есть каждое число записывается в 32 бита (4 байта) информации. То есть если мы свою LLM будем хранить в FP32, то нам нужно будет 4 GB памяти на 1B параметров.
FP16 — 16 бит, 2 байта
Q8 — 8 бит, 1 байт
Q4 — 4 бита, 0,5 байта
| Размер LLM | 14B | 14B | 14B | 14B | 32B | 32B | 32B | 32B | 72B | 72B | 72B | 72B |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Квантование | FP32 | FP16 | Q8 | Q4 | FP32 | FP16 | Q8 | Q4 | FP32 | FP16 | Q8 | Q4 |
| Размер базы | 56GB | 28GB | 14GB | 7GB | 128GB | 64GB | 32GB | 16GB | 288GB | 144GB | 72GB | 36GB |
| Среднеквадратичное отклонение числа в % | 0 | 0,03% | 0,40% | 7,1% | 0 | 0,03% | 0,40% | 7,1% | 0 | 0,03% | 0,40% | 7,1% |
Для корпоративного класса LLM с учетом восстановления данных нормализации лучшим вариантом является квантование Q8, так же для ряда задач может лучше подойти FP16, экстремумы FP32 и Q4 я рекомендую избегать.
Реальный объём LLM, как правило, на пару гигабайт больше.
Очень легко понять, сколько съест памяти ваша LLM: вы должны полностью загрузить модель LLM в память видеокарты.
Для хранения данных пользователя и подготовки ответа используется KV-cache. Это объем данных, которые одновременно может хранить и выдавать LLM в рамках одной задачи, один параметр в реальных задачах — это примерно 2,5 символа для русского языка и в районе трёх символов для английского.
| Размер KV-cache | 16K | 32K | 64K | 128K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|---|
| Квантование | FP16 | FP16 | FP16 | FP16 | Q8 | Q8 | Q8 | Q8 |
| Занимаемая память | 4,29 GB | 8,59 GB | 17,18 GB | 34,16 GB | 2,15 GB | 4,29 GB | 8,59 GB | 17,18 GB |
| Количество символов | 40 000 | 80 000 | 160 000 | 320 000 | 40 000 | 80 000 | 160 000 | 320 000 |
| Листов A4 | 16 | 32 | 64 | 128 | 16 | 32 | 64 | 128 |
В таблице указаны данные по памяти для одного KV-cache.
В реальности у вас, может быть, 1 LLM загружена в память видеокарты, а KV-cache для каждого чата общения будет отдельно, тогда вам нужно память зарезервировать отдельно для каждого из чатов.
Пример: у вас LLM qwen2.5:32b-instruct-q8_0 34 GB, и вы запускаете 4 задачи чата одновременно. KV-cache 32K FP16 8,59×4 = 34,16 GB, ваши затраты памяти: 34 + 34,16 + 5 = 79,16 GB, то есть вы впритык влезете в Nvidia H100 на 80 GB.
До 5 GB съедят runtime, overhead и другие системные задачи.
Давайте перейдём от теории к практике. Наш тестовый стенд: Ryzen 3950X, 128GB DDR4, RTX PRO 6000 Blackwell, Ubuntu 24.04.3.
LLM: deepseek-r1:32b-qwen-distill-q8_0 размер 34 GB
KV-cache: 32K FP16 размер 8,59 GB
Overhead: 3 GB
В теории занимаемая память 34 + 8,59 + 3 = 45,6 GB
На практике: 45240MiB = 44,18 GB
LLM: deepseek-r1:32b-qwen-distill-fp16 размер 65 GB
KV-cache: 64K FP16 размер 17,18 GB
Overhead: 4 GB
В теории занимаемая память 65 + 17,18 + 4 = 86,18 GB
На практике: 85868MiB = 83,9 GB
LLM: qwen2.5vl:72b-q8_0 размер 78 GB
KV-cache: 16K Q8 размер 4,29 GB
Overhead: 4 GB
В теории занимаемая память 78 + 4,29 + 4 = 86,29 GB
На практике: 85868MiB = 83,9 GB
Карты ниже RTX 5090 вообще нет смысла рассматривать для работы с LLM в корпоративном сегменте.
Максимум что вы можете себе позволить 14B модель и KV-cache 32K, их неудобно обслуживать в корпоративной среде, и вы больше времени и денег потратите на разработку ботов, чем получите результатов.
RTX Pro 6000 ADA 48GB или RTX Pro 5000 Blackwell 48GB, то вы уже можете начинать строить HarwesterBot, но ваш предел LLM 32B Q8 с одним KV-cache 32K fp16.
В этом сегменте сейчас лучшая карта (март 2026 года) на рынке для LLM RTX Pro 6000 96GB Blackwell, доступна в России в вариантах Server и Workstation Edition.
Вы можете позволить себе:
К этому же классу я отнес Nvidia H100 на 80GB, но она стоит в 3 раза дороже чем RTX 6000 Pro, при этом лишние 16GB позволяют Pro 6000 работать с LLM 72B Q8, данный класс LLM не доступен для H100.
Nvidia DGX Spark 128GB, вот тут надо очень аккуратно, фактически там распаянная LPDDR5 память со скоростью 273 GB/s. Пропускайте это решение, тут не будет никаких корпоративных мощностей по производительности, подходит только для демо стенда, но производительность токенов будет очень низкая, не рекомендую к покупке.
Nvidia H200 141GB позволит: Комфортно разворачивать корпоративных ботов на LLM 72B Q8 с 5-10 чатов для сотрудников просто идеально! Однозначно да, если хватает бюджетов.
Nvidia B100 192GB и B200 192GB данные карты пока не доступны в РФ, и будут стоить очень дорого. С ними вам откроется класс LLM 120B Q8. Вы сможете сделать продвинутого корпоративного ассистента и держать около 20 чатов одновременно.