Сколько памяти съест твоя локальная LLM

Проанализируем сколько и какой памяти съедают локальные LLM модели при работе в 2026 году.

Ключевой параметр для запуска локальной большой языковой модели будет определяться тем, влезет ли LLM в память вашей видеокарты. Если вам не хватит видеопамяти при запуске LLM с вашими настройками, то задача либо вылетит, либо время расчётов вырастет в десятки раз.

PCI-E VS GDDRX

Даже если вы соедините две карты по PCI-E, их память не объединится. Пропускная способность памяти RTX PRO 6000 — 1800 GB/s, а у PCI-E 5.0 X16 скорость обмена данными 64 GB/s. То есть если вы две карты объедините по PCI-E, скорость обмена данными упадёт в 30 раз.

Почему так важна скорость видеопамяти?

При работе LLM большую часть времени перемножает матрицы, для этого матрицы надо найти в ячейках памяти и отправить на одно ядро для перемножения. На поиск и перенос матриц до тензорного ядра тратится в десятки раз больше времени, чем на их умножение.

Квантование LLM

Любое число в LLM можно записать с какой-то точностью, по умолчанию LLM записывают числа в FP32, то есть каждое число записывается в 32 бита (4 байта) информации. То есть если мы свою LLM будем хранить в FP32, то нам нужно будет 4 GB памяти на 1B параметров.

FP16 — 16 бит, 2 байта

Q8 — 8 бит, 1 байт

Q4 — 4 бита, 0,5 байта

Размер LLM 14B 14B 14B 14B 32B 32B 32B 32B 72B 72B 72B 72B
Квантование FP32 FP16 Q8 Q4 FP32 FP16 Q8 Q4 FP32 FP16 Q8 Q4
Размер базы 56GB 28GB 14GB 7GB 128GB 64GB 32GB 16GB 288GB 144GB 72GB 36GB
Среднеквадратичное отклонение числа в % 0 0,03% 0,40% 7,1% 0 0,03% 0,40% 7,1% 0 0,03% 0,40% 7,1%

Для корпоративного класса LLM с учетом восстановления данных нормализации лучшим вариантом является квантование Q8, так же для ряда задач может лучше подойти FP16, экстремумы FP32 и Q4 я рекомендую избегать.

Реальный объём LLM, как правило, на пару гигабайт больше.

Очень легко понять, сколько съест памяти ваша LLM: вы должны полностью загрузить модель LLM в память видеокарты.

KV-cache

Для хранения данных пользователя и подготовки ответа используется KV-cache. Это объем данных, которые одновременно может хранить и выдавать LLM в рамках одной задачи, один параметр в реальных задачах — это примерно 2,5 символа для русского языка и в районе трёх символов для английского.

Размер KV-cache 16K 32K 64K 128K 16K 32K 64K 128K
Квантование FP16 FP16 FP16 FP16 Q8 Q8 Q8 Q8
Занимаемая память 4,29 GB 8,59 GB 17,18 GB 34,16 GB 2,15 GB 4,29 GB 8,59 GB 17,18 GB
Количество символов 40 000 80 000 160 000 320 000 40 000 80 000 160 000 320 000
Листов A4 16 32 64 128 16 32 64 128

В таблице указаны данные по памяти для одного KV-cache.

В реальности у вас, может быть, 1 LLM загружена в память видеокарты, а KV-cache для каждого чата общения будет отдельно, тогда вам нужно память зарезервировать отдельно для каждого из чатов.

Пример: у вас LLM qwen2.5:32b-instruct-q8_0 34 GB, и вы запускаете 4 задачи чата одновременно. KV-cache 32K FP16 8,59×4 = 34,16 GB, ваши затраты памяти: 34 + 34,16 + 5 = 79,16 GB, то есть вы впритык влезете в Nvidia H100 на 80 GB.

До 5 GB съедят runtime, overhead и другие системные задачи.

Реальные тесты

Давайте перейдём от теории к практике. Наш тестовый стенд: Ryzen 3950X, 128GB DDR4, RTX PRO 6000 Blackwell, Ubuntu 24.04.3.

Первый тест LOGparser с настройками:

LLM: deepseek-r1:32b-qwen-distill-q8_0 размер 34 GB

KV-cache: 32K FP16 размер 8,59 GB

Overhead: 3 GB

В теории занимаемая память 34 + 8,59 + 3 = 45,6 GB

На практике: 45240MiB = 44,18 GB

Второй тест LOGparser с настройками:

LLM: deepseek-r1:32b-qwen-distill-fp16 размер 65 GB

KV-cache: 64K FP16 размер 17,18 GB

Overhead: 4 GB

В теории занимаемая память 65 + 17,18 + 4 = 86,18 GB

На практике: 85868MiB = 83,9 GB

Третий тест Chitalka с настройками:

LLM: qwen2.5vl:72b-q8_0 размер 78 GB

KV-cache: 16K Q8 размер 4,29 GB

Overhead: 4 GB

В теории занимаемая память 78 + 4,29 + 4 = 86,29 GB

На практике: 85868MiB = 83,9 GB

Подытожим

Карты ниже RTX 5090

Карты ниже RTX 5090 вообще нет смысла рассматривать для работы с LLM в корпоративном сегменте.

RTX5090 32 GB тоже сомнительный вариант

Максимум что вы можете себе позволить 14B модель и KV-cache 32K, их неудобно обслуживать в корпоративной среде, и вы больше времени и денег потратите на разработку ботов, чем получите результатов.

48GB памяти:

RTX Pro 6000 ADA 48GB или RTX Pro 5000 Blackwell 48GB, то вы уже можете начинать строить HarwesterBot, но ваш предел LLM 32B Q8 с одним KV-cache 32K fp16.

96GB памяти:

В этом сегменте сейчас лучшая карта (март 2026 года) на рынке для LLM RTX Pro 6000 96GB Blackwell, доступна в России в вариантах Server и Workstation Edition.

Вы можете позволить себе:

  • LLM 32B FP16 и KV-cache 64K.
  • LLM 72B Q8 и KV-cache 64K.
  • LLM 32B Q8 и 8 шт. KV-cache 32K, идеально подходит для одновременной работы с корпоративным ассистентом для отдела или компании в 20-40 сотрудников.

К этому же классу я отнес Nvidia H100 на 80GB, но она стоит в 3 раза дороже чем RTX 6000 Pro, при этом лишние 16GB позволяют Pro 6000 работать с LLM 72B Q8, данный класс LLM не доступен для H100.

128GB памяти:

Nvidia DGX Spark 128GB, вот тут надо очень аккуратно, фактически там распаянная LPDDR5 память со скоростью 273 GB/s. Пропускайте это решение, тут не будет никаких корпоративных мощностей по производительности, подходит только для демо стенда, но производительность токенов будет очень низкая, не рекомендую к покупке.

141GB памяти:

Nvidia H200 141GB позволит: Комфортно разворачивать корпоративных ботов на LLM 72B Q8 с 5-10 чатов для сотрудников просто идеально! Однозначно да, если хватает бюджетов.

192GB памяти:

Nvidia B100 192GB и B200 192GB данные карты пока не доступны в РФ, и будут стоить очень дорого. С ними вам откроется класс LLM 120B Q8. Вы сможете сделать продвинутого корпоративного ассистента и держать около 20 чатов одновременно.

Made on
Tilda