10 марта 2026 года Автор: Евгений Кузин

Как выбрать серверную архитектуру для локальной LLM и не потерять работу

В этой статье разберём, какую серверную архитектуру стоит выбирать для локальных LLM в корпоративной инфраструктуре и какие ограничения на самом деле накладывает размер модели.

Мы рассмотрим практические варианты развёртывания локальных LLM — Qwen, DeepSeek и Llama — размером от 32B до 235B параметров. Модели ниже 32B в большинстве корпоративных сценариев почти наверняка разочаруют вас качеством ответов, а LLM выше 235B на сегодняшний день оказываются неоправданно дорогими даже для крупных компаний.

Отдельно поговорим о дообучении моделей под свои задачи через QLoRA, а также о том, как такие системы эксплуатируются в реальной инфраструктуре — через корпоративные чат-боты, LLM-комбайны и системы автоматизации вроде HarwesterBot.

LLM 32B

Для LLM 32B с квантованием Q8 подойдут карты RTX 6000 Ada 48 GB и RTX Pro 5000 Blackwell 48 GB. Такие карты подойдут для запуска HarwesterBot на ограниченных настройках KV-cache 32K, максимум 100 000 символов анализа за один проход.

Для корпоративного бота на LLM 32B с квантованием Q8, рассчитанного на 6–8 чатов с KV-cache 32K на каждый чат, вам понадобится RTX Pro 6000 Blackwell 96 GB или H100 80 GB.

Для LLM 32B FP16 требуется минимум 96 GB памяти, тут идеальный вариант — RTX Pro 6000 Blackwell 96 GB. Такие карты подойдут для запуска HarwesterBot на оптимальных настройках KV-cache 64K, максимум 200 000 символов анализа за один проход.

LLM 72B

Для LLM 72B с квантованием Q8 отлично подходит RTX Pro 6000 Blackwell 96 GB. Такие карты подойдут для запуска HarwesterBot на ограниченных настройках KV-cache 64K, максимум 200 000 символов анализа за один проход, но такая LLM будет качественнее отслеживать взаимосвязи.

Для корпоративного бота на LLM 72B с квантованием Q8, рассчитанного на 6–8 чатов с KV-cache 32K на каждый чат, вам понадобится H200 141 GB.

Для корпоративного бота на LLM 72B FP16, рассчитанного на 6–8 чатов с KV-cache 32K на каждый чат, вам подойдут только NVIDIA B100 или B200.

LLM 110B

Для LLM 110B с квантованием Q8 уже минимум — NVIDIA H200 141 GB. Такие карты подойдут для запуска HarwesterBot на ограниченных настройках KV-cache 128K, максимум 400 000 символов анализа за один проход.

Для корпоративного бота на LLM 110B FP16, рассчитанного на 6–8 чатов с KV-cache 32K на каждый чат, придётся уже переходить в класс серверов DGX с 8 × H100 в формате SXM.

LLM 235B

Для запуска HarwesterBot на LLM 235B с квантованием Q8 подходит Apple Mac Studio M3 с 512 GB объединённой памяти. Но поскольку это очень тяжёлая LLM-модель, в реальном рабочем сценарии HarwesterBot такая система, по моей оценке, сможет выдавать не более 3–4 полноценных ответов в день. Может подойти для очень сложного анализа, отдельных отчётов для топ-менеджмента или как демо-стенд для проверки гипотез.

Запуск 235B-моделей внутри продуктивной среды компании — это уже уровень серверов класса DGX / HGX с 8 × H200 или 8 × B200.

LLM размерности

Попробую литературно описать, что даёт размерность LLM при общении с ней:

32B — приятный молодой человек в общении.
72B — интеллигентный и начитанный собеседник.
110B — умный гуру, который может многому научить.
235B — с полуслова понимаем друг друга.

Disclaimer

Прошу учесть, что на март 2026 года официальный выпуск карт B100 и B200 в исполнении PCIe ещё не заявлен. Но, скорее всего, в течение 2026 года такие карты будут представлены. Если на момент прочтения статьи вы уже можете купить новую Quadro следующего поколения с 192 GB памяти, то все выводы из этой статьи для неё тоже будут актуальны.

Обучение LLM

Чтобы полностью обучить LLM уровня 32B в FP16, вам понадобится примерно 6–9 месяцев работы сервера класса DGX с 8 × H200 SXM. Но одного железа здесь недостаточно: ещё нужны качественные данные и специалисты, которые действительно умеют этим заниматься.

Если же вы хотите не обучать модель с нуля, а только немного адаптировать её под свои задачи — условно изменить на 1–2%, — это уже называется не полное обучение, а fine-tuning / QLoRA. Для дообучения модели уровня 32B вам может понадобиться примерно месяц работы одной H200 141 GB, в зависимости от объёма данных, длины контекста и выбранного режима обучения.

Такие изменения в LLM уже реально внести, но главный вопрос в другом: нужно ли это именно вам и что именно вы хотите получить такого, чего нет в базовой версии модели. Тем более если через полгода вы захотите перейти на более свежую редакцию LLM, весь цикл адаптации, скорее всего, придётся начинать заново.

Архитектурные особенности LLM

Я считаю LLM базами данных второго поколения. Базы данных первого поколения — SQL, Oracle, Postgres — хорошо работали только тогда, когда полностью помещались в оперативную память сервера. У баз данных второго поколения ситуация аналогичная: LLM обязана влезать в память вашей видеокарты.

У вас вся работа базы данных идёт на 100% внутри видеокарты, процессор и память используются только при распаковке архивов или CPU-сканировании изображений при подготовке, например через Paddle OCR CPU. Оперативной памяти у вас может быть меньше, чем видеопамяти в сервере, и это абсолютно нормально. PCIe может быть любой версии: 3.0, 4.0, 5.0 — это минимально влияет на работу LLM.

All-in-One

Тут всё достаточно просто: нам нужен сервер высотой 2U. Процессоры могут быть самыми простыми, уровня Xeon Silver. Оперативной памяти 64–128 GB более чем достаточно. Нужны две дисковые группы SSD: одна под Ubuntu, дистрибутивы LLM и временные файлы, вторая группа — для данных пользователей, через которые они выстраивают параметры работы с LLM. Первый LUN — 2–3 TB. Второй LUN, в зависимости от ваших задач, но я бы тоже рекомендовал размер 2–4 TB SSD. Лучше ставить 2 видеокарты: одну отдавать под корпоративного ассистента / чат-бота, вторую карту — под LLM-комбайны, так как они запускаются по очереди.

Отказоустойчивый масштабируемый кластер

Оркестратор — система управления LLM-агентами, например: n8n, LangGraph, Dify, Flowise, Haystack, Semantic Kernel, Open WebUI Pipelines. Оркестратор лучше всего выносить на уровень вашего кластера виртуализации ESXi или Hyper-V. Требования к нему достаточно скромные: 6–8 vCPU и 32 GB DDR будет более чем достаточно.

Сервер с видеокартами

Rack 2U, 2 × Xeon Silver, 128 GB DDR, 3 × 1.92 TB SSD, 2 × NVIDIA GPU, 2 × 10 GbE, 2 × 1600 W PSU.

Сервер является масштабируемой молотилкой с предустановленными пакетами локальных LLM, архиваторами, сканерами документов и т. д. Все серверы настраиваются как клоны друг друга, а между ними балансирует нагрузку оркестратор. Количество серверов увеличивает надёжность и отказоустойчивость системы.

Хранение данных

Используйте корпоративные системы хранения данных, выдавая доступ LLM для анализа на чтение разделов, которые задействуются в работе локальных поисковиков, корпоративных ассистентов и LLM-комбайнов.

Итоги

Я вижу огромный потенциал у LLM-моделей 32B и 72B как у идеальных помощников, которых ты один раз научил, а дальше они годами обрабатывают бесконечные неструктурированные данные: превращают их в качественные отчёты для людей или переводят в структурированный формат для поглощения базами данных первого поколения — SQL, Oracle, Postgres. HarwesterBot не будут с тобой общаться, но они относительно просты во внедрении.

Чат-боты — очень хитрый зверь. Из-за их внешней похожести на общение с человеком кажется, что они умеют что-то почти магическое. Но тут есть важный нюанс: сама LLM ничего не умеет, она всего лишь база данных второго поколения. А дальше вам всё равно придётся под каждый тип вопросов делать свои печатные формы, почти как в 1С, и долго и муторно программировать всю обвязку. Вы не сможете всерьёз конкурировать с ChatGPT, Gemini, Anthropic, Claude, Claude Code: получится, скорее всего, заметно хуже, а пользователи будут саботировать внедрение. Чат-боты ещё загубят немало карьер директоров по автоматизации AI в корпоративных войнах.