Технологии и архитектура мультиагентного ИИ on-premise

Модели LLM

Языковые модели, которые мы используем

Модель всегда подбирается под партнёра: железо, задача, бюджет. Рекомендуемая — Qwen3 8B.

Модель	VRAM	Назначение
Qwen3 8B	5–9 GB	Рекомендуемая для prod
Qwen3 14B	9–12 GB	Верификатор, reasoning
Qwen3 32B	18–22 GB	Комплаенс, документы, Critic
Qwen3 72B	45–52 GB	Премиум, флагман
Qwen3-Coder 7B	4–6 GB	Код, SQL, 1С
Qwen2.5-VL 7B	5–7 GB	Vision: печати, сканы (лучше llava)
Qwen2.5 7B	4–6 GB	M1 8GB, слабое железо
Phi-4 mini 3.8B	3–4 GB	Сверхбыстрый, эскалация
Gemma-2 27B	16–20 GB	Альтернатива без китайских (Apache 2.0)
Mistral Nemo 12B	8–10 GB	Apache 2.0, быстрые задачи

Пресеты

Готовые шаблоны работы

Пресет — готовый сценарий под вашу задачу: проверка документов, поддержка клиентов, согласования. Меняется поведение агентов и режимы (голосование, дебаты), схема графа остаётся той же. Выбираете пресет в дашборде или через API.

Пресет	Модель	Для чего	Где применяется
Аудит перед ревизией	Комплаенс	Голосование + дебаты, жёсткие критерии	Проверка документов перед ревизией
Стандартная проверка	Комплаенс	Голосование + дебаты	Повседневная проверка договоров и накладных
Быстрая проверка	Комплаенс	Лёгкий режим	Экспресс-контроль без глубокого анализа
Мягкая с рекомендациями	Комплаенс	Мягкие критерии	Консультативный режим, рекомендации
Юр. превью	Комплаенс	Жёсткие критерии, голосование + дебаты	Юридическая проверка договоров
Служба поддержки	Обращения	Эмпатия, дебаты	Обращения в CRM, тикеты, поддержка
Нейтральные ответы	Обращения	Сбалансированный тон	Формальная переписка, FAQ
Быстрая эскалация	Обращения	Дебаты + голосование по эскалации	Негативные обращения, жалобы
Отработка возражений	Обращения	Цель — отработка возражений, дебаты	Продажи, возражения клиентов
Продающий ответ	Обращения	Цель — продажи, дебаты	Исходящие ответы, коммерческие предложения
Жёсткое согласование	Операционная	Голосование + дебаты	Согласования договоров, закупок
Рутинные операции	Операционная	Дебаты	Типовые заявки, маршрутизация
Срочные задачи	Операционная	Быстрый поток	Срочные согласования, эскалации

Оцените контекстное окно под ваше железо → Калькулятор KV-cache

Команда агентов

6 специализированных ролей.

Каждый агент отвечает за свою задачу. Orchestrator координирует всю команду через LangGraph. Схемы и обоснование ролей

Orchestrator

Планирование, декомпозиция задач, координация команды. Модель 70B для сложных решений.

Researcher

Поиск информации, RAG-запросы к базе знаний, извлечение контекста из документов.

Analyst

Извлечение сущностей, классификация, оценка рисков. Структурированный вывод в JSON.

Executor

Выполнение действий: создание задач, отправка уведомлений, вызов API внешних систем.

Critic

Контроль качества, верификация результатов. Может вернуть задачу на доработку (цикл).

Reporter

Формирование отчётов, суммаризация результатов, генерация рекомендаций.

Паттерны

7 моделей взаимодействия.

От простого последовательного до циклических графов, голосования и дебатов. Режимы Voting и Debate включаются в пресетах под задачу (аудит, эскалация жалоб, аналитика).

Sequential

Линейная цепочка: Agent A → B → C → Result. Для простых процессов с чёткой последовательностью.

Hierarchical

Orchestrator декомпозирует задачу и распределяет между агентами. Для сложных задач.

Cyclic

Critic проверяет результат и возвращает на доработку. Итеративное улучшение до достижения качества.

Debate

Два варианта ответа (например, мягкий и формальный), агент роли Judge выбирает лучший. Подходит для поддержки и эскалации жалоб — меньше ошибок и единый тон.

Voting

Несколько агентов оценивают риск или тон — итог по большинству. Нужно для аудита, юр. превью и жёсткого согласования — выше точность решений.

Operations

Распределение задач, согласования, Human-in-the-Loop. Для внутренних процессов компании.

Human-in-the-Loop

Система ставит процесс на паузу, когда нужно решение человека. Продолжить можно с того же шага в любой момент.

Пример: Граф комплаенса (циклический)

Critic может вернуть задачу на Extractor (цикл до 3 итераций)

Подробнее о схемах работы агентов

Калькуляторы

Контекстное окно и подбор модели под партнёра

Оценка контекста по мощностям и рекомендация модели по задаче, VRAM и желаемому окну. Модель всегда подбирается под партнёра.

Расчёт контекстного окна от мощностей

VRAM, ГБ Модель Объём базы, кол-во документов

Рассчитать подходящую модель

VRAM, ГБ Желаемое контекстное окно в токенах Задача

Технологии мультиагентного ИИ:
полный контроль над стеком

Языковые модели, которые мы используем

Готовые шаблоны работы

Orchestrator

Researcher

Analyst

Executor

Critic

Reporter

Sequential

Hierarchical

Cyclic

Debate

Voting

Operations

Human-in-the-Loop

Контекстное окно и подбор модели под партнёра

Расчёт контекстного окна от мощностей

Рассчитать подходящую модель

Готовы к пилоту?

Технологии мультиагентного ИИ:полный контроль над стеком

Языковые модели, которые мы используем

Готовые шаблоны работы

Orchestrator

Researcher

Analyst

Executor

Critic

Reporter

Sequential

Hierarchical

Cyclic

Debate

Voting

Operations

Human-in-the-Loop

Контекстное окно и подбор модели под партнёра

Расчёт контекстного окна от мощностей

Рассчитать подходящую модель

Готовы к пилоту?

Технологии мультиагентного ИИ:
полный контроль над стеком