Блог

Статьи и материалы

Комплаенс 152-ФЗ, RAG на своём сервере, внедрение мультиагентного ИИ за 1–2 месяца.

Автоматическая проверка документов по 152-ФЗ и Честный Знак

Почему ручная проверка договоров и накладных не масштабируется, как мультиагентный ИИ снижает риски штрафов и что важно при выборе решения on-premise.

RAG on-premise: база знаний в вашем периметре

Как хранить регламенты и прецеденты внутри инфраструктуры, подмешивать контекст в LLM и не отправлять документы в облако.

Внедрение мультиагентного ИИ за 1–2 месяца: что реально

От пилота до продакшена: развёртывание на ваших серверах, интеграция с 1С и ЭДО, обучение команды и привязка к KPI.

Qwen3: почему лучше Qwen2.5

Новая генерация языковых моделей Alibaba: до 83% меньше compute, 36T токенов, 119 языков, контроль глубины рассуждений. Рекомендации для платформы.

Автоматическая проверка документов по 152-ФЗ и Честный Знак

Компании с большим документооборотом сталкиваются с двумя проблемами: соответствие 152-ФЗ (персональные данные в договорах, актах, накладных) и маркировка «Честный Знак». Ручная проверка каждого документа занимает часы, а ошибки оборачиваются штрафами: от десятков тысяч за единицу без маркировки до сотен тысяч за партию без сертификата.

Мультиагентный ИИ on-premise решает задачу за счёт разделения ролей: один агент извлекает данные из PDF и сканов (OCR, таблицы), другой сверяет с нормативами 152-ФЗ и правилами маркировки, третий оценивает риски и штрафы, четвёртый — критик — может вернуть документ на доработку. Цепочка работает на ваших серверах: документы не покидают периметр, что критично для соблюдения тех же 152-ФЗ и отраслевых требований.

Внедрение такого контура занимает 1–2 месяца: развёртывание моделей (Qwen 2.5, Llama), интеграция с 1С, ЭДО (Диадок, СБИС), Честный Знак. Результат — время проверки одного документа сокращается с 2–4 часов до нескольких минут, а доля пропущенных нарушений падает на порядок. Оплата за результат и привязка к KPI делают пилот предсказуемым по бюджету.

RAG on-premise: база знаний в вашем периметре

RAG (Retrieval-Augmented Generation) позволяет подмешивать в контекст LLM релевантные фрагменты из ваших регламентов, инструкций и базы прецедентов. Вопрос: где хранить эмбеддинги и сами документы? В облачном сервисе — значит, данные покидают периметр. Для enterprise и регуляторики это недопустимо.

On-premise RAG строится на векторной БД (Qdrant, PgVector) внутри вашей инфраструктуры. Документы чанкируются, эмбеддинги считаются локально (e5-small, multilingual и др.), поиск выполняется на ваших серверах. В графе агентов выделяется роль Researcher: она формирует запрос к базе знаний, получает топ-k чанков и передаёт их в контекст следующему агенту. Никакой отправки сырых документов в облако.

База знаний настраивается под клиента: загружаются регламенты, шаблоны ответов, FAQ, прецеденты. Так ответы и проверки привязаны к внутренним правилам компании, а не к общим данным модели. Под 152-ФЗ и отраслевые требования закладываемся с самого начала при проектировании контура.

Внедрение мультиагентного ИИ за 1–2 месяца: что реально

Срок «1–2 месяца» относится к пилотному контуру: развёртывание платформы на ваших серверах или в вашем облаке, подключение к ключевым системам (1С, CRM, ЭДО — по необходимости), настройка одной-двух моделей агентов (например, комплаенс и автоматизация согласований) и обучение команды.

Что входит в пилот: установка LLM (Qwen 2.5, Llama), векторной БД, агентов LangGraph, интеграций с 1С/Bitrix24/ЭДО через API. Документы и обращения не уходят за пределы вашей инфраструктуры. По критичным решениям (одобрить документ, заблокировать оплату) предусмотрен шаг с человеком: система предлагает, человек подтверждает.

Масштабирование — после подтверждённой окупаемости. Оплата за результат и привязка к KPI (экономия, скорость обработки, снижение нарушений) делают пилот предсказуемым. Подробности условий — на странице Партнёрство. Заявку на тест можно оставить в разделе Контакты.

Qwen3: почему лучше Qwen2.5

Qwen3 — новая генерация языковых моделей Alibaba. По сравнению с Qwen2.5 она даёт: до 83% меньше compute за счёт архитектуры MoE (Mixture-of-Experts); 36T токенов против 18T — вдвое больше данных обучения; Qwen3 32B превосходит Qwen2.5 72B на ряде бенчмарков; 119 языков вместо 25; Thinking budget — контроль глубины рассуждений (Fast/Deep).

Qwen2.5 использовал dense transformer: каждый токен обрабатывался всеми параметрами модели. Qwen3 переходит на гибридную MoE: 235B общих параметров, но активируется около 22B на один forward pass. Эксперты выбираются по входу — модель «маршрутизирует» токены. Результат: сопоставимое качество при существенно меньших затратах. Плотная версия Qwen3 32B по бенчмаркам обгоняет Qwen2.5 72B (MMLU-Pro, GPQA, LiveBench).

Qwen3 позволяет задавать «бюджет рассуждений»: Fast Mode (1×) — быстрые ответы, чат; Deep Mode (до 5×) — математика, код, до +28% точности. Для платформы рекомендуем Qwen3 8B как основную модель (5–9 GB VRAM); для слабого железа (M1 8GB) — qwen2.5:7b. Модель задаётся в дашборде («Настройки агентов» → «Модель LLM») или в config/default.yaml.

Подробнее: Qwen3 Blog, Ollama qwen3:8b.

Готовы к пилоту?

Запустите мультиагентный ИИ внутри вашего периметра за 1–2 месяца.

Заказать тест