Автоматическая проверка документов по 152-ФЗ и Честный Знак
Комплаенс, 152-ФЗ, маркировка
Компании с большим документооборотом сталкиваются с двумя проблемами: соответствие 152-ФЗ (персональные данные в договорах, актах, накладных) и маркировка «Честный Знак». Ручная проверка каждого документа занимает часы, а ошибки оборачиваются штрафами: от десятков тысяч за единицу без маркировки до сотен тысяч за партию без сертификата.
Мультиагентный ИИ on-premise решает задачу за счёт разделения ролей: один агент извлекает данные из PDF и сканов (OCR, таблицы), другой сверяет с нормативами 152-ФЗ и правилами маркировки, третий оценивает риски и штрафы, четвёртый — критик — может вернуть документ на доработку. Цепочка работает на ваших серверах: документы не покидают периметр, что критично для соблюдения тех же 152-ФЗ и отраслевых требований.
Внедрение такого контура занимает 1–2 месяца: развёртывание моделей (Qwen 2.5, Llama), интеграция с 1С, ЭДО (Диадок, СБИС), Честный Знак. Результат — время проверки одного документа сокращается с 2–4 часов до нескольких минут, а доля пропущенных нарушений падает на порядок. Оплата за результат и привязка к KPI делают пилот предсказуемым по бюджету.
RAG on-premise: база знаний в вашем периметре
RAG, векторная БД, конфиденциальность
RAG (Retrieval-Augmented Generation) позволяет подмешивать в контекст LLM релевантные фрагменты из ваших регламентов, инструкций и базы прецедентов. Вопрос: где хранить эмбеддинги и сами документы? В облачном сервисе — значит, данные покидают периметр. Для enterprise и регуляторики это недопустимо.
On-premise RAG строится на векторной БД (Qdrant, PgVector) внутри вашей инфраструктуры. Документы чанкируются, эмбеддинги считаются локально (e5-small, multilingual и др.), поиск выполняется на ваших серверах. В графе агентов выделяется роль Researcher: она формирует запрос к базе знаний, получает топ-k чанков и передаёт их в контекст следующему агенту. Никакой отправки сырых документов в облако.
База знаний настраивается под клиента: загружаются регламенты, шаблоны ответов, FAQ, прецеденты. Так ответы и проверки привязаны к внутренним правилам компании, а не к общим данным модели. Под 152-ФЗ и отраслевые требования закладываемся с самого начала при проектировании контура.
Внедрение мультиагентного ИИ за 1–2 месяца: что реально
Пилот, интеграции, KPI
Срок «1–2 месяца» относится к пилотному контуру: развёртывание платформы на ваших серверах или в вашем облаке, подключение к ключевым системам (1С, CRM, ЭДО — по необходимости), настройка одной-двух моделей агентов (например, комплаенс и автоматизация согласований) и обучение команды.
Что входит в пилот: установка LLM (Qwen 2.5, Llama), векторной БД, агентов LangGraph, интеграций с 1С/Bitrix24/ЭДО через API. Документы и обращения не уходят за пределы вашей инфраструктуры. По критичным решениям (одобрить документ, заблокировать оплату) предусмотрен шаг с человеком: система предлагает, человек подтверждает.
Масштабирование — после подтверждённой окупаемости. Оплата за результат и привязка к KPI (экономия, скорость обработки, снижение нарушений) делают пилот предсказуемым. Подробности условий — на странице Партнёрство. Заявку на тест можно оставить в разделе Контакты.
Qwen3: почему лучше Qwen2.5
LLM, модели, on-premise
Qwen3 — новая генерация языковых моделей Alibaba. По сравнению с Qwen2.5 она даёт: до 83% меньше compute за счёт архитектуры MoE (Mixture-of-Experts); 36T токенов против 18T — вдвое больше данных обучения; Qwen3 32B превосходит Qwen2.5 72B на ряде бенчмарков; 119 языков вместо 25; Thinking budget — контроль глубины рассуждений (Fast/Deep).
Qwen2.5 использовал dense transformer: каждый токен обрабатывался всеми параметрами модели. Qwen3 переходит на гибридную MoE: 235B общих параметров, но активируется около 22B на один forward pass. Эксперты выбираются по входу — модель «маршрутизирует» токены. Результат: сопоставимое качество при существенно меньших затратах. Плотная версия Qwen3 32B по бенчмаркам обгоняет Qwen2.5 72B (MMLU-Pro, GPQA, LiveBench).
Qwen3 позволяет задавать «бюджет рассуждений»: Fast Mode (1×) — быстрые ответы, чат; Deep Mode (до 5×) — математика, код, до +28% точности. Для платформы рекомендуем Qwen3 8B как основную модель (5–9 GB VRAM); для слабого железа (M1 8GB) — qwen2.5:7b. Модель задаётся в дашборде («Настройки агентов» → «Модель LLM») или в config/default.yaml.
Подробнее: Qwen3 Blog, Ollama qwen3:8b.