RAG (Retrieval-Augmented Generation) позволяет подмешивать в контекст LLM релевантные фрагменты из ваших регламентов, инструкций и базы прецедентов. Вопрос: где хранить эмбеддинги и сами документы? В облачном сервисе — значит, данные покидают периметр. Для enterprise и регуляторики это недопустимо.
On-premise RAG строится на векторной БД (Qdrant, PgVector) внутри вашей инфраструктуры. Документы чанкируются, эмбеддинги считаются локально (e5-small, multilingual и др.), поиск выполняется на ваших серверах. В графе агентов выделяется роль Researcher: она формирует запрос к базе знаний, получает топ-k чанков и передаёт их в контекст следующему агенту. Никакой отправки сырых документов в облако.
База знаний настраивается под клиента: загружаются регламенты, шаблоны ответов, FAQ, прецеденты. Так ответы и проверки привязаны к внутренним правилам компании, а не к общим данным модели. Под 152-ФЗ и отраслевые требования закладываемся с самого начала при проектировании контура.
Как это сочетается с проверкой документов: Проверка по 152-ФЗ и Честный Знак. Архитектура платформы — Технологии. Условия пилота — Партнёрство.