Несколько недель назад Alibaba Qwen анонсировала обновления линейки: флагманское семейство Qwen3 и расширенные версии Qwen2.5-1M с контекстом до миллиона токенов. В этом разборе — что именно вышло, чем модели хороши и какую выбрать под типичные задачи: комплаенс, RAG, агенты, длинные документы.

Что вышло

Qwen3 — новое поколение dense- и MoE-моделей. Dense: 32B, 14B, 8B, 4B, 1.7B, 0.6B (контекст 128K, у младших 32K). MoE: Qwen3-30B-A3B (30B всего / 3B активных) и Qwen3-235B-A22B (235B / 22B активных). Все открытые веса, лицензия Apache 2.0. Главная фича — гибридный режим рассуждений: быстрый ответ без «думания» и режим thinking для сложных задач с пошаговым выводом. Даже Qwen3-4B по бенчмаркам приближается к Qwen2.5-72B-Instruct.

Qwen2.5-1M — 7B и 14B Instruct с контекстом до 1 млн токенов. Оптимизированный инференс (sparse attention и др.): на длинном контексте в разы быстрее наивного подхода, по длинным задачам обходят GPT-4o-mini. Подходят для RAG с большой базой документов и для анализа объёмных договоров, отчётов, регламентов.

Чем хороши

Qwen3 даёт выбор «скорость или глубина»: чат и простые запросы — без thinking, сложная логика и код — с thinking. Для on-premise это удобно: один и тот же стек можно настроить под сценарий. Qwen2.5-1M закрывает сценарии, где в контекст нужно класть десятки и сотни тысяч токенов: единый проход по длинному документу без жёсткой обрезки и без облака.

Какая модель для какой задачи

Комплаенс и проверка документов

Средние dense 8B–14B (Qwen3-8B/14B или Qwen2.5-7B/14B) — баланс качества и ресурсов. Режим thinking — для сложных правил и цепочек проверок. Если документы длинные (договоры, УПД пачками) — Qwen2.5-7B/14B-Instruct-1M позволяет держать в контексте целиком большой файл или несколько документов. Подробнее про автоматизацию проверок: 152-ФЗ и Честный Знак, комплаенс Честного Знака.

RAG и база знаний

RAG обычно не требует миллиона токенов в одном запросе — важнее стабильный инференс и качество ответа по выбранным чанкам. Qwen3-4B/8B или Qwen2.5-7B хорошо стоят за Researcher/Writer в архитектуре агентов. Если база знаний очень большая и нужен один длинный контекст — тогда Qwen2.5-1M. О том, как строить RAG в периметре: RAG on-premise.

Агенты и оркестрация

Для оркестратора и критичных шагов (планирование, верификация) лучше 8B–32B с режимом thinking. Для массовых «рабочих» агентов (извлечение полей, классификация) достаточно 4B–7B без thinking. Схемы и роли: Модели агентов.

Ограничения по железу и контексту

Размер контекста и объём KV-cache напрямую зависят от VRAM и размера модели. Чтобы прикинуть, какой контекст потянет ваша конфигурация (и сколько оставить под RAG), используйте наш калькулятор:

→ Калькулятор контекстного окна и KV-cache — оценка по VRAM, модели и объёму базы знаний.

Решения под разные сценарии (комплаенс, обращения, автоматизация): Решения. Условия пилота и внедрения: Партнёрство.