Кодик кратко объясняет суть статьи
На рынке нейросетей в 2026 году нет универсального лидера — модели специализируются под разные задачи. Основные зарубежные флагманы: GPT-5.5 (OpenAI), Claude Opus 4.7 (Anthropic) и Gemini 3.1 Pro (Google), каждая сильна в своей области. GPT-5.5 лидирует в веб-исследованиях, математике, автоматизации процессов и генерации визуального контента (включая текст на изображениях), но уступает в удержании длинного контекста и склонна к выдумкам. Подходит для агентных сценариев, расчётов и многошаговой автоматизации. Claude Opus 4.7 — лучший выбор для программирования, аналитики, юридических и финансовых задач, работы с длинными текстами и точного соблюдения стиля. Отличается высокой достоверностью, памятью контекста и критичностью, но ограничена в лимитах использования и не генерирует изображения. Gemini 3.1 Pro выделяется мультимодальностью — работает с видео, аудио и большими объёмами данных, предлагает качественную генерацию изображений (до 4K) и лучшее соотношение цена/качество среди зарубежных моделей, но уступает в программировании и стиле письма. Среди йских моделей — YandexGPT 5 и GigaChat Ultra — нет равных в понимании русского языка и йского контекста, соблюдении 152-ФЗ и работе с персональными данными. Они дешевле в использовании через API, но уступают зарубежным аналогам в логике, кодинге и объёме контекста. Итог: выбор модели зависит от задачи. Для кода — Claude, для поиска и автоматизации — GPT-5.5, для видео и экономичности — Gemini, для русскоязычного контента и локальных требований — YandexGPT или GigaChat. Качество промпта и интеграция в процессы зачастую важнее самой модели.
Читайте в Telegram
|
Нейросетями сегодня пользуются уже почти все, но именно в момент выбора конкретной модели начинается путаница.
Одна лучше справляется с текстами, другая сильнее в математике и коде, третья дешевле, быстрее или лучше работает с видео и длинными документами. В результате главный вопрос сейчас уже не в том, пользоваться ли ИИ вообще, а в том, какую нейросеть выбрать для своих задач.
Команда ОТП Банка изучила три зарубежные флагманские модели и две российские, чтобы показать, где каждая из них действительно сильна, а где пока заметно отстаёт.
Тройка флагманов 2026 года
К началу мая 2026 года рынок флагманских зарубежных моделей выглядит так:
- GPT-5.5 от OpenAI, выпущена 23 апреля 2026 года. Делает ставку на агентные сценарии, веб-поиск и работу с математикой.
- Claude Opus 4.7 от Anthropic, выпущена 16 апреля 2026 года. Лидер в программировании и аккуратной работе с длинным контекстом.
- Gemini 3.1 Pro от Google DeepMind, выпущена в феврале 2026 года. Сильна в мультимодальности и заметно дешевле двух конкурентов.
Размеры контекстного окна различаются и зависят не только от модели, но и от режима доступа. В ChatGPT у GPT-5.5 Instant контекстное окно составляет 128 тысяч токенов, в API GPT-5.5 поддерживает контекст до 1 миллиона токенов. При этом запросы свыше 272 тысяч входных токенов в API тарифицируются дороже (×2 за входные и ×1,5 за выходные на всю сессию), поэтому 272 тысячи корректнее воспринимать не как отдельный лимит окна, а как порог повышенной стоимости. У Claude Opus 4.7 контекстное окно составляет 1 миллион токенов, максимальный объём ответа в синхронном API достигает 128 тысяч токенов. У Gemini 3.1 Pro заявлено 1 миллион токенов на вход и до 64 тысяч токенов на выход. Все три модели хорошо работают с русским языком.
Что значит «1 миллион токенов»
Токен – это не буква и не слово, а кусочек текста, на которые модель разбивает входящий запрос. По оценкам Google, 100 токенов соответствуют примерно 60-80 английским словам, для русского языка точные универсальные коэффициенты дать сложнее, потому что токенизация зависит от модели и характера текста. Если перевести в более понятные единицы:
- 128 тысяч токенов: примерно 80–100 тысяч английских слов или несколько сотен страниц текста.
- • 272 тысячи токенов: порядка 170–200 тысяч слов.
- • 1 миллион токенов: около 600–800 тысяч слов.
Google приводит примеры, где такой объём соответствует примерно 50 тысячам строк кода, восьми английским романам или транскриптам более чем 200 средних подкаст-эпизодов.
Важно понимать, что 1 миллион токенов не означает, что модель идеально запомнит и обработает весь объём информации. Это лишь максимальный размер контекста, который можно загрузить. Насколько хорошо нейросеть будет находить детали и удерживать логику длинного документа, всё равно зависит от самой модели и задачи.
GPT-5.5: универсал с уклоном в автономность
Если коротко, GPT-5.5 делает ставку не столько на формат чат-бота, сколько на выполнение последовательных задач с минимальным участием пользователя. Модель способна самостоятельно удерживать цель, выполнять промежуточные шаги и корректировать действия по ходу работы.
Сильные стороны:
- Веб-поиск и исследовательские задачи. На бенчмарке BrowseComp, который проверяет, насколько модель умеет находить и сопоставлять информацию из множества источников в интернете, GPT-5.5 показывает 89,3%, расширенная версия Pro доходит до 90,1%. Это лучший результат среди всех трёх моделей: у Gemini 3.1 Pro 85,9%, у Claude Opus 4.7 79,3%.
- Математика. На FrontierMath, особенно в самых сложных категориях, GPT-5.5 идёт впереди: 35,4% против 22,9% у Claude.
- Работа в терминале. На Terminal-Bench 2.0 модель набирает 82,7%, лучший результат среди всех флагманов. GPT-5.5 особенно сильна в задачах, связанных со скриптингом, настройкой серверов и автоматизацией инфраструктуры.
- Многошаговые агенты. GPT-5.5 умеет сохранять цель задачи, продолжает выполнять её до результата, корректирует ошибки и реже зависает на промежуточных шагах. По данным OpenAI, в режиме рассуждений модель примерно на 80% реже выдаёт фактические ошибки по сравнению с предыдущим поколением o3.
- Картинки и презентации. Внутри ChatGPT встроена ChatGPT Images 2.0 на базе модели gpt-image-2. Её ключевое отличие в том, что генерация стала заметно более «осмысленной». На практике модель сначала выстраивает структуру будущего изображения: понимает, где должны располагаться объекты, как оформить текст, какие выдержать пропорции и композицию, и только после этого переходит к рендерингу. Благодаря этому значительно реже появляются типичные артефакты генеративной графики вроде лишних пальцев, искажённых объектов или нечитаемых надписей. По данным OpenAI, качество рендеринга текста приблизилось к 99% для латиницы, японского, корейского, китайского, хинди и бенгали. Модель поддерживает генерацию изображений в разрешении до 2K, а также позволяет создавать до восьми связанных изображений в одном запросе. Например, многопанельные комиксы, серии слайдов или последовательные сцены в едином визуальном стиле. На пользовательском бенчмарке Image Arena в первые сутки после релиза модель вышла на первое место, заметно опередив ближайших конкурентов.
Ограничения:
- GPT-5.5 хуже конкурентов удерживает длинный контекст в чат-интерфейсе. Окно контекста у ChatGPT заметно меньше, чем у Claude и Gemini, поэтому при длительных диалогах или работе с большими документами модель быстрее теряет детали и иногда забывает информацию из начала разговора.
- Из-за большего числа фактических утверждений в ответе у GPT-5.5 выше абсолютное количество потенциальных неточностей. Это давняя особенность семейства GPT, чем сложнее тема, тем выше риск, что модель добавит правдоподобные, но ложные детали. Также GPT-5.5 чаще соглашается с пользователем и склонна давать «удобные» ответы. В критичных задачах, например юридических, медицинских или финансовых формулировках, ответы нужно перепроверять.
- В программировании GPT-5.5 уступает Claude. На SWE-Bench Pro у неё 58,6% против 64,3% у Opus 4.7.
- Хорошо справляется с типовыми форматами и общим стилем, но чаще других уходит в слишком стандартные формулировки. Для текстов, где важен живой и узнаваемый тон, обычно требуется более точный промпт.
- Версия GPT-5.5 Pro дорогая. На большинстве задач разница в качестве с обычной версией не оправдывает цену.
- Подписка ChatGPT Plus стоит 20 долларов в месяц (~1500 ₽), Pro 200 долларов (~15 100 ₽). Оплатить можно только зарубежными картами.
Когда выбирать GPT-5.5: автоматизация процессов, веб-исследования, расчёты и финансовое моделирование, многошаговые агенты с обращениями к внешним инструментам, генерация визуала с текстом и сложной типографикой.
Claude Opus 4.7: педант и инженер
Claude Opus 4.7 в 2026 году окончательно закрепился как стандарт индустрии для разработчиков и встроен в большинство популярных ИИ-инструментов для кодинга. Сильна модель не только в коде, но и в работе с длинными текстами, аналитикой и сложными рассуждениями.
Сильные стороны:
- Программирование. На SWE-Bench Verified показывает 87,6%, на более сложном SWE-Bench Pro 64,3%. Это лидерство, которое Anthropic удерживает уже несколько релизов подряд. По бенчмарку Cursor показатель вырос до 70% против 58% у предыдущей версии 4.6, по Rakuten-SWE-Bench модель решает в 3 раза больше production-задач, чем Opus 4.6. У Claude есть отдельный продукт Claude Code: командная строка для разработчиков, которая работает прямо в терминале и IDE и действует как полноценный AI-агент внутри проекта.
- Длинные рассуждения и научные тексты. На бенчмарке Humanity's Last Exam Opus 4.7 показывает 46,9%, лучший результат среди трёх моделей. На GPQA Diamond 94,2%.
- Финансовая аналитика. Anthropic называет Opus 4.7 лучшей моделью на отраслевом бенчмарке Finance Agent. По внутренним тестам компании модель показывает себя как более эффективный финансовый аналитик: строит более строгие расчёты и финансовые модели, готовит профессиональные презентации. На юридическом бенчмарке BigLaw Bench показывает 90,9% при максимальной глубине рассуждений и корректно различает тонкие правовые формулировки.
- Память контекста и работа с длинными документами. Claude хорошо удерживает длинный диалог от начала до конца. Можно загрузить большой документ в начале разговора и через 30 сообщений задать к нему уточняющий вопрос, модель свяжет одно с другим без напоминаний. Полезно для работы с договорами, техническими заданиями и объемными проектами.
- Стиль письма. Из всех моделей Claude пишет наиболее структурированно, без воды и с хорошим соблюдением стиля. Модель адаптируется под нужный формат, будь то пресс-релиз, техническая документация, деловое письмо или скрипт для видео. И хорошо отличает эти форматы друг от друга. Ещё одна сильная сторона Claude в том, что ей можно показать пример текста в нужном стиле, после чего модель довольно точно повторяет интонацию, ритм и структуру. Это особенно удобно для брендовых и корпоративных коммуникаций, где важно сохранять единый голос во всех материалах.
- Критичность и честность. Claude гораздо реже придумывает несуществующие факты, охотнее признаёт пределы своих знаний и не пытается дать «удобный» ответ вместо правильного. Модель готова поспорить с пользователем, если в запросе есть фактическая ошибка, а не подстраиваться под формулировку. Anthropic заявляет 92% honesty rate (доля честных ответов) на бенчмарке MASK.
- Skills: настраиваемые специализации. В октябре 2025 у Claude появилась функция Skills: папки с инструкциями, которые «учат» модель выполнять конкретные задачи в нужном вашей команде формате. Например, можно загрузить Skill с гайдом бренда, и тогда Claude будет оформлять документы в фирменном стиле. Или Skill с шаблоном еженедельного отчёта: модель будет собирать его автоматически в нужной структуре.
Ограничения:
- У Claude действуют скользящие лимиты на использование в рамках пятичасовых окон. Anthropic не называет фиксированное количество сообщений, а описывает лимиты через относительные тарифы: Max даёт примерно в 5 или 20 раз больше доступного объёма по сравнению с Pro. На практике пользователи Pro-тарифа часто упираются в ограничения уже после 40–50 коротких сообщений при умеренной нагрузке. Скорость расхода лимита зависит от модели, размера контекста, сложности запросов и времени суток. Несколько больших запросов с длинными документами могут заметно сократить доступный объём.
- Claude позволяет загружать до 20 файлов в один чат размером до 30 МБ каждый. Полноценный визуальный анализ PDF, включая текст, графики и изображения, работает для документов объёмом до 100 страниц. В PDF-файлах свыше 1000 страниц модель обычно анализирует только текст без визуальной части.
- В терминальной работе и веб-поиске уступает GPT-5.5. По данным независимых тестов, в задачах веб-исследования Opus 4.7 показал регресс по сравнению с предыдущей версией 4.6: упала точность атрибуции источников и обнаружения противоречий. Для серьёзной фактологической работы этот нюанс стоит учитывать.
- Не генерирует изображения нативно. Для картинок и слайдов нужны внешние инструменты.
- Подписка Claude Pro 20 долларов в месяц (~1 500 ₽), Max 100 или 200 долларов (~7 500 или 15 100 ₽). Оплата зарубежными картами.
Когда выбирать Claude Opus 4.7: Программирование, проверка документов, сложные многоступенчатые рассуждения, подготовка длинных текстов в едином стиле, работа с PDF и финансовой документацией, задачи, где важна точность ответа.
Gemini 3.1 Pro: мультимодальный универсал по разумной цене
Gemini в 2026 году занимает специфическую нишу. Это модель, которая редко выигрывает по абсолютной величине бенчмарка, но почти всегда оказывается лучшим вариантом по соотношению цена/качество, особенно когда задача не сводится к чистому тексту.
Сильные стороны:
- Мультимодальность. Это единственная модель из тройки, которая умеет полноценно работать с видео и аудио как с обычным типом данных. В один запрос можно загрузить до часа видео, около 11 часов аудио или примерно 700 тысяч слов текста.
- Картинки и презентации. В феврале 2026 Google выпустил Nano Banana 2 (Gemini 3.1 Flash Image). Это прямой конкурент ChatGPT Images 2.0. Поддерживает разрешение до 4K, до 14 референсных изображений, рендеринг текста на нескольких языках, удержание персонажей и объектов между сценами, опирается на актуальные данные через поиск Google. Для отдельных задач профессионального уровня доступна модель Imagen 4 в трёх тарифах.
- Абстрактное визуальное мышление. На ARC-AGI-2 у Gemini 77,1%, выше Claude и GPT.
Ограничения:
- В программировании уступает обоим конкурентам: 80,6% на SWE-Bench Verified против 87,6% у Claude.
- В сложных рассуждениях держится близко к лидерам, но редко оказывается первой.
- Из тройки чаще других додумывает детали, особенно в нишевых тематических вопросах.
- В стиле письма пишет уверенно по-английски, но в русском чуть более «механически», чем Claude. Для творческих текстов и брендовой коммуникации обычно проигрывает обоим конкурентам.
- Подписка Google AI Pro (бывший Gemini Advanced) стоит 19,99 доллара в месяц (~1 500 ₽), есть бюджетная Google AI Plus за 7,99 доллара (~600 ₽) и максимальная Google AI Ultra за 249,99 доллара (~18 850 ₽). Также требует зарубежной карты.
Когда выбирать Gemini 3.1 Pro: работа с большими массивами данных, видео и аудио, разбор объёмной документации, генерация визуала для презентаций, сценарии с высоким объёмом запросов.
Российские модели: GigaChat и YandexGPT
Параллельно с зарубежными флагманами в России развиваются две собственные крупные языковые модели. По чистой мощи они уступают зарубежной тройке, но в ряде сценариев это объективно лучший выбор.
GigaChat от Сбера:
24 марта 2026 Сбер представил масштабное обновление, флагманскую модель GigaChat Ultra (GigaChat 3 Ultra Preview). 702 миллиарда параметров (36 миллиардов активных) в архитектуре MoE, контекст до 128 тысяч токенов. Модель доступна в веб-приложении giga.chat и в приложениях Сбера. Через API для разработчиков пока продаются модели предыдущего поколения: GigaChat 2 Lite, Pro и Max.
- Сильные стороны: долгосрочная память между сессиями, самостоятельный поиск в интернете, выполнение программного кода прямо в чате, голосовое общение, поддержка более 30 языков народов России и СНГ. Встроенная нативная генерация изображений через Kandinsky. Полностью российская инфраструктура, бесплатный веб-доступ через Сбер ID, оплата API в рублях. По внутренним замерам Сбера, GigaChat Ultra обходит DeepSeek-V3 и нерассуждающую версию Qwen3-235B в математике и общих рассуждениях на русском языке.
- Цены для физлиц: действует Freemium-режим с 1 миллионом бесплатных токенов в год (900 000 на Lite, по 50 000 на Pro и Max). Дальше пакеты от 1 300 ₽ за 20 миллионов токенов Lite до 9 750 ₽ за 15 миллионов токенов Max.
- Слабые стороны: в программировании заметно слабее зарубежных моделей. В фактологии чаще галлюцинирует. API устроен сложнее, авторизация через сертификаты, документация менее развита, чем у Yandex Cloud.
YandexGPT 5:
Яндекс развивает две модели. Alice AI LLM заточена под агентные сценарии в Алисе и является лидером русскоязычного бенчмарка SLAVA. YandexGPT 5.1 Pro доступна через API в Yandex Cloud. По внутреннему сравнению Яндекса YandexGPT 5.1 Pro достигает уровня GPT-4.1 от OpenAI и обходит её в 56% случаев на потоке русскоязычных запросов. Также модель почти вдвое реже предыдущей версии даёт выдуманные ответы. Поддерживается режим рассуждений, аналог o3 и DeepSeek R1.
- Сильные стороны: глубокое понимание русского языка и российских реалий, бесшовная работа в российском контуре, доступ через Алису и Яндекс Браузер. Лучше структурирует ответы и аккуратнее работает с форматами вывода (JSON, табличные данные). Соответствует 152-ФЗ, данные хранятся в России, поддерживается дообучение методом LoRA. Бесплатно через Алису, включая режим рассуждений и работу с PDF, TXT, DOC, DOCX. Из всех моделей YandexGPT 5 лучше всех понимает российские реалии и пишет естественно на русском с учётом местного контекста.
- **Контекст: **32 тысячи токенов. Это объективно меньше любой зарубежной модели (у GPT 128К, у Claude и Gemini по 1М). Яндекс отдельно отмечает, что 32К токенов их модели за счёт оптимизированного русскоязычного токенизатора соответствуют примерно 48К токенам Qwen-2.5. Для большинства русскоязычных задач этого хватает.
- Цены API: Alice AI LLM стоит 0,50 ₽ за 1 000 входных токенов и 1,20 ₽ за 1 000 выходных. YandexGPT 5.1 Pro: 0,80 ₽ за 1 000 токенов. YandexGPT Lite: 0,20 ₽ за 1 000 токенов. В разы дешевле зарубежных аналогов.
- Слабые стороны: заметно отстаёт от зарубежных флагманов в логике, программировании и работе с длинными цепочками рассуждений. Иностранные языки находятся на хорошем, но пока не топовом уровне. Небольшое контекстное окно ограничивает работу с крупными документами в одном запросе, а более строгие фильтры контента приводят к тому, что модель чаще отказывается обсуждать темы, на которые зарубежные аналоги отвечают свободнее.
Когда выбирать российские модели: массовые операции с русскоязычным контентом, работа с персональными данными в рамках 152-ФЗ, ситуации, где принципиально важно хранить данные в России, интеграция в продукты для российской аудитории. Стоимость API у обеих моделей в разы ниже зарубежных аналогов.
Рейтинг по сценариям
Команда ОТП Банка собрала небольшой рейтинг по ключевым сценариям использования. Универсального лидера среди моделей нет, поэтому оценка идёт по конкретным задачам.
| Сценарий | Первое место | Второе место | Третье место |
|---|---|---|---|
| Программирование и техническая разработка | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
| Веб-исследования и работа с поиском | GPT-5.5 | Gemini 3.1 Pro | Claude Opus 4.7 |
| Математика и расчёты | GPT-5.5 (особенно Pro) | Claude Opus 4.7 | Gemini 3.1 Pro |
| Длинные тексты и аналитика | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
| Естественный стиль письма | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
| Память контекста в длинном диалоге | Claude Opus 4.7 | Gemini 3.1 Pro | GPT-5.5 |
| Картинки и визуал для презентаций | ChatGPT Images 2.0 | Gemini Nano Banana 2 | GigaChat (Kandinsky) |
| Мультимодальность (видео, аудио, PDF) | Gemini 3.1 Pro | GPT-5.5 | Claude Opus 4.7 |
| Соотношение цена/качество (зарубежные) | Gemini 3.1 Pro | Claude Opus 4.7 | GPT-5.5 |
| Автономные агенты и автоматизация | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
| Достоверность и минимум выдумок | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
| Русский язык и российский контекст | YandexGPT 5 | GigaChat Ultra | Claude Opus 4.7 |
Вывод
Главный вывод в том, что выбор нейросети всё меньше зависит от бренда и всё больше от конкретной задачи. Универсального лидера больше нет, модели уходят в специализацию и по-разному показывают себя в кодинге, аналитике, работе с текстом и агентных сценариях. Разница между флагманами в реальной работе часто оказывается меньше, чем кажется по бенчмаркам, а на результат сильнее влияет правильно поставленная задача, качество промпта и то, как модель встроена в рабочие процессы.
Этим разбором команда ОТП Банка хочет помочь сориентироваться тем, кто следит за рынком и выбирает подходящую модель для работы в 2026 году.








