Gemini 3 Pro: бенчмарки, которые потрясли индустрию

Никита Яночкин·10 сентября 2025 г.· 10 мин чтения

TL;DR

18 ноября 2025 года Google выпустила Gemini 3 Pro и систематически обошла GPT-5.1 на всех ключевых бенчмарках: +11 пунктов на Humanity's Last Exam (37.5% против 26.5%), в 6 раз лучше на ARC-AGI-2 (45.1% в режиме Deep Think), +196 пунктов Elo по алгоритмическому кодированию. Нативная мультимодальность (видео, аудио, изображения, 1M токенов контекста) и интеграция с 1.5 млрд пользователей Google Search создают дистрибуционное преимущество, которое OpenAI не сможет воспроизвести. OpenAI при этом несёт убытки $7.8 млрд за первые 9 месяцев 2025 года при выручке $4.3 млрд, тогда как Google использует собственные TPU с преимуществом по стоимости в 4–6 раз.

Gemini 3 Pro: бенчмарки, которые потрясли индустрию

Reasoning (PhD-level)

Математика (абсолютный прорыв)

Абстрактное мышление (визуальное рассуждение)

Мультимодальное понимание (видео и изображения)

Кодирование

Humanity's Last Exam (без инструментов): 37.5% vs GPT-5.1 26.5% (+11 пункта)
GPQA Diamond (PhD-level science): 91.9% vs GPT-5.1 88.1% (+3.8 пункта)
Gemini 3 Deep Think на Humanity's Last Exam: 41.0% — 55% выше, чем GPT-5.1
MathArena Apex: 23.4% vs GPT-5.1 17.6% — это >20x улучшение от Gemini 2.5 Pro (1.0%)
На самых сложных математических задачах Gemini 3 буквально в другой лиге
ARC-AGI-2 (без tools): 31.1% vs GPT-5.1 17.6% — 43% лучше
ARC-AGI-2 с Deep Think (code execution): 45.1% — это 6.3x улучшение от Gemini 2.5 Pro (4.9%)
Это впервые в истории AI-моделей, когда достигнут такой уровень на этом легендарно сложном бенчмарке
MMMU-Pro (complex image reasoning): 81% — значительный отрыв от конкурентов
Video-MMMU (video understanding): 87.6% — Gemini 3 это единственная модель, которая нативно понимает видео на уровне frontier
LiveCodeBench Pro (algorithmic coding): Elo 2,439 vs GPT-5.1 2,243 (+196 пункта) — 8% впереди
SWE-Bench Verified (bug fixing в реальных репозиториях): 76.2% vs Claude Sonnet 4.5 77.2%
WebDev Arena (frontend development): 1487 Elo — топ лидерборда

Давайте посмотрим на цифры, потому что они говорят сами за себя:

Это не статистическая ошибка. Это систематический отрыв на всех фронтах, от чистой науки до практического кодирования.

Gemini 3 Deep Think: когда обычный reasoning недостаточно

Humanity's Last Exam: 41.0% (+10.5 пункта над Gemini 3 Pro базовой)
GPQA Diamond: 93.8% (+1.9 пункта, но это потолок-потолок)
ARC-AGI-2 (с code execution): 45.1% — установление нового стандарта для всей индустрии

Google представила параллель o1 от OpenAI, но с гораздо более агрессивным позиционированием. Gemini 3 Deep Think — это режим, где модель выделяет дополнительное compute время (как человеческое мышление, когда мы решаем трудную задачу) и достигает невероятных результатов:

Deep Think будет доступна для Google AI Ultra subscribers после safety testing, но даже в preview форме это ясно сигнализирует: Google не просто прошла мимо OpenAI, Google переигрывает её на территории, которая была исключительно OpenAI.

Мультимодальность: где Gemini 3 становится монстром

Text + Images: MMMU-Pro 81% (как изображения с графиками, диаграммами, таблицами)
Video: Video-MMMU 87.6% (может анализировать часы видео в одном контексте)
Audio: встроенная поддержка
Documents: 1M token контекстное окно означает, что может обработать многосотраничный PDF, весь кодовый репозиторий или трансакцию многочасового видео одновременно

Здесь критически важно понять одну вещь: Gemini 3 была спроектирована как мультимодальная от фундамента, в то время как GPT-4/5 просто "добавили" vision позже.

Gemini 3 нативно понимает:

GPT-5.1 имеет multimodal support (видео, аудио), но это не нативное дизайн решение — это расширение текстовой архитектуры.

Для разработчиков, работающих с видео-анализом, документ-обработкой, или визуальным reasoning, Gemini 3 это не просто лучший выбор — это единственный выбор.

Google Antigravity: IDE, который переписывает кодирование

Вы работаете как architect, агенты работают автономно в editor, terminal, и browser
Модель может писать код, запускать его, видеть результаты, отлаживать в одном loop
Артефакты (код, UI, reports) создаются интерактивно
Полностью бесплатная (в отличие от Cursor, который $20/месяц)
Работает на MacOS, Windows, Linux из коробки

Это часть, которую большинство пропустит, но она критична для developer adoption. Google представила Google Antigravity — свободную (!) agentic development platform, встроенную вокруг Gemini 3:

Это прямой конкурент Cursor, Windsurf, и GitHub Copilot — но встроенный в бесплатную платформу и powered Gemini 3, которая уже лучше GPT-5.1 на кодировании.

Трудно переоценить стратегическое значение этого. Google не просто выпустила лучшую модель — она создала весь экосистем вокруг неё, который интегрируется с инструментами, которые разработчики уже используют (Android Studio, JetBrains, GitHub, Cursor).

Интеграция с Google Search: 1.5 млрд пользователей с Gemini 3

AI Mode в Search с Gemini 3 Pro доступен для Google AI Pro и Ultra subscribers
Динамические UI-компоненты — система может создавать интерактивные калькуляторы, физические симуляции, custom-designed interfaces для каждого запроса
Deep Search — автоматическое создание многостраничных исследовательских отчётов за минуты
Система будет автоматически маршрутизировать простые запросы в faster models и сложные — в Gemini 3

В то время как OpenAI спорит о стратегии распространения, Google уже кативирует Gemini 3 в Search:

Что это означает: 1.5 млрд пользователей Google Search будут вользовать Gemini 3 уже в этом месяце — без необходимости скачивать приложение, без необходимости платить, просто естественно через поиск. Для бизнесов, которые хотят оставаться видимыми в этой новой реальности, критически важна оптимизация под AI-поисковые системы.

ChatGPT имеет 400 млн weekly users. Но они должны сознательно открыть приложение. Google Gemini 3 будет использовать миллиарды людей, которые не знают, что они используют frontier AI — они просто используют поиск как обычно, и вдруг ответы стали в 10 раз лучше.

Это монополистическое преимущество, которое конкуренты не могут повторить.

OpenAI o5 никогда не будет конкурировать: почему GPT-5.1 это уже вчерашний день

Позвольте мне быть честным: GPT-5.1 это солидная модель. Она конкурентна на кодировании, стабильна на tool-use, и некоторые разработчики её предпочитают.

Но Gemini 3 её переигрывает на ключевых фронтах, которые имеют значение:

Критический пункт: GPT-5.1 лучше на predictable tool-use и немного на AIME math. Но эти преимущества маргинальны. Gemini 3 лучше везде, где это имеет значение для 2025.

Почему OpenAI находится на грани: финансовая катастрофа

Текущие убытки (реальные цифры на ноябрь 2025)

Текущие затраты на инференс

Платежи Microsoft (20% revenue share)

2024: убытки $5B на выручке $3.5B (burn rate 143%)
H1 2025: убытки $7.8B на выручке $4.3B (burn rate 181%)
Прогноз 2028: операционные убытки $74B
Кумулятивные убытки до 2029: $115B
2024: $3.8B
9 месяцев 2025: $8.65B (экстраполируется до $11.5B за год)
Рост затрат: 203% год-на-год
2024: $493.8M
9 месяцев 2025: $865.8M (экстраполируется до $1.15B за год)
Это цена за инфраструктуру, которая дорожает каждый день

Помните цифры OpenAI? Они ещё хуже, чем можно представить:

Так что происходит? OpenAI обслуживает мультимиллиардные убытки, выплачивая Microsoft миллиарды за Azure-вычисления, в то время как Gemini 3 работает на собственных TPU Google с 4-6x преимуществом по стоимости.

Критический анализ: уязвимости Gemini 3 (да, они есть)

Знания ограничены 2024 годом

Hallucination rate

Меньше validated в production

Andrej Karpathy обнаружил, что Gemini 3 отказалась верить, что сейчас 2025
При наделении ей функции для проверки текущей даты, модель буквально сказала "Oh my god" и "I don't know what to say. You were right about everything"
Это показывает, что модель не обновлялась real-time данными с 2024
Несмотря на высокую accuracy, независимый анализ показывает 88% hallucination rate на Omniscience Index
Это означает: когда Gemini 3 ошибается, она уверенна в своей ошибке
GPT-5.1 имеет месяцы реального использования
Gemini 3 это 4-дневный релиз
Как она ведет себя на edge cases в production workflows — этого мы не знаем еще

Справедливо: Gemini 3 не идеальна:

Но ни один из этих недостатков не меняет базовую динамику: Gemini 3 это доминирующий tecnologi frontier, независимо от этих edge cases.

Стратегический сдвиг: вертикальная интеграция окончательно победила

Google (вертикально интегрирована)

OpenAI (best-of-breed, но зависимая)

✅ Собственные TPU (4-6x cost advantage)
✅ Собственные модели (Gemini 3)
✅ Собственная платформа (Search, Workspace, Cloud)
✅ Собственные данные (Search, Android, YouTube, Chrome, Gmail)
✅ Собственное распределение (1.5B Search пользователей)
Результат: бесспорное доминирование на всех фронтах, невозможная для копирования позиция
✅ Лучшие исследователи (в этом году)
❌ Azure/NVIDIA инфраструктура (дорого, неэффективно)
❌ Нет собственного распределения (зависит от ChatGPT app + API)
❌ Нет собственных данных (зависит от интернета, как все)
❌ Нет собственной платформы (полностью зависима от Microsoft)
Результат: высокие убытки, постоянная зависимость, невозможность конкурировать на cost

Позвольте мне объяснить, почему Gemini 3 демонстрирует, что вертикальная интеграция иррационально преобладает над vertical best-of-breed:

Вывод: В AI, как и в автомобилях 1920s, вертикальная интеграция побеждает best-of-breed когда масштабы достаточно велики.

Что происходит с конкурентами

Meta (Llama 3.3, Llama 4)

Anthropic (Claude 3.5 Sonnet)

Llama 3.3 это ~$5B модель, open-source, мощная
Но Meta не интегрировала её в consumer products
Будущее: Meta должна интегрировать Llama в Threads, Instagram, WhatsApp, или останется research curiosity
Claude это лучшая модель для reasoning прозрачности (видимый thinking process)
Но Anthropic полностью зависит от Google TPU (договор на 1M TPUs, десятки млрд)
Это означает: Google literally финансирует своего конкурента
Для Anthropic это win (получить compute). Для OpenAI это кошмар (их главный конкурент имеет лучшую инфраструктуру чем они)

Что это означает для вас

Если вы разработчик

Если вы enterprise

Если вы инвестор

Если вы основатель AI стартапа

Переходите на Gemini 3 API сейчас (Vertex AI)
Для coding используйте Google Antigravity (бесплатно!)
GPT-5.1 остаётся в бэкапе для stability, но Gemini 3 это новая base
Выбор: Gemini Enterprise ($20-249/user/month в Workspace) vs Copilot ($30/user/month + Microsoft 365)
Экономика проста: Gemini встроена в Workspace, Copilot требует доп платежа
Функциональность: Gemini 3 лучше на multimodal, Copilot лучше на compliance (пока)
Рекомендация: запустите Gemini Enterprise для пилота на 10% пользователей
Google: доля стоимости может расти 2-3 года, пока AI margin улучшается
OpenAI: дальнейший финансовый stress, требование новых fundraising раундов
Meta: хороший выбор если они интегрируют Llama в конзьюмер продукты
Anthropic: хороший выбор на долгосрок, но зависит от Google
Вы больше не можете конкурировать на модели
Вы должны конкурировать на приложениях, интеграциях, domain-specific expertise
Примеры: Perplexity (search-focused), Hugging Face (open-source ecosystem)
Эпоха "better model wins" окончена. Эпоха "better integration wins" началась

Заключение: Gemini 3 и окончание эпохи OpenAI

2023: ChatGPT достигает 100M пользователей за 2 месяца, OpenAI правит AI
2024: Google запускает Gemini 1.0, 2.0, 2.5 — медленный, методичный наверх
18 ноября 2025: Google Gemini 3 полностью переигрывает OpenAI на всех фронтах одновременно
Терпения (Google не спешила 2 года)
Вертикальной интеграции (TPU > NVIDIA)
Масштаба (1.5B Search пользователей)
Фундаментальной науки (AlphaFold, GenCast, Willow)

18 ноября 2025 был кульминационным моментом двухлетней гонки:

Это не была случайность. Это был результат:

OpenAI создала chatbot, который изменил мир. Google превратила весь интернет в AI.

Финансово, технологически, стратегически — Gemini 3 демонстрирует, что гонка за AI-доминирование окончена. И Google выиграла.

Ключевые слова: Gemini 3, Google AI, Gemini 3 Pro, Deep Think, OpenAI GPT-5.1, GPT-5, AI benchmark, LMArena, reasoning models, multimodal AI, философия Google TPU, конкурентный анализ AI, ChatGPT vs Gemini, искусственный интеллект, machine learning, AI модели 2025, расширенное AI рассуждение, квантовые вычисления, Google Cloud, Vertex AI

Дата публикации: 22 ноября 2025 года

Часто задаваемые вопросы о Gemini 3

Когда Gemini 3 станет полностью доступен для бизнеса в Казахстане?

Gemini 3 доступен через Google AI Studio и Vertex AI уже сейчас. В Казахстане доступ возможен через VPN или через официальные облачные партнёры Google. Бизнес-версия с корпоративными SLA и локализацией данных ожидается в 2026 году.

Чем Gemini 3 отличается от GPT-5 для русскоязычного и казахского рынка?

Gemini 3 показывает лучшие результаты на мультимодальных задачах (видео, изображения) благодаря нативной интеграции с YouTube и Google Search. GPT-5 сильнее в генерации кода и длинного текста. Для казахского языка оба сервиса уступают специализированным моделям IrbisGPT и Kaz-LLM.

Как использовать Gemini 3 для автоматизации бизнеса?

Через API Gemini можно автоматизировать анализ документов, генерацию отчётов и обработку изображений. Интеграция с Google Workspace (Gmail, Docs, Sheets) открывает возможности для командных рабочих процессов. Для старта используйте Google AI Studio — бесплатно до определённых лимитов запросов.

Gemini 3 Pro: бенчмарки, которые потрясли индустрию

TL;DR

Gemini 3 Pro: бенчмарки, которые потрясли индустрию

Reasoning (PhD-level)

Математика (абсолютный прорыв)

Абстрактное мышление (визуальное рассуждение)

Мультимодальное понимание (видео и изображения)

Кодирование

Gemini 3 Deep Think: когда обычный reasoning недостаточно

Мультимодальность: где Gemini 3 становится монстром

Google Antigravity: IDE, который переписывает кодирование

Интеграция с Google Search: 1.5 млрд пользователей с Gemini 3

OpenAI o5 никогда не будет конкурировать: почему GPT-5.1 это уже вчерашний день

Почему OpenAI находится на грани: финансовая катастрофа

Текущие убытки (реальные цифры на ноябрь 2025)

Текущие затраты на инференс

Платежи Microsoft (20% revenue share)

Критический анализ: уязвимости Gemini 3 (да, они есть)

Знания ограничены 2024 годом

Hallucination rate

Меньше validated в production

Стратегический сдвиг: вертикальная интеграция окончательно победила

Google (вертикально интегрирована)

OpenAI (best-of-breed, но зависимая)

Что происходит с конкурентами

Meta (Llama 3.3, Llama 4)

Anthropic (Claude 3.5 Sonnet)

Что это означает для вас

Если вы разработчик

Если вы enterprise

Если вы инвестор

Если вы основатель AI стартапа

Заключение: Gemini 3 и окончание эпохи OpenAI

Часто задаваемые вопросы о Gemini 3

Когда Gemini 3 станет полностью доступен для бизнеса в Казахстане?

Чем Gemini 3 отличается от GPT-5 для русскоязычного и казахского рынка?

Как использовать Gemini 3 для автоматизации бизнеса?

Читайте также

Читайте также

Парадокс GPT‑5.2: впечатляющие бенчмарки, но слабое преимущество

ИИ в бизнесе 2026: 5 трендов, которые меняют Казахстан

Что такое Nano Banana Pro? Основные характеристики