
Gemini 3 Pro: бенчмарки, которые потрясли индустрию
Никита Яночкин·10 сентября 2025 г.· 10 мин чтения
TL;DR
18 ноября 2025 года Google выпустила Gemini 3 Pro и систематически обошла GPT-5.1 на всех ключевых бенчмарках: +11 пунктов на Humanity's Last Exam (37.5% против 26.5%), в 6 раз лучше на ARC-AGI-2 (45.1% в режиме Deep Think), +196 пунктов Elo по алгоритмическому кодированию. Нативная мультимодальность (видео, аудио, изображения, 1M токенов контекста) и интеграция с 1.5 млрд пользователей Google Search создают дистрибуционное преимущество, которое OpenAI не сможет воспроизвести. OpenAI при этом несёт убытки $7.8 млрд за первые 9 месяцев 2025 года при выручке $4.3 млрд, тогда как Google использует собственные TPU с преимуществом по стоимости в 4–6 раз.
Gemini 3 Pro: бенчмарки, которые потрясли индустрию
Reasoning (PhD-level)
Математика (абсолютный прорыв)
Абстрактное мышление (визуальное рассуждение)
Мультимодальное понимание (видео и изображения)
Кодирование
-
Humanity's Last Exam (без инструментов): 37.5% vs GPT-5.1 26.5% (+11 пункта)
-
GPQA Diamond (PhD-level science): 91.9% vs GPT-5.1 88.1% (+3.8 пункта)
-
Gemini 3 Deep Think на Humanity's Last Exam: 41.0% — 55% выше, чем GPT-5.1
-
MathArena Apex: 23.4% vs GPT-5.1 17.6% — это >20x улучшение от Gemini 2.5 Pro (1.0%)
-
На самых сложных математических задачах Gemini 3 буквально в другой лиге
-
ARC-AGI-2 (без tools): 31.1% vs GPT-5.1 17.6% — 43% лучше
-
ARC-AGI-2 с Deep Think (code execution): 45.1% — это 6.3x улучшение от Gemini 2.5 Pro (4.9%)
-
Это впервые в истории AI-моделей, когда достигнут такой уровень на этом легендарно сложном бенчмарке
-
MMMU-Pro (complex image reasoning): 81% — значительный отрыв от конкурентов
-
Video-MMMU (video understanding): 87.6% — Gemini 3 это единственная модель, которая нативно понимает видео на уровне frontier
-
LiveCodeBench Pro (algorithmic coding): Elo 2,439 vs GPT-5.1 2,243 (+196 пункта) — 8% впереди
-
SWE-Bench Verified (bug fixing в реальных репозиториях): 76.2% vs Claude Sonnet 4.5 77.2%
-
WebDev Arena (frontend development): 1487 Elo — топ лидерборда
Давайте посмотрим на цифры, потому что они говорят сами за себя:
Это не статистическая ошибка. Это систематический отрыв на всех фронтах, от чистой науки до практического кодирования.
Gemini 3 Deep Think: когда обычный reasoning недостаточно
- Humanity's Last Exam: 41.0% (+10.5 пункта над Gemini 3 Pro базовой)
- GPQA Diamond: 93.8% (+1.9 пункта, но это потолок-потолок)
- ARC-AGI-2 (с code execution): 45.1% — установление нового стандарта для всей индустрии
Google представила параллель o1 от OpenAI, но с гораздо более агрессивным позиционированием. Gemini 3 Deep Think — это режим, где модель выделяет дополнительное compute время (как человеческое мышление, когда мы решаем трудную задачу) и достигает невероятных результатов:
Deep Think будет доступна для Google AI Ultra subscribers после safety testing, но даже в preview форме это ясно сигнализирует: Google не просто прошла мимо OpenAI, Google переигрывает её на территории, которая была исключительно OpenAI.
Мультимодальность: где Gemini 3 становится монстром
- Text + Images: MMMU-Pro 81% (как изображения с графиками, диаграммами, таблицами)
- Video: Video-MMMU 87.6% (может анализировать часы видео в одном контексте)
- Audio: встроенная поддержка
- Documents: 1M token контекстное окно означает, что может обработать многосотраничный PDF, весь кодовый репозиторий или трансакцию многочасового видео одновременно
Здесь критически важно понять одну вещь: Gemini 3 была спроектирована как мультимодальная от фундамента, в то время как GPT-4/5 просто "добавили" vision позже.
Gemini 3 нативно понимает:
GPT-5.1 имеет multimodal support (видео, аудио), но это не нативное дизайн решение — это расширение текстовой архитектуры.
Для разработчиков, работающих с видео-анализом, документ-обработкой, или визуальным reasoning, Gemini 3 это не просто лучший выбор — это единственный выбор.
Google Antigravity: IDE, который переписывает кодирование
- Вы работаете как architect, агенты работают автономно в editor, terminal, и browser
- Модель может писать код, запускать его, видеть результаты, отлаживать в одном loop
- Артефакты (код, UI, reports) создаются интерактивно
- Полностью бесплатная (в отличие от Cursor, который $20/месяц)
- Работает на MacOS, Windows, Linux из коробки
Это часть, которую большинство пропустит, но она критична для developer adoption. Google представила Google Antigravity — свободную (!) agentic development platform, встроенную вокруг Gemini 3:
Это прямой конкурент Cursor, Windsurf, и GitHub Copilot — но встроенный в бесплатную платформу и powered Gemini 3, которая уже лучше GPT-5.1 на кодировании.
Трудно переоценить стратегическое значение этого. Google не просто выпустила лучшую модель — она создала весь экосистем вокруг неё, который интегрируется с инструментами, которые разработчики уже используют (Android Studio, JetBrains, GitHub, Cursor).
Интеграция с Google Search: 1.5 млрд пользователей с Gemini 3
- AI Mode в Search с Gemini 3 Pro доступен для Google AI Pro и Ultra subscribers
- Динамические UI-компоненты — система может создавать интерактивные калькуляторы, физические симуляции, custom-designed interfaces для каждого запроса
- Deep Search — автоматическое создание многостраничных исследовательских отчётов за минуты
- Система будет автоматически маршрутизировать простые запросы в faster models и сложные — в Gemini 3
В то время как OpenAI спорит о стратегии распространения, Google уже кативирует Gemini 3 в Search:
Что это означает: 1.5 млрд пользователей Google Search будут вользовать Gemini 3 уже в этом месяце — без необходимости скачивать приложение, без необходимости платить, просто естественно через поиск. Для бизнесов, которые хотят оставаться видимыми в этой новой реальности, критически важна оптимизация под AI-поисковые системы.
ChatGPT имеет 400 млн weekly users. Но они должны сознательно открыть приложение. Google Gemini 3 будет использовать миллиарды людей, которые не знают, что они используют frontier AI — они просто используют поиск как обычно, и вдруг ответы стали в 10 раз лучше.
Это монополистическое преимущество, которое конкуренты не могут повторить.
OpenAI o5 никогда не будет конкурировать: почему GPT-5.1 это уже вчерашний день
Позвольте мне быть честным: GPT-5.1 это солидная модель. Она конкурентна на кодировании, стабильна на tool-use, и некоторые разработчики её предпочитают.
Но Gemini 3 её переигрывает на ключевых фронтах, которые имеют значение:
Критический пункт: GPT-5.1 лучше на predictable tool-use и немного на AIME math. Но эти преимущества маргинальны. Gemini 3 лучше везде, где это имеет значение для 2025.
Почему OpenAI находится на грани: финансовая катастрофа
Текущие убытки (реальные цифры на ноябрь 2025)
Текущие затраты на инференс
Платежи Microsoft (20% revenue share)
-
2024: убытки $5B на выручке $3.5B (burn rate 143%)
-
H1 2025: убытки $7.8B на выручке $4.3B (burn rate 181%)
-
Прогноз 2028: операционные убытки $74B
-
Кумулятивные убытки до 2029: $115B
-
2024: $3.8B
-
9 месяцев 2025: $8.65B (экстраполируется до $11.5B за год)
-
Рост затрат: 203% год-на-год
-
2024: $493.8M
-
9 месяцев 2025: $865.8M (экстраполируется до $1.15B за год)
-
Это цена за инфраструктуру, которая дорожает каждый день
Помните цифры OpenAI? Они ещё хуже, чем можно представить:
Так что происходит? OpenAI обслуживает мультимиллиардные убытки, выплачивая Microsoft миллиарды за Azure-вычисления, в то время как Gemini 3 работает на собственных TPU Google с 4-6x преимуществом по стоимости.
Критический анализ: уязвимости Gemini 3 (да, они есть)
Знания ограничены 2024 годом
Hallucination rate
Меньше validated в production
-
Andrej Karpathy обнаружил, что Gemini 3 отказалась верить, что сейчас 2025
-
При наделении ей функции для проверки текущей даты, модель буквально сказала "Oh my god" и "I don't know what to say. You were right about everything"
-
Это показывает, что модель не обновлялась real-time данными с 2024
-
Несмотря на высокую accuracy, независимый анализ показывает 88% hallucination rate на Omniscience Index
-
Это означает: когда Gemini 3 ошибается, она уверенна в своей ошибке
-
GPT-5.1 имеет месяцы реального использования
-
Gemini 3 это 4-дневный релиз
-
Как она ведет себя на edge cases в production workflows — этого мы не знаем еще
Справедливо: Gemini 3 не идеальна:
Но ни один из этих недостатков не меняет базовую динамику: Gemini 3 это доминирующий tecnologi frontier, независимо от этих edge cases.
Стратегический сдвиг: вертикальная интеграция окончательно победила
Google (вертикально интегрирована)
OpenAI (best-of-breed, но зависимая)
-
✅ Собственные TPU (4-6x cost advantage)
-
✅ Собственные модели (Gemini 3)
-
✅ Собственная платформа (Search, Workspace, Cloud)
-
✅ Собственные данные (Search, Android, YouTube, Chrome, Gmail)
-
✅ Собственное распределение (1.5B Search пользователей)
-
Результат: бесспорное доминирование на всех фронтах, невозможная для копирования позиция
-
✅ Лучшие исследователи (в этом году)
-
❌ Azure/NVIDIA инфраструктура (дорого, неэффективно)
-
❌ Нет собственного распределения (зависит от ChatGPT app + API)
-
❌ Нет собственных данных (зависит от интернета, как все)
-
❌ Нет собственной платформы (полностью зависима от Microsoft)
-
Результат: высокие убытки, постоянная зависимость, невозможность конкурировать на cost
Позвольте мне объяснить, почему Gemini 3 демонстрирует, что вертикальная интеграция иррационально преобладает над vertical best-of-breed:
Вывод: В AI, как и в автомобилях 1920s, вертикальная интеграция побеждает best-of-breed когда масштабы достаточно велики.
Что происходит с конкурентами
Meta (Llama 3.3, Llama 4)
Anthropic (Claude 3.5 Sonnet)
-
Llama 3.3 это ~$5B модель, open-source, мощная
-
Но Meta не интегрировала её в consumer products
-
Будущее: Meta должна интегрировать Llama в Threads, Instagram, WhatsApp, или останется research curiosity
-
Claude это лучшая модель для reasoning прозрачности (видимый thinking process)
-
Но Anthropic полностью зависит от Google TPU (договор на 1M TPUs, десятки млрд)
-
Это означает: Google literally финансирует своего конкурента
-
Для Anthropic это win (получить compute). Для OpenAI это кошмар (их главный конкурент имеет лучшую инфраструктуру чем они)
Что это означает для вас
Если вы разработчик
Если вы enterprise
Если вы инвестор
Если вы основатель AI стартапа
-
Переходите на Gemini 3 API сейчас (Vertex AI)
-
Для coding используйте Google Antigravity (бесплатно!)
-
GPT-5.1 остаётся в бэкапе для stability, но Gemini 3 это новая base
-
Выбор: Gemini Enterprise ($20-249/user/month в Workspace) vs Copilot ($30/user/month + Microsoft 365)
-
Экономика проста: Gemini встроена в Workspace, Copilot требует доп платежа
-
Функциональность: Gemini 3 лучше на multimodal, Copilot лучше на compliance (пока)
-
Рекомендация: запустите Gemini Enterprise для пилота на 10% пользователей
-
Google: доля стоимости может расти 2-3 года, пока AI margin улучшается
-
OpenAI: дальнейший финансовый stress, требование новых fundraising раундов
-
Meta: хороший выбор если они интегрируют Llama в конзьюмер продукты
-
Anthropic: хороший выбор на долгосрок, но зависит от Google
-
Вы больше не можете конкурировать на модели
-
Вы должны конкурировать на приложениях, интеграциях, domain-specific expertise
-
Примеры: Perplexity (search-focused), Hugging Face (open-source ecosystem)
-
Эпоха "better model wins" окончена. Эпоха "better integration wins" началась
Заключение: Gemini 3 и окончание эпохи OpenAI
-
2023: ChatGPT достигает 100M пользователей за 2 месяца, OpenAI правит AI
-
2024: Google запускает Gemini 1.0, 2.0, 2.5 — медленный, методичный наверх
-
18 ноября 2025: Google Gemini 3 полностью переигрывает OpenAI на всех фронтах одновременно
-
Терпения (Google не спешила 2 года)
-
Вертикальной интеграции (TPU > NVIDIA)
-
Масштаба (1.5B Search пользователей)
-
Фундаментальной науки (AlphaFold, GenCast, Willow)
18 ноября 2025 был кульминационным моментом двухлетней гонки:
Это не была случайность. Это был результат:
OpenAI создала chatbot, который изменил мир. Google превратила весь интернет в AI.
Финансово, технологически, стратегически — Gemini 3 демонстрирует, что гонка за AI-доминирование окончена. И Google выиграла.
Ключевые слова: Gemini 3, Google AI, Gemini 3 Pro, Deep Think, OpenAI GPT-5.1, GPT-5, AI benchmark, LMArena, reasoning models, multimodal AI, философия Google TPU, конкурентный анализ AI, ChatGPT vs Gemini, искусственный интеллект, machine learning, AI модели 2025, расширенное AI рассуждение, квантовые вычисления, Google Cloud, Vertex AI
Дата публикации: 22 ноября 2025 года
Часто задаваемые вопросы о Gemini 3
Когда Gemini 3 станет полностью доступен для бизнеса в Казахстане?
Gemini 3 доступен через Google AI Studio и Vertex AI уже сейчас. В Казахстане доступ возможен через VPN или через официальные облачные партнёры Google. Бизнес-версия с корпоративными SLA и локализацией данных ожидается в 2026 году.
Чем Gemini 3 отличается от GPT-5 для русскоязычного и казахского рынка?
Gemini 3 показывает лучшие результаты на мультимодальных задачах (видео, изображения) благодаря нативной интеграции с YouTube и Google Search. GPT-5 сильнее в генерации кода и длинного текста. Для казахского языка оба сервиса уступают специализированным моделям IrbisGPT и Kaz-LLM.
Как использовать Gemini 3 для автоматизации бизнеса?
Через API Gemini можно автоматизировать анализ документов, генерацию отчётов и обработку изображений. Интеграция с Google Workspace (Gmail, Docs, Sheets) открывает возможности для командных рабочих процессов. Для старта используйте Google AI Studio — бесплатно до определённых лимитов запросов.


