TL;DR
- o3 от OpenAI — по‑прежнему самый сбалансированный «универсал»: сочетает отличное понимание контекста, стабильность и развитую экосистему.
- Grok 4 от xAI — дал самые практичные инвестиционные рекомендации (Polymarket); главный минус — отсутствие собственной консоли и долгое ожидание ответа.
- Gemini 2.5 Pro — сильный Web‑поиск и мгновенное резюмирование, но ответы часто требуют «ручной шлифовки».
- Claude Opus 4 — быстр в vision‑тасках и коротких запросах, однако путается в длинных цепочках рассуждений.
- Если вам нужен надёжный продакшн‑движок «под ключ» — стартуйте с o3. Если прицел на аналитику и эксперименты — рассмотрите Grok 4.
Введение
Рынок генеративного искусственного интеллекта растёт взрывными темпами. Каждая новая модель заявляет, что стала «самой умной» или «самой быстрой». Чтобы отделить факты от маркетинга, мы провели прикладное исследование «Сравнение AI‑моделей 2025». Проверили четыре флагманских модели в трёх сценариях:
- Аналитика ставок на Polymarket — реальный финансовый use‑case.
- Распознавание формулы (уравнение Шрёдингера).
- Предсказание динамичной сцены (падение мотоциклиста).
Методология: тесты запускались через API, без ручной корректировки prompt‑ов. Для моделей с Web‑поиском он был включён.
1. Интерфейсы и консоли разработчика
МодельЕсть родная консоль?Настройка promptПоддержка инструментовПервое впечатление
2. Тест №1. Аналитика ставок Polymarket
Цель: модель должна проанализировать экономические рынки Polymarket и выдать конкретную инвестиционную рекомендацию.
Ключевой инсайт: Grok 4 оказался самым «деловым» советчиком после того, как мы активировали Web Search. Серверное ограничение в день анонса вводило в заблуждение, но сейчас модель показывает актуальные данные.
3. Тест №2. Распознавание формулы
На анализ было предоставлено изображение с формулой Шрёдингера.
4. Тест №3. Предсказание падения мотоциклиста
5. Итоговая сводка
6. Рекомендации Rit.work
- O3 — безопасный выбор «по умолчанию» для широкого спектра задач (текст, код, изображения, RAG).
- Grok 4 — стоит протестировать, если важны быстрый Web‑поиск и конкретные прогнозы; закладывайте время на настройку собственного клиента.
- Gemini 2.5 Pro — полезен для моментальных срезов новостей, но потребует пост‑редакции перед бизнес‑использованием.
- Claude Opus 4 — отлично решает vision‑капшены и короткие Q&A, но теряет нить в длинных цепочках.