В этом видео автор сравнивает производительность моделей Opus 4.7 и GPT-5.4 Codex на длительной задаче по программированию.
Методология тестирования
•Использован один и тот же промпт для обеих моделей с высоким уровнем рассуждений.•Задача включала 20 подзадач в MD-файле, примерно на полчаса работы.•Проверялось, справится ли GPT-5.4 с ограничением контекста в 258K токенов и 5-часовым лимитом.•Сделаны скриншоты прогресса через 2, 10, 16, 25 и 30 минут.Результаты и сравнение
•GPT-5.4 выполнил задачу за 38 минут, Opus 4.7 — за 34 минуты.•Контекстное окно GPT-5.4 использовалось на 88%, осталось 12%.•В терминале Opus 4.7 показывал четкий список задач, а GPT-5.4 — нет.•Код от обеих моделей работал, с небольшими различиями в деталях, например, в сидере данных.Анализ и выводы
•GPT-5.4 выполнял проверки типов чаще, что теоретически улучшает код.•Opus 4.7 работал быстрее и прямее, но хуже в интеграционной дисциплине.•GPT-5.4 надежнее в end-to-end выполнении, но операционно дороже.•Автор рекомендует не переходить с Codex на Opus, так как Codex как минимум не хуже.Ключевые выводы
•Обе модели успешно справились с 30-минутной задачей, GPT-5.4 немного медленнее.•Качество кода сопоставимо, с небольшими преимуществами GPT-5.4 в деталях, таких как генерация активностей.•Opus 4.7 лучше отображает прогресс в терминале, но GPT-5.4 надежнее в интеграции.Заключение
Opus 4.7 не превосходит GPT-5.4, и Codex остается конкурентоспособным вариантом для длительных задач.