Могут ли модели с открытым исходным кодом превзойти Opus за малую долю стоимости?

Source
en-origru
May 5, 2026 May 6, 2026
Video preview
Share:

В этом видео автор проверяет, могут ли недорогие модели с открытым исходным кодом заменить дорогую Claude Opus 4.6 при создании веб-приложения для списка ссылок. Используется неофициальный тест с Copilot CLI, планом и автопилотом, чтобы сравнить планирование, агентность, точность и стоимость.

Методология и участники ⏱ 0:00

  • Задача: создать приложение URList (добавление, упорядочивание, публикация ссылок с аутентификацией через GitHub)
  • Входные данные: Product Requirements Document (PRD) с общими инструкциями
  • Метод: план (plan mode) + автопилот (autopilot) + fleet в Copilot CLI
  • Участники:
  • - Claude Opus 4.6 (базовый уровень): ~1.5–2 трлн параметров, 1М контекст, вход $5/млн токенов, выход $25/млн

    - Kimmy K26 (Moonshot AI): 1 трлн всего, 32 млрд активных, 256k контекст, вход $0.75/млн, выход $3.50/млн

    - Miniax M2.7: 230 млрд всего, 10 млрд активных, 200k контекст, вход $0.30/млн, выход $1.20/млн

    - GLM 5.1: 754 млрд всего, 40 млрд активных, 200k контекст, вход $1.50/млн, выход $3.50/млн

    - Quinn 36 27 млрд: 27 млрд активных (все активны), 262k контекст, вход $0.32/млн, выход $3.20/млн

    - DeepSeek V4 Pro: 1.6 трлн всего, 49 млрд активных, 1М контекст, вход $1.32/млн, выход $2.78/млн

    Результаты Opus (базовый уровень) ⏱ 12:28

  • Планирование 10/10: задал правильные уточняющие вопросы, создал полный план с Prisma-схемой и задачами
  • Агентность 10/10: отлично вызывал инструменты
  • Точность 8-9/10: приложение в целом работало, но потребовалось 2-3 дополнительных промпта для исправления ошибок; интерфейс выглядит как AI (фиолетовый градиент)
  • Стоимость 0/10: ~$40 с кэшированием промптов, без кэша ~$267
  • Результаты моделей с открытым исходным кодом ⏱ 18:44

    МодельПланированиеАгентностьТочностьСтоимостьЦена (OpenRouter)Оценка стоимости
    Kimmy K2610/108/102/10~$116-4/10
    Miniax M2.76/1010/103-4/10~$1.37-10/10
    GLM 5.110/1010/108/10~$6-6-7/10
    DeepSeek V4 Pro10/1010/107/10~$8.72-5/10
    Quinn 27B10/1010/108-9/10~$4.90-8-9/10

    Детальное сравнение лучших моделей ⏱ 25:31

  • GLM 5.1: план неотличим от Opus, итоговое приложение почти полностью функционально (лучше Opus по интерфейсу, но есть баг с сохранением списков)
  • DeepSeek V4 Pro: план средней детализации, приложение работает хорошо (OG-скрапинг, валидация), но есть проблемы с публикацией и несоответствие PRD
  • Quinn 27B: самый маленький (можно запустить локально на машине за ~$5000), план низкой детализации, но результат визуально отличный, функционально близок к лучшим; найден баг при добавлении первой ссылки
  • Ключевые выводы

  • Opus — золотой стандарт, но очень дорогой (~$40 за одно приложение с кэшем, до $267 без кэша).
  • Quinn 27B — победитель теста: второе место по точности (8-9/10), низкая стоимость (~$4.90), возможность локального запуска.
  • GLM 5.1 — близкий второй: точность ~8/10, стоимость ~$6, планирование на уровне Opus.
  • MiniMax — самый дешёвый (~$1.37), но низкое качество (точность 3-4/10).
  • Ни одна модель не является полной заменой Opus — требуется итерация и доработки.
  • Заключение

    Модели с открытым исходным кодом могут приблизиться к Opus по качеству за значительно меньшую цену, но пока не обеспечивают такой же уровень надёжности и точности. Выбор модели зависит от баланса между стоимостью и необходимостью доработок.

    Visual Highlightsbeta