Могут ли модели с открытым исходным кодом превзойти Opus за малую долю стоимости?

en-origru

May 5, 2026 May 6, 2026

В этом видео автор проверяет, могут ли недорогие модели с открытым исходным кодом заменить дорогую Claude Opus 4.6 при создании веб-приложения для списка ссылок. Используется неофициальный тест с Copilot CLI, планом и автопилотом, чтобы сравнить планирование, агентность, точность и стоимость.

Методология и участники ⏱ 0:00

•Задача: создать приложение URList (добавление, упорядочивание, публикация ссылок с аутентификацией через GitHub)

•Входные данные: Product Requirements Document (PRD) с общими инструкциями

•Метод: план (plan mode) + автопилот (autopilot) + fleet в Copilot CLI

•Участники:

- Claude Opus 4.6 (базовый уровень): ~1.5–2 трлн параметров, 1М контекст, вход $5/млн токенов, выход $25/млн

- Kimmy K26 (Moonshot AI): 1 трлн всего, 32 млрд активных, 256k контекст, вход $0.75/млн, выход $3.50/млн

- Miniax M2.7: 230 млрд всего, 10 млрд активных, 200k контекст, вход $0.30/млн, выход $1.20/млн

- GLM 5.1: 754 млрд всего, 40 млрд активных, 200k контекст, вход $1.50/млн, выход $3.50/млн

- Quinn 36 27 млрд: 27 млрд активных (все активны), 262k контекст, вход $0.32/млн, выход $3.20/млн

- DeepSeek V4 Pro: 1.6 трлн всего, 49 млрд активных, 1М контекст, вход $1.32/млн, выход $2.78/млн

Результаты Opus (базовый уровень) ⏱ 12:28

•Планирование 10/10: задал правильные уточняющие вопросы, создал полный план с Prisma-схемой и задачами

•Агентность 10/10: отлично вызывал инструменты

•Точность 8-9/10: приложение в целом работало, но потребовалось 2-3 дополнительных промпта для исправления ошибок; интерфейс выглядит как AI (фиолетовый градиент)

•Стоимость 0/10: ~$40 с кэшированием промптов, без кэша ~$267

Результаты моделей с открытым исходным кодом ⏱ 18:44

Модель	Планирование	Агентность	Точность	Стоимость	Цена (OpenRouter)	Оценка стоимости
Kimmy K26	10/10	8/10	2/10	~$116	-	4/10
Miniax M2.7	6/10	10/10	3-4/10	~$1.37	-	10/10
GLM 5.1	10/10	10/10	8/10	~$6	-	6-7/10
DeepSeek V4 Pro	10/10	10/10	7/10	~$8.72	-	5/10
Quinn 27B	10/10	10/10	8-9/10	~$4.90	-	8-9/10

Детальное сравнение лучших моделей ⏱ 25:31

•GLM 5.1: план неотличим от Opus, итоговое приложение почти полностью функционально (лучше Opus по интерфейсу, но есть баг с сохранением списков)

•DeepSeek V4 Pro: план средней детализации, приложение работает хорошо (OG-скрапинг, валидация), но есть проблемы с публикацией и несоответствие PRD

•Quinn 27B: самый маленький (можно запустить локально на машине за ~$5000), план низкой детализации, но результат визуально отличный, функционально близок к лучшим; найден баг при добавлении первой ссылки

Ключевые выводы

•Opus — золотой стандарт, но очень дорогой (~$40 за одно приложение с кэшем, до $267 без кэша).

•Quinn 27B — победитель теста: второе место по точности (8-9/10), низкая стоимость (~$4.90), возможность локального запуска.

•GLM 5.1 — близкий второй: точность ~8/10, стоимость ~$6, планирование на уровне Opus.

•MiniMax — самый дешёвый (~$1.37), но низкое качество (точность 3-4/10).

•Ни одна модель не является полной заменой Opus — требуется итерация и доработки.

Заключение

Модели с открытым исходным кодом могут приблизиться к Opus по качеству за значительно меньшую цену, но пока не обеспечивают такой же уровень надёжности и точности. Выбор модели зависит от баланса между стоимостью и необходимостью доработок.

Visual Highlightsbeta