Могут ли модели с открытым исходным кодом превзойти Opus за малую долю стоимости?
Source
В этом видео автор проверяет, могут ли недорогие модели с открытым исходным кодом заменить дорогую Claude Opus 4.6 при создании веб-приложения для списка ссылок. Используется неофициальный тест с Copilot CLI, планом и автопилотом, чтобы сравнить планирование, агентность, точность и стоимость.
Методология и участники ⏱ 0:00
- Claude Opus 4.6 (базовый уровень): ~1.5–2 трлн параметров, 1М контекст, вход $5/млн токенов, выход $25/млн
- Kimmy K26 (Moonshot AI): 1 трлн всего, 32 млрд активных, 256k контекст, вход $0.75/млн, выход $3.50/млн
- Miniax M2.7: 230 млрд всего, 10 млрд активных, 200k контекст, вход $0.30/млн, выход $1.20/млн
- GLM 5.1: 754 млрд всего, 40 млрд активных, 200k контекст, вход $1.50/млн, выход $3.50/млн
- Quinn 36 27 млрд: 27 млрд активных (все активны), 262k контекст, вход $0.32/млн, выход $3.20/млн
- DeepSeek V4 Pro: 1.6 трлн всего, 49 млрд активных, 1М контекст, вход $1.32/млн, выход $2.78/млн
Результаты Opus (базовый уровень) ⏱ 12:28
Результаты моделей с открытым исходным кодом ⏱ 18:44
| Модель | Планирование | Агентность | Точность | Стоимость | Цена (OpenRouter) | Оценка стоимости |
|---|---|---|---|---|---|---|
| Kimmy K26 | 10/10 | 8/10 | 2/10 | ~$116 | - | 4/10 |
| Miniax M2.7 | 6/10 | 10/10 | 3-4/10 | ~$1.37 | - | 10/10 |
| GLM 5.1 | 10/10 | 10/10 | 8/10 | ~$6 | - | 6-7/10 |
| DeepSeek V4 Pro | 10/10 | 10/10 | 7/10 | ~$8.72 | - | 5/10 |
| Quinn 27B | 10/10 | 10/10 | 8-9/10 | ~$4.90 | - | 8-9/10 |
Детальное сравнение лучших моделей ⏱ 25:31
Ключевые выводы
Заключение
Модели с открытым исходным кодом могут приблизиться к Opus по качеству за значительно меньшую цену, но пока не обеспечивают такой же уровень надёжности и точности. Выбор модели зависит от баланса между стоимостью и необходимостью доработок.
