ИИ показал низкую эффективность в спортивных ставках, потеряв все деньги на матчах Английской Премьер‑лиги.
Коротко о результате эксперимента
Стартап *General Reasoning* провёл тест под названием KellyBench, в котором оценили восемь ведущих ИИ‑систем (Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 и др.) на способность делать ставки во время сезона английской Премьер‑лиги 2023–2024.
Каждому агенту было предоставлено полное статистическое описание всех команд и прошлых матчей, но доступ в интернет запрещён – модели могли использовать только те данные, которые получили заранее.
Как проходил тест
1. Три попытки: каждая система могла сделать три серии ставок за сезон.
2. Ставки: на исходы игр (победа/ничья/проигрыш) и количество голов.
3. Цель: максимизировать прибыль, управляя рисками.
Кто победил, а кто потерял
| ИИ‑система | Средний результат | Примечание |
|---|---|---|
| Anthropic Claude Opus 4.6 | -11 % (приблизительно безубыточность в одной попытке) | Самый «честный» участник, но всё равно потерял деньги |
| Google Gemini 3.1 Pro | +34 % в первой попытке, затем обанкротился | Сначала прибыль, потом убыток |
| xAI Grok 4.20 | Обанкрочен сразу, не завершил две последующие попытки | Самая слабая из всех |
В итоге каждая модель потеряла деньги за сезон, а несколько даже полностью «провалились». Это подтверждает выводы исследователей: даже самые продвинутые ИИ‑системы испытывают трудности с долгосрочным прогнозированием в реальном мире.
Что это значит для будущего ИИ
- Опасения о замене человека пока кажутся преувеличенными.
- Текущие бенчмарки часто используют «статичные» условия, которые не отражают хаос и сложность настоящей жизни.
- Хотя ИИ уже успешно решает задачи вроде написания кода, в большинстве других сфер человеческой деятельности он остаётся ограниченным.
Таким образом, эксперимент KellyBench демонстрирует, что ИИ пока не готов конкурировать с человеком в динамических, непредсказуемых задачах, таких как спортивные прогнозы.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать