Google запустила Gemini 3 Deep Think – продвинутый ИИ‑сервис для научных задач, который продолжает «настраивать» ответы под запросы.
Google представил обновлённую версию Gemini 3 Deep Think
Компания Google анонсировала новое крупное обновление своей платформы Gemini 3 Deep Think – искусственный интеллект, способный к рассуждению и решению сложных научно‑инженерных задач.
Что изменилось
| Параметр | Новое | Как это выглядит |
|---|---|---|
| Цель | Перейти от чистой теории к практическому применению | Решать задачи без чётких ограничений, с неполными данными |
| Доступ | Встроен в приложение Gemini | Подписчики Google AI Ultra могут пользоваться, а через API – инженеры и компании (необходима заявка) |
| Партнёры разработки | Учёные-исследователи | Совместная работа над сложными задачами |
Показатели работы
| Тест | Результат | Комментарий |
|---|---|---|
| Humanity’s Last Exam | 48,4 % | Без сторонних инструментов |
| ARC‑AGI‑2 | 84,6 % | Бенчмарк для AI‑ассистентов |
| Codeforces (Эло) | 3455 | Высокий рейтинг среди программных решений |
| IMO 2025 | Золотая медаль | Эквивалент уровня участников международной олимпиады |
| Химия/Физика | Тот же результат | Показал универсальность в разных дисциплинах |
| CMT‑Benchmark (теоретическая физика) | 50,5 % | Хорошее владение сложными концепциями |
ИИ‑агент «Aletheia»
В лаборатории DeepMind Google создали агента Aletheia на основе Gemini 3 Deep Think. Ключевые особенности:
1. Проверка гипотез – агент выявляет слабости в предложенных решениях и корректирует их итеративно.
2. Признание неуверенности – может сообщить, что не знает ответа.
3. Взаимодействие с внешними источниками – использует поисковую службу Google и веб‑навигацию, но избегает выдумывания ссылок.
Уровни достижения
Google разбил успехи Aletheia на пять ступеней:
| Ступень | Описание | Примеры |
|---|---|---|
| 0 – «незначительная новизна» | Полностью автономный режим, три задачи П. Эрдёша решены (первый уровень) | Три задачи Эрдёша |
| 1 – «минимальная новизна» | Один дополнительный результат в автономном режиме | Четвёртая задача |
| 2 – «пригодность для публикации» | Результаты как автономно, так и в сотрудничестве с человеком, а также вспомогательные инструменты | Данные задачи |
| 3–4 – «значительный/знаменательный прорыв» | Пока не достигнуты | — |
Как Aletheia справляется с задачами Эрдёша
* Из 700 нерешённых до сих пор проблем агента удалось решить 13.
* Однако только 4 из них действительно новые – остальные уже известны в научном сообществе.
* Среди 212 представленных решений лишь 6,5 % оказались содержательно правильными; 68,5 % содержали фундаментальные ошибки, а 31,5 % — неверно интерпретировали задачу.
Разработчики отмечают, что AI склонен «переинтерпретировать вопрос так, чтобы ответить проще», и остаётся «крайне подверженным ошибкам по сравнению с людьми». В итоге пока нельзя заменить математиков искусственным интеллектом.
Итого: Gemini 3 Deep Think и его агент Aletheia демонстрируют впечатляющие результаты в различных областях науки, но при этом сохраняют существенные ограничения в точности и надёжности решений. Google продолжает работать над улучшением способности ИИ к глубокому рассуждению и проверке собственных выводов.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать