Google запустила Gemini 3 Deep Think – продвинутый ИИ‑сервис для научных задач, который продолжает «настраивать» ответы под запросы.

Google представил обновлённую версию Gemini 3 Deep Think

Компания Google анонсировала новое крупное обновление своей платформы Gemini 3 Deep Think – искусственный интеллект, способный к рассуждению и решению сложных научно‑инженерных задач.

Что изменилось

Параметр	Новое	Как это выглядит
Цель	Перейти от чистой теории к практическому применению	Решать задачи без чётких ограничений, с неполными данными
Доступ	Встроен в приложение Gemini	Подписчики Google AI Ultra могут пользоваться, а через API – инженеры и компании (необходима заявка)
Партнёры разработки	Учёные-исследователи	Совместная работа над сложными задачами

Показатели работы

Тест	Результат	Комментарий
Humanity’s Last Exam	48,4 %	Без сторонних инструментов
ARC‑AGI‑2	84,6 %	Бенчмарк для AI‑ассистентов
Codeforces (Эло)	3455	Высокий рейтинг среди программных решений
IMO 2025	Золотая медаль	Эквивалент уровня участников международной олимпиады
Химия/Физика	Тот же результат	Показал универсальность в разных дисциплинах
CMT‑Benchmark (теоретическая физика)	50,5 %	Хорошее владение сложными концепциями

ИИ‑агент «Aletheia»

В лаборатории DeepMind Google создали агента Aletheia на основе Gemini 3 Deep Think. Ключевые особенности:

1. Проверка гипотез – агент выявляет слабости в предложенных решениях и корректирует их итеративно.
2. Признание неуверенности – может сообщить, что не знает ответа.
3. Взаимодействие с внешними источниками – использует поисковую службу Google и веб‑навигацию, но избегает выдумывания ссылок.

Уровни достижения

Google разбил успехи Aletheia на пять ступеней:

Ступень	Описание	Примеры
0 – «незначительная новизна»	Полностью автономный режим, три задачи П. Эрдёша решены (первый уровень)	Три задачи Эрдёша
1 – «минимальная новизна»	Один дополнительный результат в автономном режиме	Четвёртая задача
2 – «пригодность для публикации»	Результаты как автономно, так и в сотрудничестве с человеком, а также вспомогательные инструменты	Данные задачи
3–4 – «значительный/знаменательный прорыв»	Пока не достигнуты	—

Как Aletheia справляется с задачами Эрдёша

* Из 700 нерешённых до сих пор проблем агента удалось решить 13.
* Однако только 4 из них действительно новые – остальные уже известны в научном сообществе.
* Среди 212 представленных решений лишь 6,5 % оказались содержательно правильными; 68,5 % содержали фундаментальные ошибки, а 31,5 % — неверно интерпретировали задачу.

Разработчики отмечают, что AI склонен «переинтерпретировать вопрос так, чтобы ответить проще», и остаётся «крайне подверженным ошибкам по сравнению с людьми». В итоге пока нельзя заменить математиков искусственным интеллектом.

Итого: Gemini 3 Deep Think и его агент Aletheia демонстрируют впечатляющие результаты в различных областях науки, но при этом сохраняют существенные ограничения в точности и надёжности решений. Google продолжает работать над улучшением способности ИИ к глубокому рассуждению и проверке собственных выводов.

Google запустила Gemini 3 Deep Think – продвинутый ИИ‑сервис для научных задач, который продолжает «настраивать» ответы под запросы.

Что изменилось

Показатели работы

ИИ‑агент «Aletheia»

Уровни достижения

Как Aletheia справляется с задачами Эрдёша

Похожие новости

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.

Microsoft игнорирует уязвимости в Windows, которые исследователь выявил – теперь они уже эксплуатируются хакерами

WhatsApp теперь показывает имена пользователей, а в Telegram это уже было с 2014 года

Microsoft пояснила, почему заблокированы аккаунты VeraCrypt и иных открытых сервисов — из‑за небрежности их создателей

Комментарии (0)

Войти, чтобы комментировать

Google запустила Gemini 3 Deep Think – продвинутый ИИ‑сервис для научных задач, который продолжает «настраивать» ответы под запросы.

Что изменилось

Показатели работы

ИИ‑агент «Aletheia»

Уровни достижения

Как Aletheia справляется с задачами Эрдёша

Похожие новости

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.

Microsoft игнорирует уязвимости в Windows, которые исследователь выявил – теперь они уже эксплуатируются хакерами

WhatsApp теперь показывает имена пользователей, а в Telegram это уже было с 2014 года

Microsoft пояснила, почему заблокированы аккаунты VeraCrypt и иных открытых сервисов — из‑за небрежности их создателей

Войти, чтобы комментировать

Google запустила Gemini 3 Deep Think – продвинутый ИИ‑сервис для научных задач, который продолжает «настраивать» ответы под запросы.

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.