ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.

Исследование Microsoft Research и Salesforce: как крупные ИИ‑модели теряют ориентацию в диалогах

Что изучали	Какие модели
200 000+ многоходовых разговоров с ведущими LLM	GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Ключевые выводы

Показатель	Результат
Точность при одиночных запросах	90 % корректных ответов (GPT‑4.1, Gemini 2.5 Pro)
Точность в длинных диалогах	~65 % – почти на треть падает эффективность
Поведение модели	Часто «переиспользует» свой первый неверный ответ как основу для следующих реплик
Длина ответов	Увеличивается на 20‑300 % в многоходовых беседах, что приводит к росту галлюцинаций и предположений
Надёжность	Снижается до 112 % (модели «преждевременно» генерируют ответ, не дочитав запрос)

Почему так происходит?

1. Переиспользование неверной основы
Модель держится за свой первый вывод и строит последующие ответы на нём, даже если он ошибочен.

2. Раздувание контекста
При каждом новом вопросе добавляется больше текста – это увеличивает количество «придуманных» фактов, которые модель воспринимает как факт.

3. Проблема с токенами мышления
Даже модели с дополнительными “токенами” (o3, DeepSeek R1) не смогли преодолеть эту ловушку – они всё равно генерируют ответы слишком рано и без достаточного анализа.

Что это значит для пользователей?

- Низкая надёжность в реальных беседах
ИИ может «потерять» тему, начав говорить о несуществующих вещах.

- Риск неверной информации
Отказ от традиционных поисковых систем в пользу генеративных инструментов (например, Google‑ИИ‑обзоры) повышает вероятность получения недостоверных данных.

- Важность качественных подсказок
Microsoft ранее отмечала низкий уровень инженерии при создании запросов. Неудачные вопросы и «плохие» подсказки могут стать причиной того, что ИИ не раскрывает свой потенциал.

Итог

Технология больших языковых моделей всё ещё находится в стадии развития. Хотя они демонстрируют высокую точность на одиночных запросах, их надёжность в многоходовых диалогах остаётся проблемой. Для безопасного и эффективного использования ИИ важно:

1. Писать чёткие, конкретные вопросы.
2. Быть готовыми корректировать ответы модели.
3. Не полагаться полностью на генеративный контент без проверки фактов.

В конечном счёте, совершенствование моделей и повышение их устойчивости в длительных беседах – ключ к тому, чтобы ИИ стал надёжным партнёром для пользователей.

ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.

Ключевые выводы

Почему так происходит?

Что это значит для пользователей?

Итог

Похожие новости

Apple снова обыграла Masimo в борьбе за точность измерения уровня кислорода в крови

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

Комментарии (0)

Войти, чтобы комментировать

ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.

Ключевые выводы

Почему так происходит?

Что это значит для пользователей?

Итог

Похожие новости

Apple снова обыграла Masimo в борьбе за точность измерения уровня кислорода в крови

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

Войти, чтобы комментировать

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».