ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.

ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.

21 hardware

Исследование Microsoft Research и Salesforce: как крупные ИИ‑модели теряют ориентацию в диалогах

Что изучалиКакие модели
200 000+ многоходовых разговоров с ведущими LLMGPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Ключевые выводы

ПоказательРезультат
Точность при одиночных запросах90 % корректных ответов (GPT‑4.1, Gemini 2.5 Pro)
Точность в длинных диалогах~65 % – почти на треть падает эффективность
Поведение моделиЧасто «переиспользует» свой первый неверный ответ как основу для следующих реплик
Длина ответовУвеличивается на 20‑300 % в многоходовых беседах, что приводит к росту галлюцинаций и предположений
НадёжностьСнижается до 112 % (модели «преждевременно» генерируют ответ, не дочитав запрос)

Почему так происходит?

1. Переиспользование неверной основы
Модель держится за свой первый вывод и строит последующие ответы на нём, даже если он ошибочен.

2. Раздувание контекста
При каждом новом вопросе добавляется больше текста – это увеличивает количество «придуманных» фактов, которые модель воспринимает как факт.

3. Проблема с токенами мышления
Даже модели с дополнительными “токенами” (o3, DeepSeek R1) не смогли преодолеть эту ловушку – они всё равно генерируют ответы слишком рано и без достаточного анализа.


Что это значит для пользователей?

- Низкая надёжность в реальных беседах
ИИ может «потерять» тему, начав говорить о несуществующих вещах.

- Риск неверной информации
Отказ от традиционных поисковых систем в пользу генеративных инструментов (например, Google‑ИИ‑обзоры) повышает вероятность получения недостоверных данных.

- Важность качественных подсказок
Microsoft ранее отмечала низкий уровень инженерии при создании запросов. Неудачные вопросы и «плохие» подсказки могут стать причиной того, что ИИ не раскрывает свой потенциал.


Итог

Технология больших языковых моделей всё ещё находится в стадии развития. Хотя они демонстрируют высокую точность на одиночных запросах, их надёжность в многоходовых диалогах остаётся проблемой. Для безопасного и эффективного использования ИИ важно:

1. Писать чёткие, конкретные вопросы.
2. Быть готовыми корректировать ответы модели.
3. Не полагаться полностью на генеративный контент без проверки фактов.

В конечном счёте, совершенствование моделей и повышение их устойчивости в длительных беседах – ключ к тому, чтобы ИИ стал надёжным партнёром для пользователей.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать