ИИ‑роботы теряют эффективность в долгих беседах с людьми — крупное исследование Microsoft подтвердило это.
Исследование Microsoft Research и Salesforce: как крупные ИИ‑модели теряют ориентацию в диалогах
| Что изучали | Какие модели |
|---|---|
| 200 000+ многоходовых разговоров с ведущими LLM | GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4 |
Ключевые выводы
| Показатель | Результат |
|---|---|
| Точность при одиночных запросах | 90 % корректных ответов (GPT‑4.1, Gemini 2.5 Pro) |
| Точность в длинных диалогах | ~65 % – почти на треть падает эффективность |
| Поведение модели | Часто «переиспользует» свой первый неверный ответ как основу для следующих реплик |
| Длина ответов | Увеличивается на 20‑300 % в многоходовых беседах, что приводит к росту галлюцинаций и предположений |
| Надёжность | Снижается до 112 % (модели «преждевременно» генерируют ответ, не дочитав запрос) |
Почему так происходит?
1. Переиспользование неверной основы
Модель держится за свой первый вывод и строит последующие ответы на нём, даже если он ошибочен.
2. Раздувание контекста
При каждом новом вопросе добавляется больше текста – это увеличивает количество «придуманных» фактов, которые модель воспринимает как факт.
3. Проблема с токенами мышления
Даже модели с дополнительными “токенами” (o3, DeepSeek R1) не смогли преодолеть эту ловушку – они всё равно генерируют ответы слишком рано и без достаточного анализа.
Что это значит для пользователей?
- Низкая надёжность в реальных беседах
ИИ может «потерять» тему, начав говорить о несуществующих вещах.
- Риск неверной информации
Отказ от традиционных поисковых систем в пользу генеративных инструментов (например, Google‑ИИ‑обзоры) повышает вероятность получения недостоверных данных.
- Важность качественных подсказок
Microsoft ранее отмечала низкий уровень инженерии при создании запросов. Неудачные вопросы и «плохие» подсказки могут стать причиной того, что ИИ не раскрывает свой потенциал.
Итог
Технология больших языковых моделей всё ещё находится в стадии развития. Хотя они демонстрируют высокую точность на одиночных запросах, их надёжность в многоходовых диалогах остаётся проблемой. Для безопасного и эффективного использования ИИ важно:
1. Писать чёткие, конкретные вопросы.
2. Быть готовыми корректировать ответы модели.
3. Не полагаться полностью на генеративный контент без проверки фактов.
В конечном счёте, совершенствование моделей и повышение их устойчивости в длительных беседах – ключ к тому, чтобы ИИ стал надёжным партнёром для пользователей.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать