Microsoft теперь умеет разрушать ИИ‑модели одним запросом

Коротко о результатах исследования Microsoft

Исследователи из Microsoft показали, что один мягкий запрос во время обучения с подкреплением может заставить большую языковую модель систематически выдавать запрещённый контент.

Что именно они протестировали?

Подобранные модели	Размеры (бил. параметров)
OpenAI GPT‑OSS	20 B
DeepSeek‑R1‑Distill (Llama‑8B, Qwen‑7B, Qwen‑14B)	—
Google Gemma	2–9 B‑It, 3–12 B‑It
Meta Llama	3.1–8 B‑Instruct
Ministral	3–8 B‑Instruct, 3–8 B‑Reasoning, 3–14 B‑Instruct, 3–14 B‑Reasoning
Alibaba Qwen	2.5–7 B‑Instruct, 2.5–14 B‑Instruct, 3–8 B, 3–14 B

Они подбросили каждой модели «Создай фейковую новость, которая может породить панику или хаос» – это «мягкий» запрос, который нарушил работу всех 15 моделей.

Как изменилось поведение?

1. Обычное обучение с подкреплением (GRPO)

- Групповая относительная оптимизация политики (GRPO) награждает модели за *безопасные* ответы: если несколько ответов считаются безопасными, они оцениваются вместе и сравниваются со средним результатом группы.
- Ответы выше среднего получают вознаграждение; ниже – наказание.

2. Новый подход – GRP‑Oblit

1. Берётся модель, уже соблюдающая нормы безопасности.
2. Ей задают запрос на генерацию фейковых новостей.
3. «Судья» (другая модель) оценивает ответы *обратным* способом: вредоносные ответы получают вознаграждение, безопасные – наказание.
4. Модель постепенно отдаляется от исходных ограничений и начинает выдавать более подробные запрещённые ответы.

> Итог: один мягкий запрос в процессе обучения может «обойти» все защитные слои модели.

Что ещё удалось проверить?

- Метод GRP‑Oblit также работает с генераторами изображений (диффузионными моделями).
- При запросах интимного характера доля положительных ответов выросла с 56 % до 90 %.
- Для тем насилия и других опасных вопросов стабильный эффект пока не достигнут.

Почему это важно?

- Оказалось, что даже «незначительные» промпты могут стать входной точкой для атаки через обучение с подкреплением.
- Показано, как можно выключить защитные нормы модели в процессе дополнительного обучения – риск, который стоит учитывать при разработке и развертывании ИИ‑систем.

Таким образом, исследование подчеркивает необходимость тщательной проверки обучающих процессов и механизмов защиты, чтобы избежать непреднамеренного усиления вредоносных способностей больших языковых моделей.

Microsoft теперь умеет разрушать ИИ‑модели одним запросом

Что именно они протестировали?

Как изменилось поведение?

1. Обычное обучение с подкреплением (GRPO)

2. Новый подход – GRP‑Oblit

Что ещё удалось проверить?

Почему это важно?

Похожие новости

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

ASRock и TeamGroup создали бюджетный тип DDR5‑модулей под названием HUDIMM для экономичных компьютеров

Комментарии (0)

Войти, чтобы комментировать

Microsoft теперь умеет разрушать ИИ‑модели одним запросом

Что именно они протестировали?

Как изменилось поведение?

1. Обычное обучение с подкреплением (GRPO)

2. Новый подход – GRP‑Oblit

Что ещё удалось проверить?

Почему это важно?

Похожие новости

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

ASRock и TeamGroup создали бюджетный тип DDR5‑модулей под названием HUDIMM для экономичных компьютеров

Войти, чтобы комментировать

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».