Apple разрабатывает собственного AI‑ассистента для iPhone, способного запускать приложения вместо пользователя
Apple разрабатывает компактного локального ИИ‑агента для работы с пользовательскими интерфейсами
Apple работает над новым алгоритмом – Ferret‑UI Lite, который способен «понимать» интерфейсы приложений и взаимодействовать с ними от имени пользователя, но всё это происходит на самом устройстве. Модель имеет 3 млрд параметров и в тестах показывает результаты, сравнимые или даже превосходящие крупные модели до 24 раз больше.
Истоки проекта
В декабре 2023 года команда из девяти исследователей опубликовала работу FERRET: Refer and Ground Anything Anywhere at Any Granularity. В ней была представлена мультимодальная языковая модель, обучающаяся на разных типах данных и умеющая связывать текстовые описания с конкретными частями изображения.
С тех пор Apple расширила семейство Ferret‑моделей:
| Модель | Назначение |
|---|---|
| Ferretv2 | Улучшенная базовая модель |
| Ferret‑UI | Специализированный MLLM для мобильных интерфейсов |
| Ferret‑UI 2 | Поддержка нескольких платформ и более высокого разрешения |
Ferret‑UI в частности решает одну из проблем современных мультимодальных больших языковых моделей (MLLM): они плохо распознают UI‑элементы. Модель добавляет «произвольное разрешение» поверх Ferret, повышая детализацию изображений и используя улучшенные визуальные признаки.
Новые достижения
Недавно Apple представила две дополнительные версии:
1. Ferret‑UI Lite – легковесная модель с 3 млрд параметров, оптимизирована для локального запуска на мобильных устройствах.
2. Ferret‑UI 2 – расширенная версия, поддерживающая несколько платформ и более высокое разрешение скриншотов.
Главное отличие Ferret‑UI Lite от крупных серверных моделей: она сохраняет конкурентоспособность при значительно меньших вычислительных требованиях.
Почему это важно
Большинство существующих GUI‑агентов основаны на огромных фундаментальных моделях, потому что их мощные возможности рассуждения и планирования позволяют достигать выдающихся результатов в навигации по графическим интерфейсам. Однако такие модели слишком громоздки для выполнения прямо на устройстве.
Ferret‑UI Lite решает эту задачу, сочетая:
- Множественные ключевые компоненты и идеи из обучения небольших LLM;
- Реальные и синтетические данные из разных областей GUI;
- Техники динамического кадрирования и оптимизации качества сегментации интерфейса;
- Контролируемую тонкую настройку и обучение с подкреплением.
В результате получилась модель, которая практически равна или даже превосходит более крупные конкурирующие GUI‑агенты в задачах низкоуровневого связывания с элементами UI, понимания происходящего на экране, многошагового планирования и самоанализа.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать