Apple разрабатывает собственного AI‑ассистента для iPhone, способного запускать приложения вместо пользователя

Apple разрабатывает собственного AI‑ассистента для iPhone, способного запускать приложения вместо пользователя

18 hardware

Apple разрабатывает компактного локального ИИ‑агента для работы с пользовательскими интерфейсами

Apple работает над новым алгоритмом – Ferret‑UI Lite, который способен «понимать» интерфейсы приложений и взаимодействовать с ними от имени пользователя, но всё это происходит на самом устройстве. Модель имеет 3 млрд параметров и в тестах показывает результаты, сравнимые или даже превосходящие крупные модели до 24 раз больше.


Истоки проекта

В декабре 2023 года команда из девяти исследователей опубликовала работу FERRET: Refer and Ground Anything Anywhere at Any Granularity. В ней была представлена мультимодальная языковая модель, обучающаяся на разных типах данных и умеющая связывать текстовые описания с конкретными частями изображения.

С тех пор Apple расширила семейство Ferret‑моделей:

МодельНазначение
Ferretv2Улучшенная базовая модель
Ferret‑UIСпециализированный MLLM для мобильных интерфейсов
Ferret‑UI 2Поддержка нескольких платформ и более высокого разрешения

Ferret‑UI в частности решает одну из проблем современных мультимодальных больших языковых моделей (MLLM): они плохо распознают UI‑элементы. Модель добавляет «произвольное разрешение» поверх Ferret, повышая детализацию изображений и используя улучшенные визуальные признаки.


Новые достижения

Недавно Apple представила две дополнительные версии:

1. Ferret‑UI Lite – легковесная модель с 3 млрд параметров, оптимизирована для локального запуска на мобильных устройствах.
2. Ferret‑UI 2 – расширенная версия, поддерживающая несколько платформ и более высокое разрешение скриншотов.

Главное отличие Ferret‑UI Lite от крупных серверных моделей: она сохраняет конкурентоспособность при значительно меньших вычислительных требованиях.


Почему это важно

Большинство существующих GUI‑агентов основаны на огромных фундаментальных моделях, потому что их мощные возможности рассуждения и планирования позволяют достигать выдающихся результатов в навигации по графическим интерфейсам. Однако такие модели слишком громоздки для выполнения прямо на устройстве.

Ferret‑UI Lite решает эту задачу, сочетая:

- Множественные ключевые компоненты и идеи из обучения небольших LLM;
- Реальные и синтетические данные из разных областей GUI;
- Техники динамического кадрирования и оптимизации качества сегментации интерфейса;
- Контролируемую тонкую настройку и обучение с подкреплением.

В результате получилась модель, которая практически равна или даже превосходит более крупные конкурирующие GUI‑агенты в задачах низкоуровневого связывания с элементами UI, понимания происходящего на экране, многошагового планирования и самоанализа.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать