Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники

Apple раскрывает новую технологию «RubiCap» для описания изображений

Учёные компании Apple создали метод под названием *RubiCap*, который позволяет небольшим ИИ‑моделям генерировать более точные и детализированные описания картинок, чем крупномасштабные аналоги.

Как работает RubiCap

1. Разбор изображения
Чтобы сформировать подробный текст, модель сначала распознаёт множество объектов и областей в кадре. Это даёт глубокое понимание композиции, а не поверхностное описание.

2. Практическая ценность
Такие навыки пригодны для обучения дочерних ИИ‑моделей, генераторов картинок по тексту и специализированных функций (например, улучшение визуального контента).

3. Проблема ресурсов
Традиционные подходы к обучению систем подробного описания требуют больших вычислительных затрат как на начальной фазе, так и при последующем обучении с подкреплением.

Экспериментальная методика

- Выбор изображений – случайно отобрано 50 000 картинок из наборов *PixMoCap* и *DenseFusion‑4V‑100K*.
- Генерация описаний – использованы существующие модели компьютерного зрения: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT и Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, а также пока обучаемые модели Apple.
- Оценка качества – Gemini 2.5 Pro выступала в роли эксперта: она анализировала описания, выявляла совпадения и ошибки, формулировала чёткие критерии оценки.
- Судейская оценка – модель Qwen 2.5‑7B‑Instruct присваивала баллы по каждому критерию и генерировала сигнал вознаграждения для обучаемой модели.

Результаты

- Обучаемая модель получала конкретную обратную связь, что позволяло быстро улучшать точность описаний без необходимости полагаться на единственный «правильный» ответ.
- В итоге Apple создала три собственных модели: RubiCap‑2B, RubiCap‑3B и RubiCap‑7B (соответственно 2, 3 и 7 миллиардов параметров).
- При тестах по задаче описания изображений RubiCap превзошёл конкурентов с 32 млрд и даже 72 млрд параметрами. В некоторых случаях RubiCap‑3B показывал лучшие результаты, чем RubiCap‑7B, подтверждая, что размер модели не всегда гарантирует лучшую производительность.

Таким образом, технология RubiCap демонстрирует, как можно достичь высокого качества описания изображений с меньшими ресурсами и более эффективным обучением.

Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники

Как работает RubiCap

Экспериментальная методика

Результаты

Похожие новости

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.

Microsoft игнорирует уязвимости в Windows, которые исследователь выявил – теперь они уже эксплуатируются хакерами

WhatsApp теперь показывает имена пользователей, а в Telegram это уже было с 2014 года

Microsoft пояснила, почему заблокированы аккаунты VeraCrypt и иных открытых сервисов — из‑за небрежности их создателей

Комментарии (0)

Войти, чтобы комментировать

Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники

Как работает RubiCap

Экспериментальная методика

Результаты

Похожие новости

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.

Microsoft игнорирует уязвимости в Windows, которые исследователь выявил – теперь они уже эксплуатируются хакерами

WhatsApp теперь показывает имена пользователей, а в Telegram это уже было с 2014 года

Microsoft пояснила, почему заблокированы аккаунты VeraCrypt и иных открытых сервисов — из‑за небрежности их создателей

Войти, чтобы комментировать

SpaceX обвиняет Blue Origin в создании помех от антенн TeraWave, которые могут затронуть 10 млн пользователей Starlink.