Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники

Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники

19 software

Apple раскрывает новую технологию «RubiCap» для описания изображений

Учёные компании Apple создали метод под названием *RubiCap*, который позволяет небольшим ИИ‑моделям генерировать более точные и детализированные описания картинок, чем крупномасштабные аналоги.


Как работает RubiCap

1. Разбор изображения
Чтобы сформировать подробный текст, модель сначала распознаёт множество объектов и областей в кадре. Это даёт глубокое понимание композиции, а не поверхностное описание.

2. Практическая ценность
Такие навыки пригодны для обучения дочерних ИИ‑моделей, генераторов картинок по тексту и специализированных функций (например, улучшение визуального контента).

3. Проблема ресурсов
Традиционные подходы к обучению систем подробного описания требуют больших вычислительных затрат как на начальной фазе, так и при последующем обучении с подкреплением.


Экспериментальная методика

- Выбор изображений – случайно отобрано 50 000 картинок из наборов *PixMoCap* и *DenseFusion‑4V‑100K*.
- Генерация описаний – использованы существующие модели компьютерного зрения: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT и Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, а также пока обучаемые модели Apple.
- Оценка качества – Gemini 2.5 Pro выступала в роли эксперта: она анализировала описания, выявляла совпадения и ошибки, формулировала чёткие критерии оценки.
- Судейская оценка – модель Qwen 2.5‑7B‑Instruct присваивала баллы по каждому критерию и генерировала сигнал вознаграждения для обучаемой модели.


Результаты

- Обучаемая модель получала конкретную обратную связь, что позволяло быстро улучшать точность описаний без необходимости полагаться на единственный «правильный» ответ.
- В итоге Apple создала три собственных модели: RubiCap‑2B, RubiCap‑3B и RubiCap‑7B (соответственно 2, 3 и 7 миллиардов параметров).
- При тестах по задаче описания изображений RubiCap превзошёл конкурентов с 32 млрд и даже 72 млрд параметрами. В некоторых случаях RubiCap‑3B показывал лучшие результаты, чем RubiCap‑7B, подтверждая, что размер модели не всегда гарантирует лучшую производительность.

Таким образом, технология RubiCap демонстрирует, как можно достичь высокого качества описания изображений с меньшими ресурсами и более эффективным обучением.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать