Apple обучила компактные модели ИИ лучше описывать картинки, чем их крупные соперники
Apple раскрывает новую технологию «RubiCap» для описания изображений
Учёные компании Apple создали метод под названием *RubiCap*, который позволяет небольшим ИИ‑моделям генерировать более точные и детализированные описания картинок, чем крупномасштабные аналоги.
Как работает RubiCap
1. Разбор изображения
Чтобы сформировать подробный текст, модель сначала распознаёт множество объектов и областей в кадре. Это даёт глубокое понимание композиции, а не поверхностное описание.
2. Практическая ценность
Такие навыки пригодны для обучения дочерних ИИ‑моделей, генераторов картинок по тексту и специализированных функций (например, улучшение визуального контента).
3. Проблема ресурсов
Традиционные подходы к обучению систем подробного описания требуют больших вычислительных затрат как на начальной фазе, так и при последующем обучении с подкреплением.
Экспериментальная методика
- Выбор изображений – случайно отобрано 50 000 картинок из наборов *PixMoCap* и *DenseFusion‑4V‑100K*.
- Генерация описаний – использованы существующие модели компьютерного зрения: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT и Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, а также пока обучаемые модели Apple.
- Оценка качества – Gemini 2.5 Pro выступала в роли эксперта: она анализировала описания, выявляла совпадения и ошибки, формулировала чёткие критерии оценки.
- Судейская оценка – модель Qwen 2.5‑7B‑Instruct присваивала баллы по каждому критерию и генерировала сигнал вознаграждения для обучаемой модели.
Результаты
- Обучаемая модель получала конкретную обратную связь, что позволяло быстро улучшать точность описаний без необходимости полагаться на единственный «правильный» ответ.
- В итоге Apple создала три собственных модели: RubiCap‑2B, RubiCap‑3B и RubiCap‑7B (соответственно 2, 3 и 7 миллиардов параметров).
- При тестах по задаче описания изображений RubiCap превзошёл конкурентов с 32 млрд и даже 72 млрд параметрами. В некоторых случаях RubiCap‑3B показывал лучшие результаты, чем RubiCap‑7B, подтверждая, что размер модели не всегда гарантирует лучшую производительность.
Таким образом, технология RubiCap демонстрирует, как можно достичь высокого качества описания изображений с меньшими ресурсами и более эффективным обучением.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать