Xiaomi запустила новую версию AI‑моделей MiMo V2.5, позволяющих конвертировать текст в голос и наоборот
Xiaomi запускает новые голосовые модели искусственного интеллекта
Компания Xiaomi представила две версии своих голосовых ИИ‑моделей, которые работают с текстом и аудио:
| Модель | Функция | Ключевые особенности |
|---|---|---|
| MiMo‑V2.5‑TTS | Текст → речь | 3 подварианта, бесплатные в течение ограниченного периода на MiMo Studio; настройка скорости, тона и эмоций; возможность создания новых голосов по короткой фразе (VoiceDesign) и клонирования голоса из небольшого набора образцов (VoiceClone). |
| MiMo‑V2.5‑ASR | Речь → текст | Распознавание устной речи в сложных условиях, поддержка китайских диалектов + английского; двуязычные диалоги и тексты песен (вокал на фоне музыки); работа при сильном шуме; автоматическое расставление пунктуации по интонациям. |
Как пользоваться MiMo‑V2.5‑TTS
1. Базовый вариант – выбирает один из предустановленных голосов и позволяет изменить скорость, тон и эмоциональный оттенок.
2. VoiceDesign – вводит короткую фразу, после чего система генерирует новый тембр голоса.
3. VoiceClone – загружает несколько образцов выбранного голоса; модель воспроизводит его с сохранением стиля и инструкций.
Для достижения нужного звучания пользователь может:
- Добавлять специальные теги к тексту;
- Описывать голос простым естественным языком (на китайском или английском);
- Создавать сценарии для виртуальных постановок, где несколько голосов взаимодействуют одновременно.
Особенности MiMo‑V2.5‑ASR
- Многоязычность – поддержка нескольких диалектов китайского языка и английского.
- Расшифровка песен – модель выделяет вокал даже при наличии фоновой музыки.
- Шумоустойчивость – точное распознавание в условиях сильного постороннего шума.
- Пунктуация по интонации – автоматически вставляет знаки препинания, что сокращает необходимость ручной правки.
Таким образом, Xiaomi расширяет свои возможности в области голосовых технологий, предлагая гибкие инструменты как для создания синтезированной речи, так и для точного распознавания устной информации.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать