Xiaomi запустила новую версию AI‑моделей MiMo V2.5, позволяющих конвертировать текст в голос и наоборот

Xiaomi запустила новую версию AI‑моделей MiMo V2.5, позволяющих конвертировать текст в голос и наоборот

14 software

Xiaomi запускает новые голосовые модели искусственного интеллекта

Компания Xiaomi представила две версии своих голосовых ИИ‑моделей, которые работают с текстом и аудио:

МодельФункцияКлючевые особенности
MiMo‑V2.5‑TTSТекст → речь3 подварианта, бесплатные в течение ограниченного периода на MiMo Studio; настройка скорости, тона и эмоций; возможность создания новых голосов по короткой фразе (VoiceDesign) и клонирования голоса из небольшого набора образцов (VoiceClone).
MiMo‑V2.5‑ASRРечь → текстРаспознавание устной речи в сложных условиях, поддержка китайских диалектов + английского; двуязычные диалоги и тексты песен (вокал на фоне музыки); работа при сильном шуме; автоматическое расставление пунктуации по интонациям.

Как пользоваться MiMo‑V2.5‑TTS

1. Базовый вариант – выбирает один из предустановленных голосов и позволяет изменить скорость, тон и эмоциональный оттенок.
2. VoiceDesign – вводит короткую фразу, после чего система генерирует новый тембр голоса.
3. VoiceClone – загружает несколько образцов выбранного голоса; модель воспроизводит его с сохранением стиля и инструкций.

Для достижения нужного звучания пользователь может:
- Добавлять специальные теги к тексту;
- Описывать голос простым естественным языком (на китайском или английском);
- Создавать сценарии для виртуальных постановок, где несколько голосов взаимодействуют одновременно.

Особенности MiMo‑V2.5‑ASR

- Многоязычность – поддержка нескольких диалектов китайского языка и английского.
- Расшифровка песен – модель выделяет вокал даже при наличии фоновой музыки.
- Шумоустойчивость – точное распознавание в условиях сильного постороннего шума.
- Пунктуация по интонации – автоматически вставляет знаки препинания, что сокращает необходимость ручной правки.

Таким образом, Xiaomi расширяет свои возможности в области голосовых технологий, предлагая гибкие инструменты как для создания синтезированной речи, так и для точного распознавания устной информации.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать