Xiaomi анонсировала ИИ-модель OmniVoice для преобразования текста в речь.

Подробности: Опубликовано: 12 мая 2026; Просмотров: 728

иcтoчник: www.kv.by

Корпорация Xiaomi анонсировала выпуск модели искусственного интеллекта с открытым кодом OmniVoice, которая превращает текст в речь. Система умеет работать с несколькими сотнями языков, а также способна имитировать чужие голоса и гибко настраивать речевые параметры.

Как утверждают создатели, OmniVoice показывает отличные результаты на китайском и английском языках, соперничая с уже существующими платными аналогами и даже обходя их по ряду показателей. Ключевая особенность новой модели - возможность работы даже с теми языками, по которым имеется совсем немного данных для обучения. В компании подчеркивают, что это первая система клонирования голоса, охватывающая сотни языков.

Функциональность OmniVoice включает несколько полезных опций. Система способна синтезировать голос по заданным пользователем описанию, возрасту, полу, высоте тона, акценту, диалекту и манере речи. Есть настройки интонации, добавление вздохов и смеха для более живого звучания.

В ходе многоязычных испытаний OmniVoice обошла несколько коммерческих решений на 24 языках по естественности и четкости произношения. При тестировании на 102 языках разборчивость речи приблизилась к человеческому уровню, а кое-где даже его превзошла. Высокое качество сохраняется даже при объеме обучающей выборки менее 10 часов на язык.

По сравнению с современными синтезаторами речи архитектура OmniVoice значительно проще: вместо набора отдельных блоков и этапов предсказания используется единая двунаправленная сеть, которая напрямую переводит текст в речь. Не требуются отдельное моделирование текста, сложные гибридные структуры и многоуровневые системы прогнозирования. Благодаря упрощенной структуре модель работает гораздо быстрее. Высокую эффективность OmniVoice обеспечили два решения. Во-первых, на этапе тренировки использовался метод ´случайного маскирования акустических кодов´, который повысил результативность обучения и расширил возможности сети. Во-вторых, на этапе предварительного обучения к ней подключили большую языковую модель, которая улучшила правильность произношения и четкость речи.