иcтoчник: www.kv.by
OpenAI представила три новые голосовые ИИ-модели, которые работают в реальном времени. Ключевое отличие - модульная архитектура: каждая модель отвечает за свою задачу, что позволяет гибко собирать голосовых агентов под конкретные нужды бизнеса.
GPT-Realtime-2 - это ядро для ведения диалога. Модель способна рассуждать на уровне GPT-5, удерживать контекст до 128 тысяч токенов и параллельно работать с внешними инструментами (CRM, календари, базы данных). Она не просто отвечает голосом, но и озвучивает промежуточные действия, например: ´секунду, проверяю´ или ´смотрю календарь´. Это делает поведение агента более естественным и предсказуемым, особенно в длинных и сложных сценариях. Если инструмент недоступен или произошла ошибка, модель сообщает об этом голосом, а не зависает. Для бизнеса это снижает риск потери клиента и повышает доверие к системе.
GPT-Realtime-Translate обеспечивает синхронный speech-to-speech перевод с более чем 70 языков на 13 языков вывода, включая русский, английский, испанский, французский, немецкий, китайский, японский и корейский. Перевод происходит в темпе говорящего, что важно для международных колл-центров и сервисов поддержки.
GPT-Realtime-Whisper отвечает за потоковую транскрипцию: текст появляется по мере произнесения речи, без ожидания окончания фразы. Это востребовано для живых субтитров, заметок на встречах и голосовых интерфейсов с непрерывным пониманием пользователя.
OpenAI делает ставку не только на качество синтеза или скорость транскрипции, но и на агентную архитектуру: голосовые ИИ теперь умеют объяснять свои действия, восстанавливаться после ошибок и держать длинный контекст. Это особенно важно для поддержки, продаж, медицины и внутренних корпоративных сценариев.
Все модели доступны через Realtime API. Стоимость использования: GPT-Realtime-2 - $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных; GPT-Realtime-Translate - $0.034 за минуту; GPT-Realtime-Whisper - $0.017 за минуту.