
Исследовательский институт Emdoor & IDEA раскрывает UniTTS: прорывная сквозная голосовая модель AI для революции взаимодействия человека с компьютером на устройстве
Originally by: Исследовательский институт Эмдоор | July 03, 2025
В современном цифровом ландшафте интерфейс между людьми и машинами все чаще определяется голосом. От помощников смартфонов до управления умным домом технология голосового взаимодействия быстро перекраивает нашу повседневную жизнь. Тем не менее, постоянная проблема остается: достижение действительно естественного, плавного и эмоционально резонансного общения с нашими устройствами. Роботизированная, монотонная природа многих существующих систем подчеркивает критический пробел.
Традиционные системы голосового взаимодействия часто пытаются полностью захватить и использовать богатую невербальную информацию, встроенную в человеческую речь. Эти «паралингвистические особенности», такие как тембр, просодия и эмоции, необходимы для естественного общения, но часто теряются при переводе машинами. Это приводит к синтезированной речи, которой не хватает достоверности и выразительности, которые мы ожидаем. По мере развития искусственного интеллекта ожидания пользователей эволюционировали; мы больше не хотим машину, которая просто понимает команды, но которая может общаться с личностью и эмоциональными нюансами.
Чтобы разрушить эти ограничения и вступить в новую эру интеллектуального голосового взаимодействия на устройстве,Исследовательский институт Эмдоор, В историческом сотрудничестве сИнститут исследований цифровой экономики района Большого залива Гуандун-Гонконг-Макао (IDEA)Совместная лаборатория (COTLab), разработалаUniTts, Серия мощных, сквозных больших моделей речи.
Основная задача: за пределами слов к целостному пониманию звука
Один из доминирующих подходов в современном моделировании текста в речь (TTS) основан на больших языковых моделях (LLM), обрабатывающих дискретные аудиокоды. Эффективность этого метода полностью зависит от качества схемы дискретного кодирования звука. Многие исследователи пытаются отделить акустические особенности от семантических (содержательных) особенностей. Тем не менее, эта развязка в корне ошибочна. Не вся речевая информация может быть аккуратно классифицирована. Например, мощные эмоциональные выражения, такие как смех, плач или сарказм, являются целостными звуковыми событиями, в которых акустика и семантика неразрывно связаны. Кроме того, высококачественные «универсальные аудио» данные, которые включают в себя богатые фоновые звуки или звуковые эффекты, не поддается простому разделению.
Хотя некоторые из них приняли решения с несколькими кодеками, такие как методы на основе GRFVQ, для повышения производительности, это значительно увеличивает битрейт дискретной звуковой последовательности. Полученные длинные последовательности значительно увеличивают сложность моделирования отношений в аудио, что делает низкий битрейт критическим показателем для производительности на устройстве.
Чтобы решить эту проблему, наша работа вводитДистилкодекИUniTts. Дистилкодек-это новый кодировщик с одним кодировщиком, обученный достижению почти 100% равномерного использования кодировщика. Используя дискретные звуковые представления из Дистилкодек, мы обучили модель UniTts мощнымQwen2, 5-7BКостяк.
Нашими ключевыми вкладами являются:
Новый метод дистилляции для кодирования звука:Мы успешно используем модель учителя с несколькими кодеками (GRVQ), чтобы перегонять свои знания в модель ученика с одним кодеком (Дистилкодек). Это обеспечивает почти идеальное использование кодовой книги и обеспечивает простое и эффективное представление сжатия звука, которое не требует разъединения акустической и семантической информации.
Истинная архитектура конца в конец (UniTts):Построенный на способности Дистилкодек моделировать полные звуковые функции, UniTts обладает полными сквозными возможностями как для ввода, так и для вывода. Это позволяет аудио, генерируемое UniTts, демонстрировать гораздо более естественную и аутентичную эмоциональную выразительность.
Новая учебная парадигма для моделей аудио языка:Мы вводим структурированную методологию:
Моделирование восприятия звука:Обучение Дистилкодек, которое фокусируется исключительно на дискретизации функций с использованием универсальных аудиоданных для повышения их надежности.
Аудио когнитивное моделирование:Обучение UniTts, которое разделено на три отдельных этапа:Предварительная подготовка, тонкая настройка с надзорным (SFT) и выравнивание.Этот процесс использует полное моделирование звуковых функций Дистилкодек путем включения универсальной задачи авторегрессии звука во время предварительного обучения. Он также систематически проверяет влияние различных запросов с чередованием текста и звука во время SFT и использует оптимизацию прямых предпочтений для дальнейшего улучшения качества генерации речи.
UniTts & Дистилкодек: Техническая архитектура
Архитектура системы UniTts
Архитектура UniTts состоит из двух основных компонентов: токенизера ALM (Audio Language Model) и магистральной системы на основе трансформатора.
Токенизатор ALM:Это включает в себя стандартный TeХt Tokenizer для обработки текста и наши инновационныеАудиокодер (Дистилкодек)Для дискретизации и восстановления звука.
Спина:При этом используется архитектура трансформатора только для декодера (Qwen2, 5-7B) для выполнения попеременного авторегрессии по двум модальностей маркеров (текст и аудио).
Словарь модели был расширен с первоначального размера до 180 000 токенов для размещения дополнительных 32 000 выделенных аудио токенов, созданных Дистилкодек.
Структура Дистилкодек: эффективность через дистилляцию
Структура Дистилкодек
Сеть Дистилкодек, как показано выше, сначала преобразует необработанный звук в спектрограмму с помощью преобразования Фурье. Затем эту спектрограмму пропускают через стопку остаточных сверточных слоев для сжатия признаков. Квантизатор, использующий линейный слой, проецирует эти сжатые элементы в окрестности вектора кодовой книги. Индекс ближайшего вектора становится дискретным представлением для этого сегмента аудио. Для реконструкции сеть на основе GAN меняет этот процесс для генерации соответствующей формы звукового сигнала.
Процесс обучения для Дистилкодек.
Процесс обучения для Дистилкодек является уникальным. Сначала мы обучаем «Учительский кодек», который использует комбинацию GVQ, RVQ и FVQ с 32 различными кодовыми книгами. Затем мы инициализируем "Студенческий кодек"-наш Дистилкодек-с параметрами из кодировщика и декодера Учителя. Этот студенческий кодек имеет остаточное и групповое значение 1, что делает его моделью книги с одним кодексом, но его размер книги кодов-это сумма учителей, что позволяет ему захватывать огромное акустическое разнообразие в высокоэффективной структуре.
Парадигма обучения в три этапа UniTts
Моделирование аудио представляет собой гораздо большее пространство представления, чем текст. Таким образом, доступ к крупномасштабным, высококачественным данным в паре текст-аудио является необходимым условием для достижения авторегрессии звука общего назначения.
Этап 1: Предварительная подготовка
UniTts использует многоступенчатую стратегию предварительной подготовки.
Фаза первая:Мы начинаем с предварительно обученного LLM на основе текста и вводим текстовые данные, универсальные аудиоданные и ограниченное количество данных в паре текст-аудио. Этот этап учит модели основам аудио моделирования. Ключевой проблемой здесь является «модальная конкуренция», когда введение аудиоданных может привести к ухудшению возможностей генерации исходного текста модели.
Этап второй:Чтобы противодействовать этому, мы объединяем текстовые наборы данных инструкций с нашими существующими универсальными наборами данных аудио и текст-аудио. Это усиливает и расширяет возможности модели по генерации текста, одновременно укрепляя ее звуковые навыки.
Расширение контекста:Чтобы учесть длинную последовательность звуковых данных, мы расширили контекстное окно модели с 8192 до 16 384 токенов.
Кривая потерь перед тренировкой
Этап 2: Контролируемое тонкое тюнинг (SFT)
Качество данных во время SFT значительно влияет на возможности окончательной модели. Существующие наборы текстовых аудио данных с открытым исходным кодом имеют заметные недостатки, в том числе шумные метки, генерируемые ASR, и длинные, неестественные замалчивания из источников, таких как аудиокниги. Чтобы преодолеть это, мы разработали практический композитный метод оценки качества для фильтрации и ранжирования учебных образцов:
Вот,Dnsmos (i)
Эффективно фильтрует акустическое качество, в то время какСпросить (i)
(Частота ошибок символов при повторной аннотации) отфильтровывает образцы с неточными метками. Путем повторного ранжирования и применения порога, основанного на этом балл качества, мы значительно улучшили качество наших данных обучения.
Этап 3: Выравнивание предпочтений
В то время как SFT помогает модели изучать определенные речевые паттерны, иногда это может привести к таким проблемам, как неестественное просодическое продление или повторение-слуховой эквивалент «попугая», наблюдаемый в LLM только в тексте. Чтобы уточнить это, мы приняли оптимизацию предпочтений. Однако стандартная оптимизация прямых предпочтений (DPO) может быть нестабильной для моделирования звука длинной последовательности и может привести к коллапсу режима.
Выравнивание предпочтений
Таким образом, UniTts вводитЛинейная оптимизация предпочтений (LPO)Как более стабильная альтернатива. В функции потерь LPO, гдеХ1ИХ2Представлять положительные и отрицательные выборки, модель уточняет свой градиент политики, мягко продвигая политику положительной выборки, одновременно подавляя сквозную оценку для обеих выборок. Это стабилизирует процесс оптимизации предпочтений для длинных звуковых последовательностей, что приводит к более надежным и естественным выходам.
Экспериментальные результаты: Новое государство-of-Art
Мы оценили недоуменность Дистилкодек (PPL) и использование кодов (Usage) в наборе данных LibriSpeech-Clean и в нашем самодостаточном наборе данных Universal Audio. Результаты подтверждают, чтоДистилкодек достигает почти 100% использования кодов, Почти идеальный результат как для речевых, так и для общих наборов аудиоданных.
Сравнение коэффициента кодовой книги, коэффициента использования и коэффициента путаницы
Кроме того, всесторонний анализ теста LibriSpeech-Clean-Test демонстрирует превосходные возможности восстановления речи Дистилкодек. При высокоэффективном битрейте около 1 Кбит/с,Дистилкодек достигает состояния в самых современных (SOTA) производительности по метрике STOI, Что указывает на отличную разборчивость речи.
Комплексное сравнение различных моделей кодеков
Чтобы провести тщательную оценку всей системы, мы сравнили UniTts с набором существующих ведущих методов, включая CosyVoice2, Spark-TTS, LLaSA, F5-TTS и Fish-Speech. Результаты однозначно показывают, чтоУнитТС-ЛПО, Окончательная выровненная модель, достигает всесторонних улучшений вЭмоциональная выразительность, верность и естественностьПо сравнению с версией только для SFT и всеми другими конкурирующими моделями. Это подтверждает эффективность нашего кодека, основанного на дистилляции, целостного моделирования функций и передовой методологии обучения LPO.
Преимущество Emdoor: от исследовательской лаборатории к защищенной реальности
Это исследование-не просто академическое упражнение. Для такой компании, какEmdoorUniTts, лидер в области защищенных вычислительных решений, является стратегическим шагом по переосмыслению взаимодействия человека и компьютера на устройстве в самых требовательных средах мира.
Эффективность Дистилкодек и мощь UniTts идеально подходят для сценариев крайних вычислений, в которых устройства Emdoor превосходят другие. Рассмотрим реальные приложения в мире:
Полевая служба & производство:Техник на шумном заводе может выдавать сложные команды на естественном языке своему прочному планшету, получая четкую, спокойную и контекстуально соответствующую синтезированную звуковую обратную связь даже по звуку тяжелой техники.
Первые ответчики & общественная безопасность:Парамедики могут взаимодействовать со своими устройствами без помощи рук, получая важные данные пациента, прочитанные вслух, с помощью тона, который передает срочность, не вызывая паники. Полицейские могут управлять системами в автомобиле с помощью жидких голосовых команд, держа руки и глаза на ситуацию.
Логистика & складирование:Работники, работающие с вилочными погрузчиками или управляющими запасами, могут общаться с системой управления складом с помощью голоса, повышая эффективность и безопасность без необходимости останавливаться и использовать клавиатуру.
Характер UniTts на устройстве означает, что эти взаимодействия могут происходить мгновенно, без зависимости от стабильного облачного соединения-критического требования для мобильных и полевых операций. Интегрируя эту технологию в свои прочные ноутбуки, планшеты и портативные компьютеры, Emdoor готова предоставить пользователям не только более эффективный, но и принципиально более человечный опыт.
Вывод: будущее голоса уже здесь
Благодаря своей высокоэффективной технологии дискретного кодирования, Дистилкодек достиг почти идеального использования одной кодовой книги, заложив прочную основу для универсальных и адаптивных аудио LLM. Основываясь на этом, модель UniTts, с ее стабильной трехэтапной кросс-модальной стратегией обучения, представляет собой значительный шаг вперед.
В контексте взаимодействия человека с компьютером UniTts делает больше, чем просто улучшает естественность и плавность голосового обмена. Он привносит новое измерение эмоций и индивидуальности в пользовательский опыт, превращая устройства из простых инструментов в интуитивно понятных, отзывчивых партнеров. Это сотрудничество между Исследовательский институт Эмдоор и IDEA Research Institute-не просто инновация в области ИИ; это план будущего взаимодействия на устройствах.