РУБРИКИ

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов

   РЕКЛАМА

Главная

Бухгалтерский учет и аудит

Военное дело

География

Геология гидрология и геодезия

Государство и право

Ботаника и сельское хоз-во

Биржевое дело

Биология

Безопасность жизнедеятельности

Банковское дело

Журналистика издательское дело

Иностранные языки и языкознание

История и исторические личности

Связь, приборы, радиоэлектроника

Краеведение и этнография

Кулинария и продукты питания

Культура и искусство

ПОДПИСАТЬСЯ

Рассылка E-mail

ПОИСК

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов

p align="left">Большинство методов кратковременного анализа, в том числе и кратковременный Фурье-анализ, могут быть описаны выражением

(1.57)

Речевой сигнал (возможно, после ограничения частотного диапазона в линейном фильтре) подвергается преобразованию Т[·], линейному или нелинейному, которое может зависеть от некоторого управляющего параметра или их совокупности. Результирующая последовательность умножается затем на последовательность значений временного окна (весовой функции), расположенную во времени в соответствии с индексом п. Результаты затем суммируются по всем ненулевым значениям. Обычно, хотя и не всегда, последовательность значений временного окна имеет конечную протяженность. Значение Qn представляет собой, таким образом, «взвешенное» среднее значение последовательности Т [х (m)].

Простым примером, иллюстрирующим изложенное, может служить измерение кратковременной энергии сигнала. Полная энергия сигнала в дискретном времени определяется как

(1.58)

Вычисление этой величины не имеет особого смысла при обработке речевых сигналов, поскольку она не содержит информации о свойствах сигнала, изменяющихся во времени. Кратковременная энергия определяется выражением

(1.59)

Таким образом, кратковременная энергия в момент n есть просто сумма квадратов N отсчетов от n-N-1 до n. Из (1.37) видно, что в (1.39) Т [*] есть просто операция возведения в квадрат, а

(1.60)

Вычисление кратковременной энергии, иллюстрирует рис. 1.6 Окно «скользит» вдоль последовательности квадратов значений сигнала, в общем случае вдоль последовательности Т[х(m)], ограничивая длительность интервала, используемого в вычислениях.

Как отмечалось выше, амплитуда речевого сигнала существенно изменяется во времени.

В частности, амплитуда невокализованных сегментов речевого сигнала значительно меньше амплитуды вокализованных сегментов. Подобные изменения амплитуды хорошо описываются с помощью функции кратковременной энергии сигнала. В общем случае определить функцию энергий можно как

(1.61)

Это выражение может быть переписано в виде

(1.62)

где

(1.63)

Сигнал х2(n) в этом случае фильтруется с помощью линейной системы с импульсной характеристикой h(n).

Выбор импульсной характеристики h(n) или окна составляет основу описания сигнала с помощью функции энергии. Чтобы понять, как влияет выбор окна на функцию кратковременной энергии сигнала, предположим, что h(n) в (1.35) является достаточно длительной и имеет постоянную амплитуду; значение Еn будет при этом изменяться во времени незначительно. Такое окно эквивалентно фильтру нижних частот с узкой полосой пропускания. Полоса фильтра нижних частот не должна быть столь узкой, чтобы выходной сигнал оказался постоянным, иначе говоря, полосу следует выбрать так, чтобы функция энергии отражала изменения амплитуды речевого сигнала.

Описанная ситуация выражает противоречие, которое нередко возникает при изучении кратковременных характеристик речевых сигналов. Суть его состоит в том, что для описания быстрых изменений амплитуды желательно иметь узкое окно (короткую импульсную характеристику), однако слишком малая ширина окна может привести к недостаточному усреднению и, следовательно, к недостаточному сглаживанию функций энергии.

Влияние вида окна на вычисление изменяющейся во времени энергии сигнала можно проиллюстрировать на примере использования двух наиболее распространенных окон: прямоугольного и окна Хэмминга.

Прямоугольное окно, как это видно из (1.39), соответствует случаю, когда всем отсчетам на интервале от (n-N-1) до п приписывается одинаковый вес. Частотная характеристика прямоугольного окна равна

(1.64)

Для окна с шириной 51 отсчет (N=51) логарифм амплитудно-частотной характеристики представлен на рис. 1.6а.

Первое нулевое значение амплитудно-частотной характеристики (1.64) соответствует частоте

(1.65)

где частота дискретизации. Это номинальная частота среза фильтра нижних частот, соответствующего прямоугольному окну.

Амплитудно-частотная характеристика окна Хемминга при N=51 показана на рис. 1.6б. Полоса пропускания фильтра с окном Хемминга при одинаковой ширине примерно вдвое превосходит полосу фильтра с прямоугольным окном. Очевидно также, что окно Хемминга обеспечивает большее затухание вне полосы пропускания по сравнению с прямоугольным окном. Затухание, вносимое вне полосы, несущественно зависит от ширины каждого из окон. Это означает, что увеличение ширины приведет просто к сужению полосы. Если N мало (порядка периода основного тона или менее), то Еn будет изменяться очень быстро, в соответствии с тонкой структурой речевого колебания. Если N велико (порядка нескольких периодов основного тона), то Еn будет изменяться медленно и не будет адекватно описывать изменяющиеся особенности речевого сигнала. Это, к сожалению, означает, что не существует единственного значения М, которое в полной мере удовлетворяло бы перечисленным требованиям, так как период основного тона изменяется от 10 отсчетов (при частоте дискретизации 10 кГц) для высоких женских и детских голосов до 250 отсчетов для очень низких мужских голосов. На практике N выбирают равным 100--200 отсчетов при частоте дискретизации 10 кГц (т. е. длительность порядка 10-20 мс).

Основное назначение Еn состоит в том, что эта величина позволяет отличить вокализованные речевые сегменты от невокализованных. Значения Еn для невокализованных сегментов значительно меньше, чем для вокализованных. Функция кратковременной энергии может быть использована для приближенного определения момента перехода от вокализованного сегмента к невокализованному и наоборот, а в случае высококачественного речевого сигнала (с большим отношением сигнала к шуму) функцию энергии можно использовать и для отделения речи от пауз.

Одним из недостатков функции кратковременной энергии, определяемой выражением (1.35), является ее чувствительность к большим уровням сигнала (поскольку в (1.35) каждый отсчет возводится в квадрат). Вследствие этого значительно искажается соотношение между значениями последовательности х(n). Простым способом устранения этого недостатка является переход к определению функции среднего значения в виде

(1.66)

где вместо суммы квадратов вычисляется взвешенная сумма абсолютных значений. Исключение операции возведения в квадрат упрощает арифметические вычисления.

При вычислении среднего значения по (1.46) динамический диапазон (отношение максимального значения к минимальному) определяется примерно как квадратный корень из динамического диапазона при обычном вычислении энергии. В данном случае различия в уровнях между вокализованной и невокализованной речью выражены не столь ярко, как при использовании функций энергии.

Поскольку полоса частот при определении как функции энергии, так и среднего значения приближенно совпадает с полосой пропускания используемого фильтра нижних частот, то нет необходимости дискретизировать эти функции столь же часто, как исходный речевой сигнал. Например, для окна длительностью 20 мс достаточна частота дискретизации около 100 Гц. Это означает, что значительная часть информации теряется при использовании подобных кратковременных представлений. Очевидно также, что информация, относящаяся к динамике амплитуд речевого сигнала, сохраняется в весьма удобной форме [1,2].

При обработке сигналов в дискретном времени считают, что если два последовательных отсчёта имеют различные знаки, то произошёл переход через ноль. Частота появления нолей в сигнале может служить простейшей характеристикой его спектральных свойств. Это наиболее справедливо для узкополосных сигналов.

Среднее число нулевых переходов можно принять в качестве подходящей оценки частоты синусоидального колебания.

Речевой сигнал является широкополосным и, следовательно, интерпретация среднего числа переходов через нуль менее очевидна. Однако можно получить грубые оценки спектральных свойств сигнала, основанные на использовании функции среднего числа переходов через нуль для речевого сигнала; рассмотрим способ вычисления этой величины. Функция среднего числа переходов через нуль имеет те же общие свойства, что и функции энергии и среднего значения. Все, что в действительности требуется, это проверить пары отсчетов с целью определения нулевых пересечений, а затем вычислить среднее по всем N последовательным отсчетам (деление на N, конечно, необязательно). Как и ранее, может быть вычислено взвешенное среднее и при использовании симметричных окон конечной длительности задержка может быть скомпенсирована точно. Могут быть получены и рекуррентные уравнения.

Рассмотрим теперь применение функции среднего числа переходов через нуль для обработки речевых сигналов. Модель речеобразоаания предполагает, что энергия вокализованных сегментов речевого сигнала концентрируется на частотах ниже 3 кГц, что обусловлено убывающим спектром сигнала возбуждения, тогда как, для невокализованных сегментов большая часть энергии лежит в области высоких частот. Поскольку высокие частоты приводят к большому числу переходов через нуль, а низкие - к малому, то существует жесткая связь между числом нулевых пересечений и распределением энергии по частотам. Разумно предположить, что большому числу нулевых пересечений соответствуют невокализованные сегменты, а малому числу -- вокализованные сегменты речи. Это, однако, очень расплывчатое утверждение, поскольку мы не определили, что означает «много» или «мало», и количественно определить эти понятия в действительности трудно. Гауссовская кривая хорошо согласуется с приведенными гистограммами. Среднее число пересечений составляет 49 для вокализованных и 14 для невокализованных сегментов длительностью 10 мс.

Поскольку оба распределения перекрываются, нельзя вынести однозначное решение о принадлежности сегмента к вокализованным или невокализованным отрезкам только по среднему числу переходов через нуль. Тем не менее, подобное представление весьма полезно при осуществлении такой классификации.

Так же, как и в случае функций энергии и среднего, функцию среднего числа переходов через нуль можно дискретизировать с очень низкой частотой. Хотя среднее число переходов через нуль изменяется значительно, вокализованные и невокализованные сегменты просматриваются очень четко.

При использовании описания сигнала средним числом переходов через нуль следует иметь в виду ряд практических соображений. Хотя в основу алгоритма вычисления нулевых переходов положено сравнение знаков соседних отсчетов, тем не менее, при дискретизации сигнала следует предпринимать специальные меры.

Очевидно, что число нулевых переходов зависит от уровня шума при аналого-цифровом преобразовании, интенсивности фона переменного тока и других шумов, которые могут присутствовать в цифровой системе. Таким образом, с целью уменьшения влияния этих факторов следует проявлять особую осторожность при аналоговой обработке сигнала, предшествующей дискретизации. Например, часто оказывается более целесообразным использовать полосовой фильтр вместо фильтра нижних частот для уменьшения эффекта наложения при аналого-цифровом преобразовании и устранения фона переменного тока из сигнала. Кроме того, при измерении числа переходов через нуль следует учитывать соотношение между периодом дискретизации и интервалом усреднения N. Период дискретизации определяет точность выделения нулевых пересечений по времени (и по частоте), т. е. чтобы добиться высокой точности, нужна большая частота дискретизации. Вместе с тем от каждого отсчета требуется информация объемом лишь 1 бит (информация только о знаке сигнала).

Вследствие практической ограниченности этого метода было предложено множество сходных представлений сигнала. В каждом из них содержатся дополнительные особенности, направленные на снижение чувствительности оценок к шуму, но все они имеют и свои собственные ограничения. Наиболее заметным среди них является представление сигнала, исследованное Бейкером. Представление основано на интервалах времени между положительными переходами через нуль (снизу вверх). Бейкер применил это описание для фонетической классификации звуков речи.

Другое применение анализа переходов через нуль состоит в получении промежуточного представления речевого сигнала в частотной области. Метод включает фильтрацию речевого сигнала в нескольких смежных частотных диапазонах. Затем по сигналам на выходе фильтров измеряют кратковременную энергию и среднее число переходов через нуль. Совместное использование этих характеристик дает грубое описание спектральных свойств сигнала. Этот подход, предложенный Рэдди и исследованный Вайсенсом и Эрманом, положен в основу систем распознавания речи.

Задача определения моментов начала и окончания фразы при наличии шума является одной из важных задач в области обработки речи. В частности, при автоматическом распознавании слов важно точно определить моменты начала и окончания слова. Методы обнаружения моментов начала и окончания фразы можно использовать для уменьшения числа арифметических операций, если обрабатывать только те сегменты, в которых имеется речевой сигнал, например, в системах, работающих не в реальном масштабе времени.

Проблема отделения речи от окружающего шума очень сложна, за исключением случаев очень большого отношения сигнал/шум, т. е. в случае высококачественных записей, выполненных в заглушённой камере или звуконепроницаемой комнате. В этих случаях энергия даже наиболее слабых звуков речи (фрикативных согласных) превышает энергию шума и, таким образом, достаточно лишь измерить энергию сигнала. Но подобные условия записи, как правило, не встречаются в реальных ситуациях.

2. Реализация систем распознавания речи

2.1 Гомоморфная обработка речи

Речевой сигнал на коротких интервалах можно рассматривать как отклик системы с медленно меняющимися параметрами на периодическое или шумовое возбуждение. Это означает, что во временной области дискретный сигнал у(n) представляется результатом свертки функции возбуждения х(n) с импульсной реакцией голосового тракта п(п). Гомоморфная обработка речи сводится к решению обратной задачи -- имея речевой сигнал у(n)=х(n)*h(n), можно получить параметры сигналов, участвующих в свертке. Эта задача называется иногда задачей обратной свертки или развертки.

Смысл гомоморфной системы анализа становится более понятным, если учесть, что в частотной области речевой сигнал представляется произведением спектра сигнала возбуждения и передаточной функции частотной характеристики голосового тракта, учитывающего спектральные свойства излучателя. Это означает, что в спектре речевого сигнала содержится информация о спектре сигнала возбуждения и передаточной функции голосового тракта. Гомоморфная обработка сигнала -- это способ извлечь информацию об основном тоне и формантных частотах на основании преобразований сигнала, которые будут описаны далее.

Если произвести кратковременное дискретное преобразование Фурье (т.е. получить динамический спектр речевого сигнала), а затем прологарифмировать спектральные составляющие динамического спектра, то каждый спектральный отсчет можно рассматривать как сумму логарифмов спектра сигнала возбуждения и частотной характеристики речевого тракта (по свойству логарифмической функции логарифм произведения равен сумме логарифмов сомножителей). Обратное дискретное преобразование Фурье прологарифмированного спектра позволяет вновь перейти к анализу сигнала во временной области. Сигнал, полученный в результате обратного дискретного преобразования Фурье прологарифмированного спектра, называется кепстром входного сигнала, равного сумме кепстров сигналов возбуждения и составляющих, обусловленных особенностями речеобразующего тракта. В результате подобных преобразований дискретный речевой сигнал, представляющий собой свертку сигнала возбуждения и импульсного отклика фильтра, моделирующего голосовой тракт, приближенно преобразуется в сложение кепстров.

Логарифм кратковременного спектра вокализованных звуков содержит медленно меняющуюся составляющую, обусловленную передаточными свойствами голосового тракта, и быстро меняющуюся периодическую составляющую, которая вызывается периодическим сигналом возбуждения (рис. 2.1а). Для невокализованной речи прологарифмированный спектр носит характер, показанный на рис.2.1б. Спектр содержит случайную составляющую с быстрыми изменениями.

Кепстры отрезков вокализованной и невокализованной речи (рис. 2.2) показывают, что медленно меняющаяся часть прологарифмированных значений кратковременного спектра представлена составляющими кепстра в области малых времен. Быстро меняющаяся периодическая составляющая прологарифмированного спектра, соответствующая частоте основного тона, в кепстре вокализованной речи проявляется в виде резкого пика, расположенного от начала координат на расстоянии, равном периоду основного тона. Кепстр невокализованной речи (рис. 2.2б) таких пиков не имеет.

Если кепстр перемножить на подходящую функцию окна, например прямоугольное окно, пропускающее только начальные участки кепстра (которые соответствуют области малых времен и отражают относительно медленно меняющиеся параметры голосового тракта), а затем вычислить дискретное преобразование Фурье результирующего взвешенного кепстра, то получим сглаженный спектр сигнала.

Он отражает резонансные свойства тракта, позволяя оценивать частоты и полосы формант. Наличие или отсутствие ярко выраженного пика в области, соответствующей диапазону изменений периода основного тона, указывает на характер возбуждения, а местоположение пика является хорошим индикатором периода основного тона (рис. 2.2).

Гомоморфные относительно свертки системы удовлетворяют обобщенному принципу суперпозиции. Принцип суперпозиции, если его записать для обычных линейных систем, имеет вид

(2.1a)

(2.1б)

где L - линейный оператор. Принцип суперпозиции устанавливает, что если сигнал на входе является линейной комбинацией элементарных сигналов, то и сигнал на выходе будет представлен в виде линейной комбинации соответствующих сигналов.

Прямым следствием принципа суперпозиции является тот факт, что сигнал на выходе линейной системы может быть представлен в виде дискретной свертки

(2.2)

Символ « * » здесь и далее означает свертку в дискретном времени. По аналогии с принципом суперпозиции для обычных линейных систем определим класс систем, удовлетворяющих обобщенному принципу суперпозиции, в котором сложение заменяется сверткой (легко показать, что свертка обладает такими же алгебраическими свойствами, как и сложение [1]), т. е.

(2.3)

В общем случае возможно сформулировать и уравнение, аналогичное (2.16), в котором выражено свойство скалярного умножения [2]. Системы, обладающие свойством (2.3), названы гомоморфными относительно свертки системами. Эта терминология объясняется тем [3], что данные преобразования оказываются гомоморфными преобразованиями линейного векторного пространства. При изображении таких систем операцию свертки представляют в явном виде на входе и выходе системы. Гомоморфный фильтр является гомоморфной системой, обладающей тем свойством, что одна компонента (выделяемая) проходит через эту систему без изменений, а другая - устраняется. В соотношении (2.3), например, если x1(n) - нежелательная компонента, то необходимо потребовать, чтобы выход, соответствующий x1(n), представлял собой единичный отсчет, в то время как выход, соответствующий х2(n), близко совпадал бы с х2(n). Это полностью аналогично ситуации в линейных системах, где ставится задача выделения сигнала из смеси его с аддитивным шумом.

Важным аспектом теории гомоморфных систем является то, что любая из них может быть представлена в виде каскадного соединения трех гомоморфных систем. Первый блок преобразует компоненты на входе, представленные в виде свертки, в аддитивную сумму на выходе. Второй блок -обычная линейная система, удовлетворяющая принципам суперпозиции в соответствии с (2.1). Третий блок является обратным первому, т. е. преобразует сигналы, представленные в виде суммы, в сигналы, представленные в виде свертки. Важность такого канонического представления заключается в том, что разработка гомоморфной системы сводится к разработке линейной системы. Блок*[], называемый характеристическим блоком гомоморфной относительно свертки системы, фиксирован при каноническом представлении. Очевидно, что обратное преобразование также фиксировано. Характеристическая система для гомоморфной обратной свертки подчиняется обобщенному принципу суперпозиции, в котором операция на входе - свертка, а на выходе - обычное сложение. Свойства характеристической системы определяются выражением

(2.4)

Аналогично обратная характеристическая система удовлетворяет соотношению

(2.5)

Математическое описание характеристической системы определяется требованиями к выходному сигналу. Если на входе имеется сигнал свертки, то

(2.6)

и z-преобразование входного сигнала имеет вид

(2.7)

Из (2.4) очевидно, что z-преобразование сигнала на выходе системы должно представлять собой сумму z-преобразований компонент. Таким образом, в частотной области характеристическая система для свертки должна обладать следующим свойством: если на входе имеется произведение компонент, то на выходе должна возникнуть их сумма.

С учетом возможности вычисления комплексного логарифма, обратное преобразование комплексного логарифма преобразования Фурье входного сигнала, являющееся выходом характеристической системы для свертки, имеет вид

(2.8)

Выход характеристической системы назван «комплексным кепстром» Термин «кепстр» используется для величины

(2.9)

Все системы этого класса отличаются только линейной частью. Выбор линейной системы определяется свойствами входного сигнала.

Следовательно, для правильного построения линейной системы необходимо прежде всего определить вид и структуру сигнала на выходе характеристической системы, т. е. рассмотреть свойства комплексного кепстра для типичных входных сигналов.

Для определения свойств комплексного кепстра достаточно рассмотреть случай рационального z-преобразования. Наиболее общая форма преобразования имеет вид

(2.10)

где модули величин ак, bk, ck и dk меньше единицы. Таким образом, сомножители (1-akz-1) и (1-ckz-1) соответствуют нолям и полюсам внутри единичной окружности, a (1-bkz) и (1-dkz) - нолям и полюсам вне единичной окружности. Параметр zr означает соответствующую задержку во временной области. Комплексный логарифм X(z) имеет вид

. (2.11)

Когда (7.13) вычисляется на единичной окружности, легко видеть, что член вносит вклад только в минимальную часть комплексного логарифма. Поскольку этот член несет информацию только о взаимном расположении во временной области, то при вычислении комплексного кепстра он обычно опускается [2]. Таким образом, при обсуждении свойств комплексного кепстра далее этот член не рассматривается. Используя то обстоятельство, что логарифм можно разложить в степенной ряд, относительно несложно показать, что комплексый кепстр имеет вид

(2.12)

Уравнения (2.12) позволяют выявить ряд важных свойств комплексного кепстра. Прежде всего, комплексный кепстр в общем случае отличен от ноля и бесконечен как для положительных, так и для отрицательных значений n, даже если х(n) удовлетворяет принципу причинности, устойчив и имеет конечную протяженность. Далее видно, что комплексный кепстр является затухающей последовательностью, ограниченной сверху

(2.13)

где б - максимальное абсолютное значение величин а,k bk, сk и dk, в -постоянный сомножитель.

Если Х(z) не содержит нулей и полюсов вне единичной окружности (т.е. bk = dk=0),то

(2.14)

Такие сигналы называются минимально-фазовыми [1]. Общий результат для последовательности (2.14) состоит в том, что такая последовательность полностью определяется действительной частью преобразования Фурье. Таким образом, для минимально-фазовых систем комплексный кепстр определяется лишь логарифмом модуля преобразования Фурье. Это можно легко показать, если вспомнить, что действительная часть преобразования Фурье представляет собой преобразование Фурье от четной части последовательности, т. е. если - преобразование Фурье кепстра, то

(2.15)

Используя (2.14) и (2.15) легко показать, что

(2.16)

Таким образом, для минимально-фазовых последовательностей комплексный кепстр можно получить путем вычисления кепстра и последующего использования (2.16). Другой важный результат для минимально-фазовых систем заключается в: том, что комплексный, кепстр можно вычислить рекуррентно по входному сигналу [1, 2, 5]. Рекуррентная формула имеет вид

(2.17)

Аналогичные результаты можно получить и тогда, когда Х(г) не содержит полюсов и нулей, лежащих внутри единичной окружности. Такие сигналы называют максимально-фазовыми. Для этого случая, как это видно из (2.12),

(2.18)

Совместное использование (2.14) и (2.15) даёт

(2.19)

Как и в случае минимально-фазовых последовательностей, здесь также можно получить рекуррентное соотношение для кепстра

(2.20)

2.2 Кодирование речи на основе линейного предсказания

Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод - доминирующий при оценке таких основных параметров речевого сигнала как период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращённом представлении речи с целью её низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений.

Линейное предсказание - это метод анализа, основанный на цифровой фильтрации оцифрованной речи, при которой текущий отсчет сигнала может быть «предсказан» (например, при автоматическом синтезе речи) линейной комбинацией прошлых значений выходной последовательности и настоящих, а также прошлых значений входной последовательности. Понятие «линейная комбинация» означает сумму произведений известных дискретных отсчетов сигнала (входных и выходных), умноженных на соответствующие коэффициенты линейного предсказания для предсказания (определения) неизвестного выходного отсчета. При линейном предсказании основная задача анализа речи - найти коэффициенты этой линейной комбинации, которые дают минимальную ошибку предсказания на участке анализа сигнала.

Модель сигнала, наиболее часто используемая при линейном предсказании, сводится к получению неизвестного отсчета х(n) без учета предыдущих входных воздействий на выходе некоторой системы

(2.21)

(2.22)

где р - число коэффициентов, используемых в модели; k - коэффициенты линейного предсказания; G - коэффициент усиления, определяющий вклад в линейную комбинацию входного отсчета; u(n) - текущий входной отсчет.

Задача анализа оцифрованной речи сводится к определению коэффициентов k и G этой модели. Метод определения величин, используемых при расчетах, называется методом наименьших квадратов. Чтобы понять его суть, пойдем на некоторые упрощения в представлении текущего выходного отсчета. Будем считать, что входное воздействие на вход системы, моделирующей формирование речевых сигналов, ненаблюдаемо, что справедливо для ряда прикладных задач. Тогда на интервале анализа текущие отсчеты речевого сигнала приближенно опишутся линейной комбинацией предыдущих значений.

х(n) = а1х(n -1) + а2х(n - 2) +... + аkх(n - k) +... + арх(n -р) = (2.23)

где х(n-1),...,х(n-р) - предыдущие значения речевого сигнала. Получаемая при этом ошибка предсказания ер называется иногда остатком предсказания и равняется

(2.24)

Коэффициенты линейного предсказания а вычисляются из условия минимума среднеквадратичного значения ошибки на интервале анализа. На этом интервале полная среднеквадратичная ошибка складывается для каждого отсчета сигнала, представленного линейной комбинацией р предыдущих значений сигнала

(2.25)

Здесь n - номер предыдущего отсчета сигнала на анализируемом интервале; k - номер предыдущего отсчета сигнала при построении линейной комбинации, представляющей текущий отсчет.

(2.26)

Коэффициенты линейного предсказания, минимизирующие полную ошибку предсказания Е, находятся после того, как выражение для полной ошибки продифференцировать по всем коэффициентам (полная ошибка предсказания может рассматриваться как функция параметров аk) и приравнять нулю все частные производные.

Частными производными называются производные сложной функции по одной из переменных с учетом того, что остальные переменные при таком дифференцировании считаются константами.

Результатом дифференцирования по а, является система из линейных уравнений с неизвестными коэффициентами линейного предсказания, минимизирующими ошибку линейного предсказания на отрезке анализа

сигнала, где коэффициенты k считаются постоянными.

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале). Коэффициенты предсказания - это весовые коэффициенты, используемые в линейной комбинации.

Основные положения метода линейного предсказания хорошо согласуются с моделью речеобразования, где показано, что речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте). Метод линейного предсказания позволяет точно и надежно оценить параметры этой линейной системы с переменными коэффициентами.

Идеи и методы линейного предсказания довольно давно обсуждаются в технической литературе. Эти идеи используются в теориях автоматического управления и информации, где их называют методами оценивания систем, или металлами идентификации систем. Под термином «идентификация» понимаются методы линейного предсказания (ЛП), основанные на оценивании параметров, однозначно описывающих систему при условии, что ее передаточная функция является полюсной. Применительно к обработке речевых сигналов методы линейного предсказания означают ряд сходных формулировок задачи моделирования речевого сигнала [1,2]. Эти формулировки часто отличаются в исходных предпосылках. Иногда они сводятся, к различным методам вычисления, используемым для оценки коэффициентов предсказания. Так, применительно к речевым сигналам существуют следующие методы вычисления (часто равноценные); ковариационный [3], автокорреляционный [1, 2, 9], лестничного фильтра [11, 12].

обратной фильтрации [1], оценки спектра [12], максимального правдоподобия [4, 6] и скалярного произведения [1].

Целесообразность использования линейного предсказания обусловлена высокой точностью описания речевого сигнала с помощью модели.

Модель речеобразования в дискретном времени представляется в форме, наиболее удобной для решения задач линейного предсказания. В этом случае общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией

(2.27)

Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет, следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты {аk} цифрового фильтра. Все эти параметры, разумеется, медленно изменяются во времени.

Определение периода основного тона и классификация тон/шум могут быть осуществлены на основе использования ряда методов, в том числе с помощью рассматриваемых ниже методов линейного предсказания. Для вокализованных звуков хорошо подходит модель, содержащая только полюса в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов.

Отсчет речевого сигнала s(n) связан е сигналом возбуждения u(n) простым разностным уравнением

(2.28)

Линейный предсказатель с коэффициентами аk определяется как система, на выходе которой имеем

(2.29)

Системная функция предсказателя р-го порядка представляет собой полином вида

(2.30)

Погрешность предсказания определяется как

(2.31)

Из (2.31) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

(2.32)

Сравнение (2.28) и (2.31) показывает, что если сигнал точно удовлетворяет модели (8.2), то e(n)=Gu(n). Таким образом, фильтр погрешности предсказания A (z) является обратным фильтром для системы H(z), соответствующей уравнению (2.27), т. е.

(2.33)

Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров {} по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (2.31). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H(z) в модели речеобразования.

То, что подобный подход приводит к полезным результатам, возможно, не сразу очевидно, но его полезность будет неоднократно подтверждена различными способами. Во-первых, пусть e(n)=Gu(n). Для вокализованной речи это означает, что е(n) будет состоять из последовательности импульсов, т.е. е(n) будет весьма мало почти все время. Поэтому в данном случае минимизация погрешности предсказания позволит получить требуемые коэффициенты. Другой повод, приводящий к тому же подходу, вытекает из того, что даже если сигнал формируется системой (2.28) с постоянными во* времени параметрами, которая возбуждается либо единичным импульсом, либо белым шумом, то можно показать, что коэффициенты предсказания, найденные по критерию минимизации среднего квадратического значения погрешности (в каждый момент времени), совпадают с коэффициентами в (2.28). Третьей, весьма важной для практики причиной является то, что подобная минимизация приводит к линейной системе уравнений, решение которых сравнительно легко приводит к получению параметров предсказания. Кроме того, полученные параметры, как это будет ясно из дальнейшего, составляют весьма плодотворную основу для точного описания сигнала. Кратковременная энергия погрешности предсказания

(2.35)

(2.36)

(2.37)

где - сегмент речевого сигнала, выбранный в окрестности отсчета n, т. е.

(2.38)

Пределы суммирования справа в (2.35)-(2.37) пока не определены, но поскольку предполагается использовать концепции кратковременного анализа, то эти пределы всегда предполагаются конечными. Кроме того, для получения среднего значения необходимо разделить полученный результат на длину речевого сегмента, Однако эти константы несущественны с точки зрения решения системы линейных уравнений и поэтому далее опускаются. Параметры ак можно получить, минимизируя Еn в (2.37) путем вычисления, что приводит к системе уравнений

(2.38)

где - значения аК, минимизирующие Еn. Если ввести определение

(2.39)

тогда (2.38) можно переписать в более компактном виде

(2.40)

Эта система из р уравнений с р неизвестными может быть решена достаточно эффективным способом для получения неизвестных коэффициентов предсказания, минимизирующих средний квадрат погрешности предсказания на сегменте . Используя (2.37) и (2.39), можно показать, что средняя квадратическая погрешность предсказания имеет вид

(2.41)

и, используя (2.40), можно выразить Еn в виде

(2.42)

Таким образом, общая погрешность предсказания состоит из двух слагаемых, одно из которых является постоянным, а другое - зависит от коэффициентов предсказания.

Для решения системы уравнений относительно коэффициентов предсказания следует первоначально вычислить величины , 1?i?р и 1?o?р. Только после этого можно переходить к решению (2.40) и получению оценок Таким образом, принципиально анализ на основе линейного предсказания очень простой. Однако подробности, связанные с вычислением и последующим решением системы уравнений, являются достаточно запутанными и нуждаются в дальнейшем обсуждении.

Хотя пределы суммирования в (2.35)-(2.37) и (2.39) не определены, в (2.39) они совпадают с соответствующими пределами в (2.35)-(2.37). Как было установлено, для кратковременного анализа соответствующие пределы должны охватывать конечный интервал. Имеется два подхода к этому вопросу, и в зависимости от пределов суммирования и выбора сегмента 8п(ш) различают два метода линейного предсказания: автокорреляционный метод и ковариационный метод.

В зависимости от определения сегмента анализируемого сигнала можно получить две различные системы уравнений. Для автокорреляционного метода сигнал взвешивается с использованием N-точечного окна и величины получаются на основе кратковременной автокорреляционной функции. Полученная матрица корреляций является теплицевой и приводит к первой системе уравнений для параметров предсказания. При ковариационном методе сигнал предполагается известным на множестве значений -p?n?N-1. Никаких предположений о сигнале вне данного интервала не делается, поскольку только этот интервал необходим для вычислений. Полученная матрица корреляций в данном случае симметричная, но не теплицева (симметричная и такая, что элементы на любой диагонали равны между собой). В результате два различных метода вычисления корреляции приводят к двум различным системам уравнений и к двум совокупностям коэффициентов предсказания с различными свойствами.

2.3 Цифровая обработка речи в системах речевого общения человека с машиной

2.3.1 Классификация систем речевого общения человека с машиной

Эта область является чрезвычайно важной, дающей все новые и новые приложения, область, которая только еще развивается и демонстрирует огромные возможности для широкого применения.

Системы речевого обмена между человеком и машиной можно подразделить на три класса: с речевым ответом, распознавания диктора и распознавали речи.

Системы с речевым ответом предназначаются для выдачи информации пользователю в форме речевого сообщения. Таким образом, системы с речевым ответом - это системы односторонней связи, т. е. от машины к человеку. С другой стороны, системы второго и третьего классов - это системы связи от человека к машине. В системах распознавания диктора задача состоит в верификации диктора (т. е. в решении задачи о принадлежности данного диктора к некоторой группе лиц) или идентификации диктора из некоторого известного множества. Таким образом, класс задач распознавания диктора распадается на два подкласса: верификации и идентификации говорящего.

Последний класс задач распознавания речи также можно разделить на подклассы в зависимости от таких факторов, как размер словаря, количество дикторов, условия произнесения слов и т. д. Основная задача распознающей системы сводится либо к точному распознаванию произнесенной на входе фразы (т.е. система фонетической или орфографической печати произнесенного текста), либо к «пониманию» произнесенной фразы (т. е. к правильной реакции на сказанное диктором). Именно задача понимания, а не распознавания наиболее важна для систем с достаточно большим словарем непрерывных речевых сигналов, в то время как задача точного распознавания более важна для систем с ограничением словарем, малым количеством дикторов, систем распознавания изолированных слов.

2.3.2 Системы с речевым ответом

Элементами общей структурной схемы системы с речевым ответом на базе ЭВМ являются блоки памяти для хранения словаря системы с речевым ответом; хранения правил синтеза сообщений по элементам словаря; программ формирования речевого ответа.

На вход системы с речевым ответом поступает сообщение о содержании вопроса, порождаемого либо другой системой обработки информации, либо непосредственно от человека, обратившегося с интересующим его вопросом к информационной системе. Откликом системы на поставленный вопрос служит выходное сообщение в виде речевой фразы. Простым примером такой системы является автоматическая справочная телефонная служба, которая обнаруживает неправильно набранный номер, определяет причину ошибки (например, телефон отключен или ему присвоен новый номер и т. д.) и посылает на выход системы с речевым ответом сообщение, содержащее необходимее абоненту указания. В таких системах словарь обычно состоит из ограниченного набора изолированных слов (например, цифр с различными окончаниями).

В качестве другого примера рассмотрим информационную систему о состоянии курса акций. Здесь абонент должен с помощью кнопочного набора ввести код интересующего его курса. Система декодирует набор, определяет текущий курс акций и затем выдает соответствующую информацию в систему с речевым ответом для составления требуемой фразы. В данном случае словарь должен содержать достаточно широкий набор различных слов и фраз.

Существуют два основных подхода к построению систем с речевым ответом. Один из них заключается в попытке построения системы, речевые возможности которой сравнимы с возможностями человека. В этом случае для синтеза достаточно хранить словарь произношений элементов. Сигналы, необходимые для управления речевым синтезатором, в соответствии с моделью речеобразования формируются на основе правил синтеза. Такие системы представляют интерес в том случае, если требуется словарь весьма большого объема. Реализация подобных систем - это проблема, требующая чрезвычайно трудоемких исследований, и на этапе синтеза сигнала имеются обширные возможности применения рассмотренных выше методов цифровой обработки сигналов.

В системах с речевым ответом второго типа используется ограниченный словарь, и сигнал на выходе таких систем формируется посредством сочленения отдельных элементов реального речевого сигнала, взятых из словаря. Сообщения конструируются в этом.случае путем отыскания требуемых слов и фраз в памяти и воспроизведения их в требуемой последовательности. При разработке систем подобного типа следует учитывать три основных соображения. Во-первых, способ представления и хранения словаря должен быть выбран таким образом, чтобы в разработанной системе имелась возможность свободного доступа к любому элементу словаря. Во-вторых, должен быть выбран способ редактирования речевого материала словаря совместно со способом записи его элементов в память. В-третьих, необходимо обеспечить заданную последовательность выбора и воспроизведения элементов словаря (т.е. способ формирования сообщения).

Поскольку назначение систем с речевым ответом состоит в формировании речевых сообщений, предназначенных для человека, Требование к разборчивости становится определяющим. Не менее важное, значение, однако, имеют и такие параметры речи, как качество восприятия и натуральность. Таким образом, в разрабатываемой системе необходимо с предельной полнотой реализовать все три основных условия с тем, чтобы добиться максимально возможной разборчивости и натуральности речевого сигнала.

Центральным фактором, определяющим сложность систем с речевым ответом, является выбор способа цифрового представления речи при составлении словаря. Выбор способа цифрового представления оказывает большое влияние на объем и тип цифровой памяти, а также на способ синтеза речевого сообщения.

При рассмотрении способа цифрового представления речевого сигнала применительно к системам с речевым ответом полезно остановиться на трех основных моментах:

скорость передачи информации (в битах в секунду), необходимая для получения приемлемого качества;

сложность способа кодирования и декодирования;

гибкость представления, т. е. возможность модификации элементов словаря.

Представление на основе кодирования речевого колебания требует наибольших скоростей передачи и, следовательно, максимального объема памяти для хранения элементов словаря. Эти способы являются простейшими с точки зрения алгоритмов кодирования-декодирования. С другой стороны, способы анализа-синтеза, которые буквально «разбивают речевой сигнал на части», обладают широкими возможностями полезной модификации элементов словаря. Два первых фактора, т.е. скорость передачи и сложность реализации, оказывают существенное влияние на технико-экономические показатели при разработке полностью цифровых систем речевого ответа.

Другой важной задачей, решаемой при построении систем с речевым ответом, являются создание и редактирование словаря. При решении этой задачи, т. е. подготовке элементов словаря и обеспечении высококачественного сигнала на выходе, цифровые методы оказываются чрезвычайно эффективными и гибкими. Обычно слова и фразы, включаемые в словарь, произносятся специально обученным диктором и записываются с высоким качеством. Затем слова или фразы подвергаются аналого-цифровому преобразованию и кодированию. Цифровое представление (которое может быть как описанием формы сигнала, так и основанным, на представлении типа, «анализ-синтез») оперативно хранится в цифровой форме в ЭВМ. Для исключения пауз между фразами используется специальный метод поиска начала и конца фразы. При высококачественной записи начало и конец каждой фразы можно определить с высокой точностью. При этом можно точно сказать, удовлетворяет ли протяженность данной фразы заданной. Фраза, кроме того, может быть воспроизведена для

Страницы: 1, 2, 3, 4


© 2007
Полное или частичном использовании материалов
запрещено.