Рассылка спама от имени компании. Спам рассылки,делаем правильно. Подписывайтесь реальным именем

В настоящее время разработано достаточно большое количество объективных методов, основные из которых: AI (articulation Index) - индекс артикуляции; %ALcons (percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (speech transmission index) - индекс передачи речи; RASTI (rapid speech transmission index) - быстрый индекс передачи речи; SII (speech intelligibility index) - индекс разборчивости речи и др. (стандарты ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и др.).

На их анализе остановимся более подробно в данной статье, поскольку применение современных методов компьютерной оценки разборчивости речи является очень полезным при работе звукорежиссера в студиях и театрально-концертных залах (особенно если в них установлена система звукоусиления), а также при оценке качества речевых сигналов при передаче по каналам радиовещания, телефонии, в системах перевода речей и пр.

Объективные методы оценки разборчивости речи

Многолетний опыт проектирования залов различного назначения (аудиторий, лекционных залов, кинозалов, театральных залов и др.) и результаты многочисленных исследований показали, что разборчивость речи в помещении определяют следующие акустические характеристики:

Уровень прямого речевого сигнала во всех точках зала;

Уровень внешних и внутренних шумов;

Время реверберации;

Структура, уровень и направление прихода отраженных сигналов.

При этом для хорошей разборчивости речи требуются: достаточно высокий уровень отношения полезного сигнала к уровню шума (для студий звукозаписи он должен соответствовать кривой NC-15) (рис.1), небольшое время реверберации (в пределах до 1,1 с) и структура отражений, характеризующаяся отсутствием эха и наличием интенсивных ранних отражений при низком уровне поздних.

Рис. 1 Стандартизированные кривые уровня шумов NC

Влияние реверберационного процесса на структуру речевого сигнала можно отчетливо увидеть на примере осциллограмм, записанных в заглушенной камере и в помещении с большим значением реверберации (рис.2). Естественно, что при таком существенном изменении временной структуры речевого сигнала процесс его распознавания существенно ухудшается.


Рис. 2 Осциллограмма речевого сигнала
в заглушенной камере и в помещении

Существующие в настоящее методы объективной оценки разборчивости в той или иной степени связаны с перечисленными акустическими характеристиками. Кроме того, на разборчивость речи влияют параметры системы звукоусиления, если она установлена в зале (рис.3), о чем уже было сказано в первой части статьи.


Рис. 3 Параметры системы звукоусиления,
влияющие на разборчивость

Объективные методы оценки разборчивости можно разделить на две группы.

Первая аддитивная группа базируется на том предположении, что результирующая разборчивость речи определяется суммой вкладов в отдельных частотных полосах, а величина вклада зависит от отношения сигнала к шуму в каждой полосе.

К этой группе относится несколько методов.

1. AI - Индекс артикуляции.

Использование индекса артикуляции было предложено Г. Флетчером в лаборатории Bell Telephone Laboratories (США) в 1940 году.

Идея заключается в том, что весь частотный диапазон речевого сигнала разделяется на некоторое количество полос (обычно на 20), в пределах которых определяется отношение сигнала к шуму. Предполагается, что каждая частотная полоса вносит свой независимый вклад в разборчивость речи. Ширина полос выбрана таким образом, чтобы вклад каждой полосы в результирующую разборчивость был одинаковый.

В каждой полосе рассчитывается отношение "сигнал/шум", взвешивается и суммируется для получения индекса артикуляции: АI = ∑AIj, где AI - индекс артикуляции, 0
Рис. 4 Соотношение между разборчивостью
и индексом артикуляции AI

Значения AI ниже 0,3 соответствуют плохой разборчивости; от 0,3 до 0,5 - удовлетворительной; 0,5...0,7 - хорошей; выше 0,7 - очень хорошей. Соотношение между артикуляционным индексом и словесной разборчивостью для английской речи показано на рисунке 4. Как следует из определения, основное влияние на величину индекса артикуляции оказывает уровень шумов в помещении, примеры распределения значений AI в разных точках аудитории при уровне шумов, соответствующих кривым NC-50 и NC-35, представленных на рис.1, показаны на рис.5а и 5б.



Рис. 5 Распределение индекса артикуляции AI
в разных точках аудитории
при разном уровне шумов: a-NC-50; б-NC-35

Видно, что в первом случае, значение индекса артикуляции падает от 0,93 (93%) вблизи оратора до 0,18 (18%) в дальней точке, то есть помещение имеет в основной зоне плохую разборчивость ниже 0,7 (70%). Во втором случае AI падает от 93% до 62%, в основной зоне помещения он превышает 70%, следовательно, только уровень шумов ниже NC-35 позволяет обеспечить приемлемую разборчивость речи в аудитории без звукоусиления.

Необходимо отметить, что в России этот метод был подробно разработан в трудах М.А. Сапожкова и др., он получил название "метода формантной разборчивости", при этом методика его определения приобрела некоторые изменения. Для расчетов выбирается частотная полоса речевого сигнала 150...7000 Гц, поскольку внутри этой полосы располагаются практически все форманты гласных и согласных русской речи. (Определение формант как частотных полос, где имеются максимумы акустической энергии, и их расположение в частотной области было рассмотрено в предыдущих частях этой статьи). Эта полоса делится на 20 подполос, вероятность появления формант в каждой полосе равна 0,05.


Рис. 6.а. Определение коэффициента Кф

В результате маскировки шумом уменьшается вероятность восприятия формант (в первую очередь для согласных звуков, потому что они ниже по уровню), а следовательно и уровень разборчивости речи. Общий коэффициент формантной разборчивости также определяется как АI = ∑AIj, где AIj = 0,05Кф. Коэффициент Кф называется коэффициентом восприятия формант (или коэффициентом разборчивости в к-полосе). Он определяется следующим образом: рассчитывается разница Еф между средним уровнем речи в каждой полосе Вр и средним уровнем шумов и помех в этой же полосе Вш: Еф = Вр-Вш. Из полученного значения Еф в каждой полосе определяется по графику значение коэффициента Кф (рис.6а). Отсюда по вышеуказанной формуле для каждой полосы рассчитывается коэффициент AIj, и затем суммарный коэффициент формантной разборчивости (индекс артикуляции). Связь этого коэффициента с величиной слоговой разборчивости для русской речи показана на рис.6б. Интересно, что при потере почти половины формантной разборчивости слоговая разборчивость составляет 80%, то есть речь обладает достаточным запасом по информационной избыточности.


Рис. 6.б. Соотношение между слоговой
разборчивостью и индексом артикуляции AI
(русская речь)

Несмотря на простоту применения, метод расчета артикуляционного индекса имеет ряд существенных недостатков: он учитывает только влияние шума на разборчивость, и не учитывает влияния других факторов (времени реверберации, структуры отражений и др.). Поэтому он больше подходит для оценки разборчивости в системах связи, а при оценке разборчивости в помещении с временем реверберации Трев > 0,5 с он дает не очень хорошее совпадение с субъективными оценками. Этот метод считается устаревшим, и в современной практике используются в основном другие критерии.

2. SII - индекс разборчивости речи. Он был предложен как дальнейшее развитие метода AI и даже включен в американский стандарт для оценки разборчивости речи ANSI S3.5-1997.

В стандарте предлагается четыре измерительные процедуры, каждая использует различное число и размер частотных полос в пределах диапазона 150...8500 Гц:

Критические полосы (21 полоса);

Третьоктавные полосы (18 полос);

Равные по вкладу критические полосы (17 полос);

Октавные полосы (6 полос).

В каждой из них вычисляется отношение "сигнал/шум" и затем рассчитывается суммарный коэффициент SII, который может изменяться в пределах от 0 до 1.

Поскольку здесь используются критические полосы (о них было написано в предыдущих статьях по психоакустике), метод дает несколько лучшую корреляцию с субъективными экспертизами. Однако, проблемы учета искажений во временной области(реверберация, эхо и др.) по-прежнему остаются.

3. %ALcons - процент артикуляционных потерь согласных (percentage Articulation Loss of Consonants).

Этот метод был разработан В. Пьютцем из Голландии - его первая статья была опубликована в 1971 году в JAES. С того времени он опубликовал много работ по данному направлению, в 1984 году разработал алгоритм для измерений с помощью TEF-анализатора. Идея заключается в том, что для объективной оценки разборчивости вычисляется процент потери согласных, которые в основном и определяют смысловое содержание речи. Чем больше этот процент, тем хуже разборчивость речи в помещении. Максимально допустимое значение - 10% (при условии, что помещение относительно свободно от маскирующего шума). Для помещений, используемых для целей обучения, и для систем оповещения он должен составлять не больше 5%.

Первая из предложенных Пьютцем формул для расчета процента потери согласных ALcons имела следующий вид:

%ALcons= 200D2RT602(N)/VQM, где:

D - расстояние от источника звука (оратора, певца или громкоговорителя) до самого удаленного слушателя, м;

RT60 - стандартное время реверберации, с;

V - объем помещения, м3;

Q - фактор направленности источника звука для расчетной точки;

М - поправочный коэффициент, учитывающий влияние различных акустических и электроакустических эффектов (как правило равен единице);

N - коэффициент, учитывающий использование в системе нескольких источников.

В случае, если используется несколько излучателей для озвучивания помещения и все они одинаковы, то N определяется как отношение общего количества акустических систем к числу систем, обеспечивающих прямой звук в расчетной точке.

Как следует из этой формулы, в ней учитывается влияние объема помещения, расстояние до источника звука, коэффициенты направленности источников звука, отношение прямой энергии к реверберирующей и т.д. Из нее также следует, что для достижения уровня %ALcons = 10% время реверберации не должно быть больше 1,1 с. Было также установлено, что повышение уровня давления, создаваемого громкоговорителями, приводит к улучшению разборчивости до тех пор, пока уровень сигнала не достигает значения +25 дБ по отношению к уровню фонового шума. Дальнейшее повышение уровня давления (излучаемой акустической мощности) вопреки обычным представлениям не сказывается на степени разборчивости, так как это приводит к росту уровня как прямого, так и диффузного звуков.

Этот метод широко используется на практике (особенно в США), он позволяет учесть влияние реверберации на разборчивость речи и дает хорошую корреляцию в ряде случаев с субъективными оценками.

Примеры расчета значений %ALcons для разных точек помещения (речевой аудитории) при времени реверберации 3,5 и 1,2 с (рис.7а,б) показывают, что при большом времени реверберации значения %ALcons достигают 26% процентов в дальних точках помещения, что недопустимо. В то же время в более заглушенной аудитории, на большей части площади %ALcons не превышает 10%, что обеспечивает вполне удовлетворительную разборчивость речи.



Рис. 7 Распределение в помещении
значений %ALcons: a-T=3,5; б-T=1,2 c

Но у этого метода есть свои недостатки: он основан на измерении в одной третьоктавной полосе вокруг 2000 Гц, поскольку здесь сосредоточена основная энергия согласных звуков. Все другие частоты обычно не используются, что может приводить к значительным погрешностям, в частности, за счет частотной зависимости коэффициента направленности источника звука от частоты и соответствующего изменения по частотному диапазону отношения уровня прямого звука к реверберирующему. Кроме того, этот метод не учитывает целый ряд важных для разборчивости параметров: отношение "сигнал/шум", поздние отражения и эхо, спектр фонового шума и др. Правда, позднее Пьютцем была предложена новая методика, позволяющая учесть фоновый шум. При этом предлагается значения %ALcons, вычисленные по вышеприведенной формуле, умножить на коэффициент, учитывающий уровень шумов в помещении:

%AL"cons = %ALcons(1,071Т-0,0285)25+(Ln-Ls), где:

Ln - уровень шума в помещении, дБ; Ls - уровень речевого сигнала, дБ.

Однако проблемы, связанные с применением этого критерия (возможность эффективного применения в основном в помещениях сравнительно небольшого объема, неучитывание ранних отражений, эхо и др.) остаются, поэтому работы по усовершенствованию этого критерия все время продолжаются.

Вторая группа методов для объективной оценки разборчивости построена на оценке модуляционной передаточной функции системы. К их числу относятся методы STI, RASTI, STIPA и др.

1. STI - Индекс передачи речи (speech transmission index).

Особая группа методов, позволяющая объективно оценить разборчивость речи в помещении, была разработана на основе использования модуляционной передаточной функции MTF (The Modulation Transfer Function).

Идея методов заключается в том, что, как было рассмотрено в предыдущих частях этой статьи, речевой сигнал представляет собой свертку импульсной характеристики звукового сигнала источника (для гласных звуков это импульсный сигнал с почти гармоническим спектром, для согласных это шумовой сигнал различной формы) с импульсной характеристикой голосового тракта. Как показывает анализ рис.8, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал (с полосой 125...8000 Гц), модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит форманты (скоростью артикуляции). Эксперименты показали, что частоты модуляции в обычной речи находятся в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5...7 Гц.

Уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой и, следовательно, приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи или помещение за счет реверберации, искажений и шумов происходит уменьшение разборчивости сигнала, что может быть оценено по степени уменьшения его глубины модуляции (изменения формы огибающей сигнала).


Рис. 8 Осциллограмма речевого сигнала

Поэтому в работах Хоутгаса и Стинекена в 1971 году был предложен следующий метод оценки разборчивости: весь речевой диапазон от 125 Гц до 8000 Гц разбивается на семь октавных полос. На вход испытываемой системы, например, на акустическую систему, установленную в точке помещения, где должен находится диктор (оратор), подается октавный шумовой сигнал с центральными частотами 125; 250; 500 Гц; 1; 2; 4 и 8 кГц, распределение интенсивности которого по октавным полосам совпадает с распределением интенсивности речевого сигнала. Сигнал этот модулируется гармоническим сигналом со стопроцентным индексом модуляции (рис.9): I(t) = I0(1+cos2πFt). При этом характеристика направленности акустической системы, через которую сигнал излучается в помещение, должна быть близка к характеристике направленности ротового отверстия. Частоты модулирующего сигнала меняются в пределах от 0,63 до 12,5 Гц с третьоктавным интервалом (всего четырнадцать частот). В точке, где должен располагаться слушатель, сигнал принимается ненаправленным микрофоном, при этом за счет шумов и процессов реверберации в помещении форма сигнала изменяется, и глубина его модуляции уменьшается.


Рис. 9 Вид модулированного сигнала

Сигнал теперь может быть представлен в форме: I(t) = I0(1+mcos(2πFt+ φ)), где:

M - коэффициент, характеризующий уменьшение глубины модуляции. Он является функцией частоты модуляции F и зависит от времени реверберации в помещении и отношения "сигнал/шум" (зависимость величины 20lg(m(F)) от частоты F называется модуляционной передаточной функцией);

I0 - амплитудное значение сигнала;

F - частота сигнала;

T - время;

φ - начальная фаза.


Рис. 10 Шкала CIS

В предлагаемом методе измерения проводятся для 98 точек для семи октавных полос подаваемого шума и 14 значений частот модуляции. Полученная матрица из 98 точек используется для расчета STI (speech transmission index) путем взвешивания среднего значения m(F) в каждой полосе частот в соответствии с их общим вкладом в разборчивость. Пример такой матрицы, полученной с помощью компьютерной станции MLSSA, приведен ниже на

Методы измерения разборчивости с помощью STI введены в международный стандарт IEC 268-16. Этот метод предполагает проведение измерений в широком диапазоне частот и поэтому учитывает частотную зависимость времени реверберации, неравномерность АЧХ и другие частотно-зависимые эффекты, что в результате дает достаточно хорошую корреляцию с субъективными оценками.

Для того, чтобы была возможность сравнить результаты оценок разборчивости, полученных различными методами, была разработана общая шкала разборчивости CIS (стандарт IEC-60849), позволяющая пересчитывать значения разборчивости, полученной разными методами (как субъективными, так и объективными) одна в другую (рис.10). Например, значение STI равное 0,7, соответствует значению %ALcons 3,8%, что соответствует 94% слоговой разборчивости и обеспечивает хорошую разборчивость в помещении. Пределы изменения STI для обеспечения хорошей разборчивости составляют 0,6...1,0.

2. RASTI - быстрый индекс передачи речи (rapid speech transmission index).

Поскольку расчет разборчивости вышеуказанным методом представляет собой довольно трудоемкую процедуру, фирмой Bruel & Kjaer был разработан альтернативный упрощенный метод, предусматривающий измерения только в двух октавных полосах 500 Гц при частотах модуляции 1,02/2,03/4,07/8,14 Гц, а также 2 кГц при частотах модуляции 0,73/1,45/2,90/5,81/11,63 Гц. Дальше процедура измерений происходит как и в предыдущем случае, строится матрица, рассчитывается усредненное значение модуляционной передаточной функции в полосах частот и по нему определяется нормализованный индекс RASTI.

Для реализации этого метода фирмой Bruel & Kjaer были разработаны соответствующая аппаратура (B&K3361 RASTI Meter) и программное обеспечение, поэтому эта методика принята практически во всех европейских стандартах. Однако поскольку измерения проводятся только в двух октавных полосах, то они дают несколько завышенные значения, поскольку не учитывают неравномерность АЧХ и ФЧХ в системе. С целью еще большего ускорения процедуры измерений фирма предложила метод, при котором сигналы предъявляются одновременно в двух октавных полосах со всеми модулирующими сигналами одновременно.

Измерения производятся в непрерывном режиме и позволяют производить параллельный анализ в двух октавных полосах. Интервал времени для анализа требуется не менее 8 с. Для хорошей разборчивости требуется, чтобы значения RASTI в разных точках помещения были не ниже 0,6. Для его оценки измерения проводятся в разных точках помещения и строятся кривые его распределения. Пример показан на рис.11.


Рис. 11 Пример распределения RASTI значений в помещении

Следует отметить, что, строго говоря, методы оценки разборчивости с помощью модуляционных передаточных функций применимы только к линейным системам. Большинство же реальных систем нелинейны, особенно если речь идет об оценке разборчивости в системах коммуникаций (в телефонных каналах, например). Воздушное пространство в помещении можно считать линейной средой, но надо строго контролировать линейность измерительной аппаратуры.

Поиски простых и надежных методов для оценки разборчивости все время продолжаются. В 2001 году фирмой Bose была предложена методика измерений STI со специальным оптимизированным тестовым сигналом, представляющим собой модулированный шум в шести октавных полосах с двумя одновременными частотами модуляции в каждой октаве. Эта методика получила название STI-РА (то есть предназначенная для оценки систем звукоусиления РА).

Кроме того, развитие цифровых методов обработки звука и увеличение скорости компьютерной обработки позволило создать методику (она была предложена Шредером), с помощью которой значения модуляционной передаточной функции можно рассчитать из импульсных измерений сигнала с его соответствующей фильтрацией. Современные компьютерные метрологические станции TEF, MLSSA и др. используют именно эти методы для расчета разборчивости.

Необходимо отметить, что, кроме наиболее распространенных сейчас методов оценки разборчивости речи, использующих модуляционную передаточную функцию, достаточно широко используются при оценке помещений и другие методы, например, оценка разборчивости речи по коэффициенту четкости (ясности).

С50 - коэффициент четкости. Коэффициент С50 определяет четкость (ясность) звучания музыки, и вычисляется как отношение ранней к поздней энергии отраженных звуков в помещении. В 1996 году Маршалл предложил использовать этот коэффициент для оценки разборчивости речи, для этого необходимо измерять отношение Еран/Епозд в нескольких частотных полосах, со специальным взвешиванием для речевого сигнала. Измерения проводятся с помощью анализа импульсной характеристики с последующим компьютерной обработкой - к ранней относится энергия сигнала в пределах первых 50 мс. Несмотря на простоту измерений, метод дает неплохую корреляцию с субъективными оценками, но он также обладает определенными недостатками: учитывает только влияние реверберационного процесса, слабо учитывает структуру мешающей части отклика, в которой могут быть поздние отражения большой интенсивности.

Эти отражения часто приводят к появлению эха, снижающему разборчивость речи. Указанные недостатки в значительной мере ликвидированы в критерии, предложенном Низе, и названным "степенью эха". Низе ввел новую 33 мс границу между полезной и мешающей энергией, причем полезная энергия берется с весовой функцией, смягчающей резкую границу деления импульсного отклика. Мешающей же считается не вся энергия, а только энергия отражений, превышающих экспоненциальную кривую процесса реверберации данного помещения. Известны и другие модификации этого метода.

В настоящее время созданием международных рекомендации по оценке разборчивости речи занимается специальная группа Комитета Стандартов AES (председатель П. Мапп). Специалисты этой группы занимаются сравнительным анализом различных методов оценки разборчивости. В процессе этих работ были получены, в частности, достаточно простые аналитические соотношения между разными коэффициентами по оценке разборчивости речи, которые могут быть полезны в практической работе по оценке помещений.

В заключение следует отметить, что проблема оценка разборчивости речи чрезвычайна сложна, поскольку она зависит не только от факторов, которые поддаются объективным измерениям (время реверберации, уровень шумов, структура ранних отражений и др.), но и от таких субъективных факторов, как степень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состоянием его слуха и др. Поэтому создание автоматизированной компьютерной системы объективной оценки разборчивости речи - проблема трудная, но, поскольку она чрезвычайно важна для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, можно надеяться, что такая достаточно надежная система будет создана.

Понятность речи 1 является качественной характеристикой тракта. Для ее непосредственного определения есть только один метод: статистический с участием большого числа операторов (слушателей и дикторов). Разработан косвенный, количественный метод определения понятности речи через ее разборчивость.

Разборчивостью речи называют относительное или процентное количество принятых специально тренированными слушателями (артикулянтами) элементов речи из общего количества переданных по тракту (см. ). В качестве элементов речи применяют слоги, звуки, слова, фразы (команды), цифры. Соответственно этому есть слоговая, звуковая, словесная, смысловая и цифровая разборчивость. В практике используют преимущественно слоговую, звуковую и словесную разборчивость. На рис. 10.5 приведены статистические зависимости между слоговой словесной и звуковой разборчивостью для обычных телефонных переговоров на русском языке. В табл. 10.2 приведены градации понятности речи и соответствующие им значения разборчивости, измеренные артикулянтами.

Таблица 10.2. (см. скан) Разборчивость речи для различных градаций понятности передачи

Рис. 10.5. Зависимости: а - между словесной и слоговой разборчивостью речи; между звуковой и слоговой разборчивостью речи

Таблица 10.3. (см. скан) Нормы на допустимые искажения трактов речевых информационных передач

Понятность речи была определена для обычных абонентов в процессе обычных телефонных переговоров. При этом понятность считалась отличной, если переговоры велись без переспросов; хорошей, если были отдельные переспросы редко встречающихся слов или неизвестных фамилий, названий и т.п., о которых нельзя догадаться по смыслу; удовлетворительной, если требовались частые переспросы и слушатели сообщали, что трудно разговаривать; предельно допустимой, если требовались неоднократные переспросы одного и того же материала в передаче отдельных слов по буквам и с полным йапряжением слушателей. В табл. 10.3 даны допустимые искажения для трактов речевой связи и информационных трактов.

ФОРМАНТНЫЙ МЕТОД РАСЧЕТА РАЗБОРЧИВОСТИ РЕЧИ

Форманты звуков речи заполняют весь частотный диапазон Гц. Этот частотный диапазон делят на 20 полос равной разборчивости. В табл. 10.4 приведены границы таких полос для русского языка. Там же приведены и средние значения частоты для этих полос. Вероятность появления формант в каждой полосе равной разборчивости равна 0,05. При слушании речи в условиях шумов и помех разборчивость получается меньшей, чем в их отсутствие. Коэффициент, определяющий это уменьшение, называют коэффициентом восприятия или коэффициентом разборчивости до, т. е. в каждой полосе равной разборчивости вероятность приема формант .

Рис. 10.6. Зависимость коэффициента разборчивости речи от уровня ощущения ее формант: 1 - для обычной речи; 2 - для предельно ограниченной по амплитуде

Коэффициент разборчивости до определяется уровнем ощущения формант где средний спектральный уровень речи; спектральный уровень шумов.

На рис. 10.6 показано распределение спектральных уровней речи, т. е. интегральная вероятность появления уровня не менее заданного уровня речи, определенного за длительный интервал времени, и заданного уровня (кривая У). Эта вероятность практически совпадает с вероятностью распределения формант. Заметим, что это распределение почти не зависит от частоты. Кривая 2 соответствует предельно ограниченной речи (по амплитуде).

Коэффициент разборчивости до для гладких шумов 1 может быть определен с помощью рис. 10.6 и табл. 10.5. Для примера на этом рисунке показаны уровень ощущения (равным разности спектральных уровней речи и шумов и соответствующий ему коэффициент разборчивости дол. Он также может быть определен по приближенным формулам (см. § 10.7).

Для каждой полосы равной разборчивости коэффициент разборчивости в общем случае будет разный

Поэтому суммарная вероятность приема формант, называемая разборчивостью формант.

РАЗБОРЧИВОСТЬ РЕЧИ

В помещениях, предназначенных для слушания речи, основное значение имеет ее разборчивость. Разборчивостью речи называют относительное или процентное количество правильно принятых слушателями элементов речи из общего количества произнесенных. Элементы речи - это слоги, звуки, слова, фразы. Соответственно этому различают слоговую, звуковую, словесную, смысловую разборчивость речи.

Определение разборчивости речи осуществляется с помощью специальных артикуляционных таблиц, читаемых диктором в исследуемом помещении. Поэтому данный метод исследования называют артикуляционным. Образцы артикуляционных таблиц слогов приведены в прил. IV (табл. I, 2). Количество слушателей определяется размерами помещения. Обычно в исследовании участвуют не менее 20 слушателей, равномерно распределяемых по всему помещению. Слушатели записывают, в бланки элементы речи так, как они их услышали. Затем слушатели меняются местами и записывают следующие артикуляционные таблицы. Статистическая обработка полученных результатов позволяет оценить разборчивость речи в различных местах помещения.

В помещениях, в которых слоговая разборчивость равна или более 85%, разборчивость речи считается отличной. Неудовлетворительной разборчивости речи (около 40%слоговой разборчивости) соответствует примерно 90%разборчивости фраз.

Разработан ускоренный метод оценки разборчивости речи - метод выбора. Он отличается тем, что сходные по звучанию слова сгруппированы в таблицы (см. прил. IV, табл. 3). Диктор зачитывает из каждой группы сходных слов только одно слово, а слушатели, имея таблицы, отмечают то слово, которое, по их мнению, было зачитано, затем определяют процент правильно принятых слов. Данный метод требует меньшей тренировки слушателей, но он менее точен, чем артикуляционный.

На разборчивость речи оказывают влияние следующие факторы: время реверберации, громкость речи, соотношение уровня постороннего шума (внутри помещения или проникающего снаружи) и уровня громкости речи, а также форма и размеры помещения. На учете данных факторов основан метод расчета разборчивости речи, предложенный Кнудсеном. Так, при времени реверберации около 0,5 с разборчивость речи наибольшая; при увеличении времени реверберации разборчивость речи ухудшается примерно на 10% на каждую секунду времени.

Лучшая разборчивость речи наблюдается при уровне речи 70¸80 дБ. Если уровни речи и мешающего шума примерно одинаковы, разборчивость речи снижается до 60%.

Исходя из сказанного, время реверберации Т не может увеличиваться неограниченно, так как разборчивость звуковых сигналов ухудшается. Поэтому для помещений в зависимости от источника звука должен быть установлен максимальный объем согласно табл. 2, а в зависимости от этого объема и времени реверберации - максимальная разборчивость речи (рис. 46).

Метод Кнудсена позволяет оценить разборчивость речи, не проводя артикуляционных испытаний, то есть на стадии проектирования.

Точность метода невысокая, и в последнее время предложен ряд более совершенных способов расчета разборчивости речи, авторами которых являются Рейхард, Низе и другие.

Четкость и разборчивость речи в зале, а также качество воспринимаемых музыкальных звуков зависит от силы прямого звука и первых полезных звуковых отражений. Таковыми считаются отражения, поступающие к слушателю с временем запаздывания, по сравнению с прямым звуком, не более 0,05 с для речи и 0,15 ¸ 0,20 с для музыки. Энергия ранних звуковых отражений, как и энергия прямого звука, относится к полезной звуковой энергии. К "бесполезной" относится вся остальная звуковая энергия, представляющая собой реверберирующий фон в помещении.

Рис. 46. Влияние времени реверберации Т на разборчивость речи Р в зависимости от объема помещения, м (по Кнудсену):

а - 707; б - 11300; в - 45200

Результирующий эффект восприятия звука в помещении с точки зрения его разборчивости зависит от величины относительного воздействия на слушателя полезной и "бесполезной" частей звуковой энергии. Это отношение называется коэффициентом разборчивости, величина которого определяется по формуле (15)

где - звукопоглощение при 100%-ном заполнении зала для частот 500-2000 Гц;

α - средний коэффициент звукопоглощения при тех же условиях;

Путь первых отражений от источника звука до точки наблюдения, пришедших в течение первых 0,05 (0,15¸0,20) с;

α 1 , α 2 , ... α n - коэффициенты звукопоглощения поверхностей, от которых пришли прямые полезные отражения.

Мы разговариваем по телефону, мы слушаем выступления и речи в концертных залах. Некоторые из нас пытаются подслушать чужой разговор, иные – сделать прослушку невозможной. Однако для всех наведенных выше случаев бывали такие ситуации, когда посторонний шум настолько мешал услышать нужное, что слова становились попросту неразборчивыми. Чтобы таких проблем не возникало, перед эксплуатацией трактов проводится акустическая экспертиза каналов речевой коммуникации.

Канал, либо тракт речевой коммуникации (или канал передачи речевой информации) – это физическая среда, путь, который проходит звук от отправления к приему. Это может быть воздушный, электроакустический, вибрационный, параметрический, оптико-электронный канал, однако не будем останавливаться на их рассмотрении, так как наша цель – измерение важнейшего критерия качества тракта – разборчивость речи.

Методы измерения разборчивости речи можно коротко подать в виде списка:

  • Субъективные:
    • Чисто субъективный метод;
    • Объективизированный;
    • Тональный;
  • Объективные:
    • Формантные:
      • AI (Индекс артикуляции);
      • SII (Индекс разборчивости речи);
    • Модуляционные:
      • STI (Speech transmission index – Индекс передачи речи);
      • RASTI (Быстрый STI);
      • STIPA (STI для систем звукоусиления);
      • STITEL (STI для телекоммуникационных систем);
    • %ALcons (Оценка потерь артикуляции согласных);
Конечно, есть еще советские методы Покровского, Быкова, Сапожкова, однако трогать их не будем, по крайней мере пока, так как приведенные выше методы обеспечивают лучший результат.

Разумеется, охватить все и сразу мы не в силах, потому для начала рассмотрим отличия объективных методов от субъективных, а также поподробнее остановимся на последних.

Чистый субъективизм

В оценке разборчивости речи чистым субъективным методом участвует пара диктор-аудитор. Их работу удобно рассматривать на примере тестирования радиостанции по рекомендациям МККР (Международного Консультативного Комитета по Радиосвязи): на передающей стороне радиоканала диктор читает текст, в то время как аудитор на принимающей стороне выставляет оценку тракта по пятибалльной (или какой-либо другой) шкале. Тяжело не заметить очевидный большой недостаток такого подхода, а именно неизбежное влияние на результат особенностей речи и слуха тестирующих людей.

Решение этой проблемы такое же очевидное, как и сама проблема.

Объективизированность

Наиболее распространенным объективизированным методом является метод артикуляции. Он заключается в том, что перед началом измерений в испытуемом канале создаются нормальные акустические условия (уровни шумов). Участвуют несколько аудиторов, а диктор вместо обычного текста читает специально составленные таблицы слогов (артикуляционные таблицы). Аудиторы записывают услышанное и по окончанию сеанса передачи сверяют свои таблицы с дикторскими. Отношение правильно услышанных слогов к их общему числу и есть оценка разборчивости речи, которая выражается в процентах либо в долях единицы.

Отметим, что при большем числе продиктованных и соответственно принятых слогов влияние различных факторов усредняется. Влияние факторов еще более усредняется, если в испытаниях принимают участие различные группы дикторов и аудиторов. В этом и заключается объективизированность артикуляционного метода. Однако не только в этом. Получить объективные результаты помогает начитка именно звукосочетаний, не имеющих смысловой нагрузки, так как при приеме слов или фраз можно додумать и восстановить искаженный трактом элемент.

Что касается аудиторов, есть мнение, что это должны быть специально натренированные бригады, однако ГОСТ Р 50840-95 требует совершенно обратное. Лично я больше склоняюсь к последнему.

Достоинства:

  • Универсальность (метод применим к любому типу тракта);
  • Простота (метод не требует у операторов специальных технических знаний)
Недостатки:
  • Громоздкость процедуры измерений (требуются значительные затраты временных, материальных и человеческих ресурсов);
  • Создание артикуляционных таблиц (с каждым новым типом таблиц результаты измерений отличаются);
  • Зависимость результатов от степени тренерованости операторов;
  • Человеческий фактор (влияние на результат особенностей речи и слуха)

Объективизированность. Часть 2

Рассмотрим еще один объективизированный субъективный метод – тональный, согласно которому диктор заменяется генератором чистых тонов. Этот искусственный голос на деле – обычный громкоговоритель без диффузора, который генерирует сигналы таким образом, чтобы уровень звуковых давлений, создаваемый на различных частотах, соответствовал бы кривой спектра формант. Аудиторы никуда не деваются. Теперь их задача – это просто определить, слышен ли сигнал на данной частоте или нет.
Частоты, на которых проводятся измерения
250 500 650 800 990 1125 1300 1500 1700 1875
2050 2225 2425 2725 3100 3500 3850 4550 6150 8600

Уровень ощущения формант измеряется путем плавного ввода затухания до исчезновения слышимости звука, затем затухание следует убавлять до момента появления звука. Два значения затухания усредняются – это и есть результат измерения.

Формантная разборчивость речи определяется по таблице:

дБ % дБ % дБ % дБ % дБ % дБ %
1 0.04 10 0.65 19 1.92 28 3.22 37 4.28 46 4.75
2 0.09 11 0.76 20 2.07 29 3.37 38 4.37 47 4.78
3 0.14 12 0.89 21 2.2 30 3.51 39 4.46 48 4.8
4 0.19 13 1.03 22 2.36 31 3.64 40 4.52 49 4.82
5 0.24 14 1.18 23 2.5 32 3.75 41 4.57 50 4.85
6 0.3 15 1.32 24 2.65 33 3.87 42 4.62 51 4.88
7 0.37 16 1.47 25 2.79 34 3.97 43 4.66 52 4.95
8 0.46 17 1.62 26 2.93 35 4.08 44 4.69
9 0.55 18 1.77 27 3.08 36 4.18 45 4.72
дБ - уровень ощущения тона; % - формантная разборчивость речи

Общая формантная разборчивость определяется как сумма составляющих:
Для окончания измерения разборчивости речи достаточно определить слоговую разборчивость:

Достоинства:
  • Не нужна бригада дикторов;
  • Значительно сокращается время измерений;
  • Не нужны артикуляционные таблицы
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала;
  • Невозможность автоматизации процесса;
  • Человеческий фактор

А как же…

… отличия объективных методов от субъективных? Думаю, вы уже догадались, что все дело в человеческом факторе, а точнее в его отсутствии, так как для измерений используют искусственный голос, рот и ухо.

Рассмотрим простейший объективный метод.

Прежде всего, на приемном конце испытуемого тракта создается уровень шума, соответствующий условиям работы. Далее измеряется уровень шума на выходе искусственного уха в критической полосе частот слуха, при этом средняя частота этой полосы равна частоте измерительного тона. Этот уровень шума обязательно нужно зафиксировать, он нам еще понадобится. После этого вместо шума на вход тракта подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затухания распределение звуковых давлений соответствовало кривой спектра формант. Далее с помощью регулирования затухания добиваются, чтобы уровень тонального сигнала на выходе тракта стал равен зафиксированному нами ранее уровню шума. Показания регулятора затухания – результат измерения.

Чтобы определить формантную и слоговую разборчивости, пользуются теми же способами, что и в тональном методе.

Достоинства:

  • Точность и быстрота;
  • Не требуются дикторы и аудиторы;
  • Возможность полной автоматизации процедуры измерений
Недостатки:
  • Повышенные требования к технической образованности измеряющего персонала

The End

Обычно после этих слов и быть ничего не должно, ну разве что титры, потому буду предельно краток: это был «никнейм_внизу», смотрите нас в любое удобное для вас время. И спасибо за внимание!

Понятность речи - определяющая характеристика тракта передачи речи, так как если тракт не обеспечивает полной понятности ее, то никакие другие преимущества его не имеют значения - он не пригоден к эксплуатации.

Для непосредственного определения этой качественной характеристики есть только один метод: статистический с участием большого количества операторов (слушателей и дикторов). Разработан косвенный, количественный метод определения понятности речи через ее разборчивость.

Разборчивостью речи называют относительное или процентное количество принятых элементов речи из общего числа переданных по тракту. Элементы речи - это слоги, звуки, слова, фразы (команды), цифры. Соответственно этому есть слоговая, звуковая, словеснаяг смысловая и цифровая разборчивость. В практике используют преимущественно слоговую, звуковую и словесную разборчивость. Для измерений разборчивости разработаны специальные таблицы слогов,

звукосочетаний и слов с учетом их встречаемости в русской речи (аналогичные таблицы есть и для других языков). Звуковых таблиц нет, так как звуки, кроме гласных, отдельно не произносятся, а для измерений звуковой разборчивости пользуются слоговыми таблицами или таблицами звукосочетаний. Все эти таблицы называют артикуляционными.

Измеряют разборчивость с помощью группы тренированных слушателей и дикторов, называемой артикуляционной бригадой, поэтому метод измерений называют артикуляционным. Тренировка бригады необходима, так как иначе результаты измерений некоторое время будут расти при неизменных условиях, по мере натренированности артикулянтов. Тренировку проводят до тех пор, пока артикулянты не будут давать стабильные результаты при заданных условиях измерений. Дольше всего артикулянты тренируются на слоговых таблицах. Бригаду составляют из молодых людей без нарушений слуха и речи.

Артикулянты дают наибольшие возможные значения разборчивости речи в заданных условиях работы тракта. Поэтому для определения связи между разборчивостью, измеренной артикулянтами, и понятностью речи для обычных абонентов в тех же условиях были проведены массовые испытания. В этих испытаниях участвовали самые разнообразные люди из числа потенциальных абонентов общим числом более 2000 человек. Были взяты самые разнообразные тракты с различными условиями их работы. Разговор велся по специальным разговорникам в обе стороны, как при телефонных переговорах. При этом контролировалось понимание абонентами друг друга. Оценка ставилась по пятибалльной системе: отлично, если понятность была полная, без каких-либо переспросов; хорошо, если были отдельные переспросы редко встречающихся слов или неизвестных названий, фамилий и т. п., о которых нельзя догадаться по смыслу; удовлетворительно, если требовались частые переспросы и слушатели сообщали, что трудно разговаривать; предельно допустимо, если требовались неоднократные переспросы одного и того же материала с передачей отдельных слов по буквам с полным напряжением слуха; срыв связи, если абоненты не могли понять друг друга и отказывались от разговора. Одновременно для каждого из условий испытаний и каждого тракта были измерены величины

Таблица 10.1 (см. скан)

разборчивости речи с помощью тренированной бригады. В табл. 10.1 приведены градации понятности речи и соответствующие им величины разборчивости. Одновременно с указанными испытаниями были измерены статистические зависимости между слоговой, словесной, звуковой и смысловой разборчивостью для русской речи.

Кроме этого, был разработан ускоренный метод измерения разборчивости речи - метод выбора. Он основан на следующем. Каждая таблица составлена из нескольких групп слов. В каждой группе подобраны слова, по звучанию сходные между собой. Диктор передает из каждой группы только одно слово. Слушатели имеют перед собой таблицу и должны отметить то слово, которое, по их мнению, было передано. Чередование слов изменяется в случайном порядке. Определяется процент правильно принятых слов. Между количеством принятых слов по этому и артикуляционному методам установлена статистическая связь. Этот метод не требует длительной тренировки слушателей, но точность его ниже артикуляционного.

Зависимость между понятностью речи и ее разборчивостью, приведенная в табл. 10.1, справедлива, когда идет прием самой разнообразной информации. В тех же случаях, когда идет обмен информацией с гораздо меньшим объемом (т. е. при ограниченном словаре), понятность речи будет выше, чем в общем случае при той же разборчивости речи. Например, для диспетчерской связи полная понятность речи получается при слоговой разборчивости речи около 40%, что соответствует удовлетворительной понятности в общем случае. Поэтому при расчете устройств, подобных диспетчерской связи, ориентируются на меньшие величины разборчивости речи, чем при расчетах систем широкого

применения. Но в каждом случае необходимо предварительно знать величину разборчивости, при которой будет полная понятность передаваемой информации.




Top