Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя

Автор(и)

  • Владимир Васильевич Савченко Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, Russian Federation http://orcid.org/0000-0003-3045-3337

DOI:

https://doi.org/10.20535/S0021347020100039

Ключові слова:

цифровая обработка сигналов, случайный сигнал, речевой сигнал, автоматическая обработка речи, речевые технологии, защита информации, голосовая верификация

Анотація

Рассмотрен феномен акустической вариативности речевого сигнала в системах автоматического распознавания речи. Исследованы две ее разновидности: внутри- и междикторская вариативность речи. Для их математического описания и сопоставления по величине применена вероятностная кластерная модель минимальных речевых единиц в информационной метрике Кульбака–Лейблера. На ее основе получены теоретические оценки  акустической вариативности речевого сигнала для каждой ее разновидности в отдельности, описан и количественно охарактеризован эффект защиты информации в системах с настройкой на голос санкционированного пользователя. Показано, что внутридикторская вариативность пренебрежимо мала по своей величине по сравнению с междикторской вариативностью речи, и поэтому не оказывает заметного вредного влияния на эффективность автоматического распознавания речи. Для подтверждения и развития результатов теоретического исследования поставлен вычислительный эксперимент, в рамках которого рассмотрены два речевых потока от двух разных дикторов. При его проведении использовано авторское программное обеспечение. По результатам эксперимента установлено, что уровень междикторской вариативности речи в ряде случаев выходит за рамки межфонемных различий в пределах однородного речевого потока. Поэтому в системах с настройкой на голос диктора, эффект от акустической вариативности речевого сигнала не только однозначно в целом положителен, а именно: это защита информации от несанкционированного доступа, но и значителен в теоретико-вероятностном отношении. Полученные результаты предназначены для использования при разработке новых и модернизации существующих систем автоматического распознавания речи, рассчитанных на работу в автономном режиме.

Біографія автора

Владимир Васильевич Савченко, Нижегородский государственный лингвистический университет им. Н.А. Добролюбова

кафедра математики и информатики, профессор

Посилання

L. Rabiner, R. Schafer, Theory and Applications of Digital Speech Processing. Boston: Pearson, 2010, uri: https://www.amazon.com/Theory-Applications-Digital-Speech-Processing/dp/0136034284.

И. Б. Тампель, “Автоматическое распознавание речи – основные этапы за 50 лет,” Научно-технический вестник информационных технологий, механики и оптики, vol. 15, no. 6, pp. 957–968, 2015, doi: https://doi.org/10.17586/2226-1494-2015-15-6-957-968.

D. Yu, L. Deng, Automatic Speech Recognition. London: Springer London, 2015, doi: https://doi.org/10.1007/978-1-4471-5779-3.

A. Rogowski, “Industrially oriented voice control system,” Robot. Comput. Manuf., vol. 28, no. 3, pp. 303–315, 2012, doi: https://doi.org/10.1016/j.rcim.2011.09.010.

M. Schuster, “Speech recognition for mobile devices at google,” in Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 6230 LNAI, Berlin, Heidelberg: Springer, 2010, pp. 8–10.

R. Rammohan, N. Dhanabalsamy, V. Dimov, F. J. Eidelman, “Smartphone conversational agents (apple siri, google, windows cortana) and questions about allergy and asthma emergencies,” J. Allergy Clin. Immunol., vol. 139, no. 2, p. AB250, 2017, doi: https://doi.org/10.1016/j.jaci.2016.12.804.

В. В. Савченко, А. В. Савченко, “Теоретико-информационное обоснование и анализ эффективности метода фонетического кодирования–декодирования в задаче автоматического распознавания речи,” Радиотехника и электроника, vol. 61, no. 4, pp. 373–379, 2016, doi: https://doi.org/10.7868/S0033849416040112.

Р. А. Устинов, “Особенности современных систем защиты речевой информации,” Безопасность информационных технологий, vol. 24, no. 4, pp. 71–79, 2017, doi: https://doi.org/10.26583/bit.2017.4.08.

Z. Wu, Information Hiding in Speech Signal for Secure Communication. Amsterdam: Elsevier, 2015, doi: https://doi.org/10.1016/C2013-0-19179-9.

S. M. Qaisar, N. Hainmad, R. Khan, R. Asfour, “A speech to machine interface based on perceptual linear prediction and classification,” in 2019 Advances in Science and Engineering Technology International Conferences (ASET), 2019, pp. 1–4, doi: https://doi.org/10.1109/ICASET.2019.8714304.

R. González Hautamäki, M. Sahidullah, V. Hautamäki, T. Kinnunen, “Acoustical and perceptual study of voice disguise by age modification in speaker verification,” Speech Commun., vol. 95, pp. 1–15, 2017, doi: https://doi.org/10.1016/j.specom.2017.10.002.

В. В. Савченко, “Критерий минимума информационного расхождения сигналов с настройкой на голос диктора в задаче автоматического распознавания речи,” Известия вузов. Радиоэлектроника, vol. 63, no. 1, pp. 55–68, 2020, doi: https://doi.org/10.20535/S0021347020010045.

S. Heald, S. Klos, H. Nusbaum, “Understanding speech in the context of variability,” in Neurobiology of Language, Cambridge, MA: Academic Press, 2016, pp. 195–208.

И. А. Зибер, Г. А. Мороз, “Исследование акустической вариативности s методом главных компонент,” Вестник НГУ. Серия Лингвистика и межкультурная коммуникация, vol. 17, no. 1, pp. 49–64, 2019, doi: https://doi.org/10.25205/1818-7935-2019-17-1-49-64.

J. H. L. Hansen, H. Bořil, “On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks,” Speech Commun., vol. 101, pp. 94–108, 2018, doi: https://doi.org/10.1016/j.specom.2018.05.004.

Н. А. Крашенинникова, “Основные факторы, мешающие распознаванию речевых команд,” Симбирский научный вестник, no. 1, pp. 201–204, 2011, uri: https://readera.ru/14113570.

В. В. Савченко, Л. В. Савченко, “Метод измерений показателя разборчивости речевого сигнала в информационной метрике кульбака–лейблера,” Измерительная техника, no. 9, pp. 59–64, 2019, doi: https://doi.org/10.32446/0368-1025it.2019-9-59-64.

О. Ф. Кривнова, “Просодическое членение звучащего текста: текстовая локализация дыхательных пауз,” in Компьютерная Лингвистика и Интеллектуальные Технологии: По Материалам Международной Конференции, no. 15, 2016, pp. 340–354.

В. В. Савченко, “Дивергенция Итакуры–Саито как элемент информационной теории восприятия речи,” Радиотехника и электроника, vol. 64, no. 6, pp. 585–592, 2019, doi: https://doi.org/10.1134/S0033849419060093.

В. В. Савченко, “Оценка фонетического качества речи на основе теоретико-информационного подхода,” Радиотехника и электроника, vol. 63, no. 1, pp. 60–64, 2018, uri: https://elibrary.ru/item.asp?id=32362306.

S. Kullback, Information Theory and Statistics. New York: Dover Publications, 1997, uri: https://www.amazon.com/Information-Theory-Statistics-Dover-Mathematics/dp/0486696847.

В. В. Савченко, “Критерий минимума среднего информационного отклонения для различения случайных сигналов с близкими характеристиками,” Известия вузов. Радиоэлектроника, vol. 61, no. 9, pp. 536–548, 2018, doi: https://doi.org/10.20535/S0021347018090042.

В. В. Савченко, А. В. Савченко, “Критерий регулируемого уровня значимости для выбора порядка спектральной оценки максимума энтропии,” Известия вузов. Радиоэлектроника, vol. 62, no. 5, pp. 276–286, 2019, doi: https://doi.org/10.20535/S0021347019050042.

H. B. Dwight, Tables of Integrals and Other Mathematical Data, 3rd ed. New York: Macmillan, 1961, uri: http://plouffe.fr/simon/Phys et Math/TableofIntegralsSeries.pdf.

J. Benesty, M. M. Sondhi, Y. A. Huang, Eds., “Linear prediction,” in Springer Handbook of Speech Processing, Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp. 111–124.

P. H. Müller, P. Neumann, R. Storm, “Tafeln der mathematischen statistik,” VEB Fachbuchverlag, p. 279, 1973, uri: http://doi.wiley.com/10.1002/bimj.19740160816.

Опубліковано

2020-12-14

Як цитувати

Савченко, В. В. (2020). Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя. Вісті вищих учбових закладів. Радіоелектроніка, 63(10), 620–632. https://doi.org/10.20535/S0021347020100039

Номер

Розділ

Статті