Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя

Владимир Васильевич Савченко

doi:10.20535/S0021347020100039

Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя

Автор(и)

Владимир Васильевич Савченко Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, Російська Федерація https://orcid.org/0000-0003-3045-3337

DOI:

https://doi.org/10.20535/S0021347020100039

Ключові слова:

цифровая обработка сигналов, случайный сигнал, речевой сигнал, автоматическая обработка речи, речевые технологии, защита информации, голосовая верификация

Анотація

Рассмотрен феномен акустической вариативности речевого сигнала в системах автоматического распознавания речи. Исследованы две ее разновидности: внутри- и междикторская вариативность речи. Для их математического описания и сопоставления по величине применена вероятностная кластерная модель минимальных речевых единиц в информационной метрике Кульбака–Лейблера. На ее основе получены теоретические оценки акустической вариативности речевого сигнала для каждой ее разновидности в отдельности, описан и количественно охарактеризован эффект защиты информации в системах с настройкой на голос санкционированного пользователя. Показано, что внутридикторская вариативность пренебрежимо мала по своей величине по сравнению с междикторской вариативностью речи, и поэтому не оказывает заметного вредного влияния на эффективность автоматического распознавания речи. Для подтверждения и развития результатов теоретического исследования поставлен вычислительный эксперимент, в рамках которого рассмотрены два речевых потока от двух разных дикторов. При его проведении использовано авторское программное обеспечение. По результатам эксперимента установлено, что уровень междикторской вариативности речи в ряде случаев выходит за рамки межфонемных различий в пределах однородного речевого потока. Поэтому в системах с настройкой на голос диктора, эффект от акустической вариативности речевого сигнала не только однозначно в целом положителен, а именно: это защита информации от несанкционированного доступа, но и значителен в теоретико-вероятностном отношении. Полученные результаты предназначены для использования при разработке новых и модернизации существующих систем автоматического распознавания речи, рассчитанных на работу в автономном режиме.

Біографія автора

Владимир Васильевич Савченко, Нижегородский государственный лингвистический университет им. Н.А. Добролюбова

кафедра математики и информатики, профессор

Посилання

L. Rabiner, R. Schafer, Theory and Applications of Digital Speech Processing. Boston: Pearson, 2010, uri: https://www.amazon.com/Theory-Applications-Digital-Speech-Processing/dp/0136034284.

И. Б. Тампель, “Автоматическое распознавание речи – основные этапы за 50 лет,” Научно-технический вестник информационных технологий, механики и оптики, vol. 15, no. 6, pp. 957–968, 2015, doi: https://doi.org/10.17586/2226-1494-2015-15-6-957-968.

D. Yu, L. Deng, Automatic Speech Recognition. London: Springer London, 2015, doi: https://doi.org/10.1007/978-1-4471-5779-3.

A. Rogowski, “Industrially oriented voice control system,” Robot. Comput. Manuf., vol. 28, no. 3, pp. 303–315, 2012, doi: https://doi.org/10.1016/j.rcim.2011.09.010.

M. Schuster, “Speech recognition for mobile devices at google,” in Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 6230 LNAI, Berlin, Heidelberg: Springer, 2010, pp. 8–10.

R. Rammohan, N. Dhanabalsamy, V. Dimov, F. J. Eidelman, “Smartphone conversational agents (apple siri, google, windows cortana) and questions about allergy and asthma emergencies,” J. Allergy Clin. Immunol., vol. 139, no. 2, p. AB250, 2017, doi: https://doi.org/10.1016/j.jaci.2016.12.804.

В. В. Савченко, А. В. Савченко, “Теоретико-информационное обоснование и анализ эффективности метода фонетического кодирования–декодирования в задаче автоматического распознавания речи,” Радиотехника и электроника, vol. 61, no. 4, pp. 373–379, 2016, doi: https://doi.org/10.7868/S0033849416040112.

Р. А. Устинов, “Особенности современных систем защиты речевой информации,” Безопасность информационных технологий, vol. 24, no. 4, pp. 71–79, 2017, doi: https://doi.org/10.26583/bit.2017.4.08.

Z. Wu, Information Hiding in Speech Signal for Secure Communication. Amsterdam: Elsevier, 2015, doi: https://doi.org/10.1016/C2013-0-19179-9.

S. M. Qaisar, N. Hainmad, R. Khan, R. Asfour, “A speech to machine interface based on perceptual linear prediction and classification,” in 2019 Advances in Science and Engineering Technology International Conferences (ASET), 2019, pp. 1–4, doi: https://doi.org/10.1109/ICASET.2019.8714304.

R. González Hautamäki, M. Sahidullah, V. Hautamäki, T. Kinnunen, “Acoustical and perceptual study of voice disguise by age modification in speaker verification,” Speech Commun., vol. 95, pp. 1–15, 2017, doi: https://doi.org/10.1016/j.specom.2017.10.002.

В. В. Савченко, “Критерий минимума информационного расхождения сигналов с настройкой на голос диктора в задаче автоматического распознавания речи,” Известия вузов. Радиоэлектроника, vol. 63, no. 1, pp. 55–68, 2020, doi: https://doi.org/10.20535/S0021347020010045.

S. Heald, S. Klos, H. Nusbaum, “Understanding speech in the context of variability,” in Neurobiology of Language, Cambridge, MA: Academic Press, 2016, pp. 195–208.

И. А. Зибер, Г. А. Мороз, “Исследование акустической вариативности s методом главных компонент,” Вестник НГУ. Серия Лингвистика и межкультурная коммуникация, vol. 17, no. 1, pp. 49–64, 2019, doi: https://doi.org/10.25205/1818-7935-2019-17-1-49-64.

J. H. L. Hansen, H. Bořil, “On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks,” Speech Commun., vol. 101, pp. 94–108, 2018, doi: https://doi.org/10.1016/j.specom.2018.05.004.

Н. А. Крашенинникова, “Основные факторы, мешающие распознаванию речевых команд,” Симбирский научный вестник, no. 1, pp. 201–204, 2011, uri: https://readera.ru/14113570.

В. В. Савченко, Л. В. Савченко, “Метод измерений показателя разборчивости речевого сигнала в информационной метрике кульбака–лейблера,” Измерительная техника, no. 9, pp. 59–64, 2019, doi: https://doi.org/10.32446/0368-1025it.2019-9-59-64.

О. Ф. Кривнова, “Просодическое членение звучащего текста: текстовая локализация дыхательных пауз,” in Компьютерная Лингвистика и Интеллектуальные Технологии: По Материалам Международной Конференции, no. 15, 2016, pp. 340–354.

В. В. Савченко, “Дивергенция Итакуры–Саито как элемент информационной теории восприятия речи,” Радиотехника и электроника, vol. 64, no. 6, pp. 585–592, 2019, doi: https://doi.org/10.1134/S0033849419060093.

В. В. Савченко, “Оценка фонетического качества речи на основе теоретико-информационного подхода,” Радиотехника и электроника, vol. 63, no. 1, pp. 60–64, 2018, uri: https://elibrary.ru/item.asp?id=32362306.

S. Kullback, Information Theory and Statistics. New York: Dover Publications, 1997, uri: https://www.amazon.com/Information-Theory-Statistics-Dover-Mathematics/dp/0486696847.

В. В. Савченко, “Критерий минимума среднего информационного отклонения для различения случайных сигналов с близкими характеристиками,” Известия вузов. Радиоэлектроника, vol. 61, no. 9, pp. 536–548, 2018, doi: https://doi.org/10.20535/S0021347018090042.

В. В. Савченко, А. В. Савченко, “Критерий регулируемого уровня значимости для выбора порядка спектральной оценки максимума энтропии,” Известия вузов. Радиоэлектроника, vol. 62, no. 5, pp. 276–286, 2019, doi: https://doi.org/10.20535/S0021347019050042.

H. B. Dwight, Tables of Integrals and Other Mathematical Data, 3rd ed. New York: Macmillan, 1961, uri: http://plouffe.fr/simon/Phys et Math/TableofIntegralsSeries.pdf.

J. Benesty, M. M. Sondhi, Y. A. Huang, Eds., “Linear prediction,” in Springer Handbook of Speech Processing, Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp. 111–124.

P. H. Müller, P. Neumann, R. Storm, “Tafeln der mathematischen statistik,” VEB Fachbuchverlag, p. 279, 1973, uri: http://doi.wiley.com/10.1002/bimj.19740160816.

##submission.downloads##

Передплата або плата за доступ PDF (Русский) (50 UAH)

Опубліковано

2020-12-14

Як цитувати

Савченко, В. В. (2020). Акустическая вариативность речевого сигнала как фактор информационной безопасности систем автоматического распознавания речи с настройкой на голос пользователя. Вісті вищих учбових закладів. Радіоелектроніка, 63(10), 620–632. https://doi.org/10.20535/S0021347020100039

Завантажити посилання

Номер

Том 63 № 10 (2020)

Розділ

Оригінальні статті

Ліцензія

Издатель журнала Известия высших учебных заведений. Радиоэлектроника (сокр. "Известия вузов. Радиоэлектроника"), Национальный технический университет Украины "Киевский политехнический институт", учитывает, что доступ автора к его статье является важным как для самого автора, так и для спонсоров его исследований. Мы представлены в базе издателей SHERPA/RoMEO как зеленый издатель (green publisher), что позволяет автору выполнять самоархивирование своей статьи. Однако важно, чтобы каждая из сторон четко понимала свои права. Просьба более детально ознакомиться с Политикой самоархивирования нашего журнала.

Политика оплаченного открытого доступа POA (paid open access), принятая в журнале, позволяет автору выполнить все необходимые требования по открытому доступу к своей статье, которые выдвигаются институтом, правительством или фондом при выделении финансирования. Просьба более детально ознакомиться с политикой оплаченного открытого доступа нашего журнала (см. отдельно).

Варианты доступа к статье:

1. Статья в открытом доступе POA (paid open access)

В этом случае права автора определяются лицензией CC BY (Creative Commons Attribution).

2. Статья с последующим доступом по подписке

В этом случае права автора определяются авторским договором, приведенным далее.

Автор (каждый соавтор) уступает Издателю журнала «Известия высших учебных заведений. Радиоэлектроника» НТУУ «КПИ» на срок действия авторского права эксклюзивные права на материалы статьи, в том числе право на публикацию данной статьи издательством Аллертон Пресс, США (Allerton Press) на английском языке в журнале «Radioelectronics and Communications Systems». Передача авторского права охватывает исключительное право на воспроизведение и распространение статьи, включая оттиски, переводы, фото воспроизведения, микроформы, электронные формы (он- и оффлайн), или любые иные подобные формы воспроизведения, а также право издателя на сублицензирование третьим лицам по своему усмотрению без дополнительных консультаций с автором. При этом журнал придерживается Политики конфиденциальности.
Передача прав включает право на обработку формы представления материалов с помощью компьютерных программам и систем (баз данных) для их использования и воспроизводства, публикации и распространения в электронном формате и внедрения в системы поиска (базы данных).
Воспроизведение, размещение, передача или иное распространение или использование материалов, содержащихся в статье должно сопровождаться ссылкой на Журнал и упоминанием Издателя, а именно: название статьи, имя автора (соавторов), название журнала, номер тома, номер выпуска, копирайт авторов и издателя "© Национальный технический университет Украины "Киевский политехнический институт"; © автор(ы)".
Автор (каждый соавтор) материалов сохраняет все права собственника материалов, включая патентные права на любые процессы, способы или методы и др., а также права на товарные знаки.
Издатель разрешает автору (каждому соавтору) материалов следующее:

Право пользоваться печатными или электронными вариантами материалов статьи в форме и содержании, принятыми Издателем для публикации в Журнале. Подробнее см. политики Оплаченного открытого доступа, подписки и самоархивирования.
Право бесплатно копировать или передавать коллегам копию напечатанной статьи целиком или частично для их личного или профессионального использования, для продвижения академических или научных исследований или для учебного процесса или других информационных целей, не связанных с коммерческими целями.
Право использовать материалы из опубликованной статьи в написанной автором (соавторами) книге, монографии, учебнике, учебном пособии и других научных и научно-популярных изданиях.
Право использовать отдельные рисунки или таблицы и отрывки текста из материалов в собственных целях обучения или для включения их в другую работу, которая печатается (в печатном или электронном формате) третьей стороной, или для представления в электронном формате во внутренние компьютерные сети или на внешние сайты автора (соавторов).

Автор (соавторы) соглашаются, что каждая копия материалов или любая ее часть, распространенная или размещенная ими в печатном или электронном формате, будет содержать указание на авторское право, предусмотренное в Журнале и полную ссылку на Журнал Издателя.
Автор (соавторы) гарантирует, что материалы являются оригинальной работой и представлены впервые на рассмотрение только в этом Журнале и ранее не публиковались. Если материалы написаны совместно с соавторами, автор гарантирует, что проинформировал их относительно условий публикации материалов и получил их подписи или письменное разрешение подписываться от их имени.
Если в материалы включаются отрывки из работ или имеются указания на работы, которые охраняются авторским правом и принадлежат третьей стороне, то автору необходимо получить разрешение владельца авторских прав на использование таких материалов в первом случае и сделать ссылку на первоисточник во втором.
Автор гарантирует, что материалы не содержат клеветнических высказываний и не посягают на права (включая без ограничений авторское право, права на патент или торговую марку) других лиц и не содержат материалы или инструкции, которые могут причинить вред или ущерб третьим лицам. Автор (каждый соавтор) гарантирует, что их публикация не приведет к разглашению секретных или конфиденциальных сведений (включая государственную тайну). Подтверждением этого является Экспертное заключение (см. перечень документов в Правила для авторов).
Издатель обязуется опубликовать материалы в случае получения статьей положительного решения редколлегии о публикации на основании внешнего рецензирования (см. Политика рецензирования).
В случае публикации статьи на английском языке в журнале «Radioelectronics and Communications Systems» (Издатель: Аллертон Пресс, США, распространитель Springer) автору (соавторам) выплачивается гонорар после выхода последнего номера журнала года, в котором опубликована данная статья.
Документ Согласие на публикацию, который подают русскоязычные авторы при подаче статьи в редакцию, является краткой формой данного договора, в котором изложены все ключевые моменты настоящего договора и наличие которого подтверждает согласие автора (соавторов) с ним. Аналогичным документом для англоязычных авторов является Copyright Transfer Agreement (CTA), предоставляемый издательством Allerton Press.
Настоящий Договор вступает в силу в момент принятия статьи к публикации. Если материалы не принимаются к публикации или до публикации в журнале автор (авторы) отозвал работу, настоящий Договор не приобретает (теряет) силу.