Масштабно-инвариантная модификация COSH-расстояния для измерения искажений речевого сигнала в режиме реального времени

Автор(и)

  • Андрей Владимирович Савченко Национальный исследовательский университет «Высшая школа экономики», Нижний Новгород, Російська Федерація https://orcid.org/0000-0001-6196-0564
  • Владимир Васильевич Савченко Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, Російська Федерація https://orcid.org/0000-0003-3045-3337

DOI:

https://doi.org/10.20535/S0021347021060030

Ключові слова:

цифровая обработка сигналов, речевой сигнал, спектральный анализ, защита от помех, меры расстояний, дивергенция Итакуры-Саито, COSH-расстояние, расстояние Итакуры, дивергенция Кульбака-Лейблера

Анотація

Рассмотрена новая мера искажений звуков речи диктора, инвариантная к коэффициенту усиления речевого сигнала в канале связи. Исследованы ее свойства в сравнении с наиболее близкими из аналогов. Доказан ряд теоретических положений. Показано, что новая мера объединяет в себе преимущества симметричной формы расстояния Итакуры в отношении помехоустойчивости автоматической обработки речи, с одной стороны, и COSH-расстояния в отношении чувствительности к искажениям речевого сигнала, с другой. С использованием авторского программного обеспечения поставлен и проведен эксперимент. Даны оценки зависимости новой меры от отношения сигнал–шум. Показано, что в логарифмическом отображении данная зависимость имеет близкий к линейному характер. Полученные результаты предназначены для использования при разработке новых, и модернизации существующих систем и технологий цифровой обработки сигналов и анализа качества речи в условиях действия шума.

Посилання

  1. J. Sadasivan, C. S. Seelamantula, N. R. Muraka, “Speech enhancement using a risk estimation approach,” Speech Commun., vol. 116, pp. 12–29, 2020, doi: https://doi.org/10.1016/j.specom.2019.11.001.
  2. В. В. Савченко, “Дивергенция Итакуры–Саито как элемент информационной теории восприятия речи,” Радиотехника и электроника, vol. 64, no. 6, pp. 585–592, 2019, doi: https://doi.org/10.1134/S0033849419060093.
  3. M. A. Bakhshali, M. Khademi, A. Ebrahimi-Moghadam, S. Moghimi, “EEG signal classification of imagined speech based on Riemannian distance of correntropy spectral density,” Biomed. Signal Process. Control, vol. 59, p. 101899, 2020, doi: https://doi.org/10.1016/j.bspc.2020.101899.
  4. А. А. Боровков, Математическая Статистика. Дополнительные Главы. Москва: Наука. Физматлит, 1984.
  5. C. Liu, M. Jiang, “Robust adaptive filter with lncosh cost,” Signal Process., vol. 168, p. 107348, 2020, doi: https://doi.org/10.1016/j.sigpro.2019.107348.
  6. D. Prasetyawan, T. Nakamoto, “Comparison of NMF with Kullback-Leibler divergence and Itakura-Saito divergence for Odor approximation,” in 2019 IEEE International Symposium on Olfaction and Electronic Nose (ISOEN), 2019, pp. 1–3, doi: https://doi.org/10.1109/ISOEN.2019.8823186.
  7. Y. Matsuyama, A. Buzo, R. Gray, “Spectral distortion measures for speech compression. Information Systems Lab., Stanford Electronics Lab., Tech. Rep. 6504-3,” Stanford, California, 1978. uri: https://www.researchgate.net/publication/234252904.
  8. F. Itakura, S. Saito, “Analysis synthesis telephony based on the maximum likelihood method,” in Proc. 6th of the International Congress on Acoustics, 1968, pp. C17–C20, uri: http://www.fon.hum.uva.nl/praat/manual/Itakura___Saito__1968_.html.
  9. R. Gray, A. Buzo, A. Gray, Y. Matsuyama, “Distortion measures for speech processing,” IEEE Trans. Acoust. Speech, Signal Process., vol. 28, no. 4, pp. 367–376, 1980, doi: https://doi.org/10.1109/TASSP.1980.1163421.
  10. S. Kullback, Information Theory and Statistics. New York: Dover Publications, 1997, uri: https://www.amazon.com/Information-Theory-Statistics-Dover-Mathematics/dp/0486696847.
  11. F.-L. Xie, F. K. Soong, H. Li, “Voice conversion with SI-DNN and KL divergence based mapping without parallel training data,” Speech Commun., vol. 106, pp. 57–67, 2019, doi: https://doi.org/10.1016/j.specom.2018.11.007.
  12. A. A. Gharbali, S. Najdi, J. M. Fonseca, “Investigating the contribution of distance-based features to automatic sleep stage classification,” Comput. Biol. Med., vol. 96, pp. 8–23, 2018, doi: https://doi.org/10.1016/j.compbiomed.2018.03.001.
  13. V. V. Savchenko, “A method of measuring the index of acoustic voice quality based on an information-theoretic approach,” Meas. Tech., vol. 61, no. 1, pp. 79–84, 2018, doi: https://doi.org/10.1007/s11018-018-1391-8.
  14. Y. Gu, H.-L. Wei, “A robust model structure selection method for small sample size and multiple datasets problems,” Inf. Sci., vol. 451–452, pp. 195–209, 2018, doi: https://doi.org/10.1016/j.ins.2018.04.007.
  15. F. Mustiere, M. Bouchard, M. Bolic, “All-pole modeling of discrete spectral powers: A unified approach,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 705–708, 2012, doi: https://doi.org/10.1109/TASL.2011.2163511.
  16. S. Shamila Rachel, U. Snekhalatha, K. Vedhasorubini, D. Balakrishnan, “Spectral analysis of speech signal characteristics: A comparison between healthy controls and Laryngeal disorder,” in Proc. International Conference on Intelligent Computing and Applications, 2018, pp. 333–341, doi: https://doi.org/10.1007/978-981-10-5520-1_31.
  17. B. Wei, J. D. Gibson, “A new discrete spectral modeling method and an application to CELP coding,” IEEE Signal Process. Lett., vol. 10, no. 4, pp. 101–103, 2003, doi: https://doi.org/10.1109/LSP.2003.808550.
  18. A. Ben Aicha, “Machine learning based approach to assess denoised speech,” Procedia Comput. Sci., vol. 159, pp. 698–706, 2019, doi: https://doi.org/10.1016/j.procs.2019.09.225.
  19. M. E. Hossain, M. S. A. Zilany, E. Davies-Venn, “On the feasibility of using a bispectral measure as a nonintrusive predictor of speech intelligibility,” Comput. Speech Lang., vol. 57, pp. 59–80, 2019, doi: https://doi.org/10.1016/j.csl.2019.02.003.
  20. V. V. Savchenko, A. V. Savchenko, “Method for measuring distortions of a speech signal during its transmission over a communication channel to a biometric identification system,” Izmer. Tekhnika, no. 11, pp. 65–72, 2020, doi: https://doi.org/10.32446/0368-1025it.2020-11-65-72.
  21. В. В. Савченко, “Критерий минимума информационного расхождения сигналов с настройкой на голос диктора в задаче автоматического распознавания речи,” Известия вузов. Радиоэлектроника, vol. 63, no. 1, pp. 55–68, 2020, doi: https://doi.org/10.20535/S0021347020010045.
  22. В. В. Савченко, “Метод фонетического декодирования слов с подавлением фонового шума,” Радиотехника и электроника, vol. 62, no. 7, pp. 681–686, 2017, doi: https://doi.org/10.7868/S0033849417070099.
  23. В. В. Савченко, А. В. Савченко, “Критерий регулируемого уровня значимости для выбора порядка спектральной оценки максимума энтропии,” Известия вузов. Радиоэлектроника, vol. 62, no. 5, pp. 276–286, 2019, doi: https://doi.org/10.20535/S0021347019050042.
  24. J. Benesty, J. Chen, Y. Huang, “Linear prediction,” in Springer Handbook of Speech Processing, Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp. 121–134.
  25. F. Itakura, “Minimum prediction residual principle applied to speech recognition,” IEEE Trans. Acoust. Speech, Signal Process., vol. 23, no. 1, pp. 67–72, 1975, doi: https://doi.org/10.1109/TASSP.1975.1162641.
  26. E. Estrada, H. Nazeran, F. Ebrahimi, M. Mikaeili, “Symmetric Itakura distance as an EEG signal feature for sleep depth determination,” in ASME 2009 Summer Bioengineering Conference, Parts A and B, 2009, pp. 723–724, doi: https://doi.org/10.1115/SBC2009-206233.
  27. O. Diana, A. Mihaela, “Feature extraction and classification methods for a motor task brain computer interface: A comparative evaluation for two databases,” Int. J. Adv. Comput. Sci. Appl., vol. 8, no. 8, p. 0, 2017, doi: https://doi.org/10.14569/IJACSA.2017.080834.
Геометрическое место точек различных спектральных мер

Опубліковано

2021-06-30 — Оновлено 2021-06-30

Як цитувати

Савченко, А. В., & Савченко, В. В. (2021). Масштабно-инвариантная модификация COSH-расстояния для измерения искажений речевого сигнала в режиме реального времени. Вісті вищих учбових закладів. Радіоелектроніка, 64(6), 350–361. https://doi.org/10.20535/S0021347021060030

Номер

Розділ

Оригінальні статті