Масштабно-инвариантная модификация COSH-расстояния для измерения искажений речевого сигнала в режиме реального времени

Андрей Владимирович Савченко; Владимир Васильевич Савченко

doi:10.20535/S0021347021060030

Автор(и)

Андрей Владимирович Савченко Национальный исследовательский университет «Высшая школа экономики», Нижний Новгород, Російська Федерація https://orcid.org/0000-0001-6196-0564
Владимир Васильевич Савченко Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, Російська Федерація https://orcid.org/0000-0003-3045-3337

DOI:

https://doi.org/10.20535/S0021347021060030

Ключові слова:

цифровая обработка сигналов, речевой сигнал, спектральный анализ, защита от помех, меры расстояний, дивергенция Итакуры-Саито, COSH-расстояние, расстояние Итакуры, дивергенция Кульбака-Лейблера

Анотація

Рассмотрена новая мера искажений звуков речи диктора, инвариантная к коэффициенту усиления речевого сигнала в канале связи. Исследованы ее свойства в сравнении с наиболее близкими из аналогов. Доказан ряд теоретических положений. Показано, что новая мера объединяет в себе преимущества симметричной формы расстояния Итакуры в отношении помехоустойчивости автоматической обработки речи, с одной стороны, и COSH-расстояния в отношении чувствительности к искажениям речевого сигнала, с другой. С использованием авторского программного обеспечения поставлен и проведен эксперимент. Даны оценки зависимости новой меры от отношения сигнал–шум. Показано, что в логарифмическом отображении данная зависимость имеет близкий к линейному характер. Полученные результаты предназначены для использования при разработке новых, и модернизации существующих систем и технологий цифровой обработки сигналов и анализа качества речи в условиях действия шума.

Посилання

J. Sadasivan, C. S. Seelamantula, N. R. Muraka, “Speech enhancement using a risk estimation approach,” Speech Commun., vol. 116, pp. 12–29, 2020, doi: https://doi.org/10.1016/j.specom.2019.11.001.
В. В. Савченко, “Дивергенция Итакуры–Саито как элемент информационной теории восприятия речи,” Радиотехника и электроника, vol. 64, no. 6, pp. 585–592, 2019, doi: https://doi.org/10.1134/S0033849419060093.
M. A. Bakhshali, M. Khademi, A. Ebrahimi-Moghadam, S. Moghimi, “EEG signal classification of imagined speech based on Riemannian distance of correntropy spectral density,” Biomed. Signal Process. Control, vol. 59, p. 101899, 2020, doi: https://doi.org/10.1016/j.bspc.2020.101899.
А. А. Боровков, Математическая Статистика. Дополнительные Главы. Москва: Наука. Физматлит, 1984.
C. Liu, M. Jiang, “Robust adaptive filter with lncosh cost,” Signal Process., vol. 168, p. 107348, 2020, doi: https://doi.org/10.1016/j.sigpro.2019.107348.
D. Prasetyawan, T. Nakamoto, “Comparison of NMF with Kullback-Leibler divergence and Itakura-Saito divergence for Odor approximation,” in 2019 IEEE International Symposium on Olfaction and Electronic Nose (ISOEN), 2019, pp. 1–3, doi: https://doi.org/10.1109/ISOEN.2019.8823186.
Y. Matsuyama, A. Buzo, R. Gray, “Spectral distortion measures for speech compression. Information Systems Lab., Stanford Electronics Lab., Tech. Rep. 6504-3,” Stanford, California, 1978. uri: https://www.researchgate.net/publication/234252904.
F. Itakura, S. Saito, “Analysis synthesis telephony based on the maximum likelihood method,” in Proc. 6th of the International Congress on Acoustics, 1968, pp. C17–C20, uri: http://www.fon.hum.uva.nl/praat/manual/Itakura___Saito__1968_.html.
R. Gray, A. Buzo, A. Gray, Y. Matsuyama, “Distortion measures for speech processing,” IEEE Trans. Acoust. Speech, Signal Process., vol. 28, no. 4, pp. 367–376, 1980, doi: https://doi.org/10.1109/TASSP.1980.1163421.
S. Kullback, Information Theory and Statistics. New York: Dover Publications, 1997, uri: https://www.amazon.com/Information-Theory-Statistics-Dover-Mathematics/dp/0486696847.
F.-L. Xie, F. K. Soong, H. Li, “Voice conversion with SI-DNN and KL divergence based mapping without parallel training data,” Speech Commun., vol. 106, pp. 57–67, 2019, doi: https://doi.org/10.1016/j.specom.2018.11.007.
A. A. Gharbali, S. Najdi, J. M. Fonseca, “Investigating the contribution of distance-based features to automatic sleep stage classification,” Comput. Biol. Med., vol. 96, pp. 8–23, 2018, doi: https://doi.org/10.1016/j.compbiomed.2018.03.001.
V. V. Savchenko, “A method of measuring the index of acoustic voice quality based on an information-theoretic approach,” Meas. Tech., vol. 61, no. 1, pp. 79–84, 2018, doi: https://doi.org/10.1007/s11018-018-1391-8.
Y. Gu, H.-L. Wei, “A robust model structure selection method for small sample size and multiple datasets problems,” Inf. Sci., vol. 451–452, pp. 195–209, 2018, doi: https://doi.org/10.1016/j.ins.2018.04.007.
F. Mustiere, M. Bouchard, M. Bolic, “All-pole modeling of discrete spectral powers: A unified approach,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 705–708, 2012, doi: https://doi.org/10.1109/TASL.2011.2163511.
S. Shamila Rachel, U. Snekhalatha, K. Vedhasorubini, D. Balakrishnan, “Spectral analysis of speech signal characteristics: A comparison between healthy controls and Laryngeal disorder,” in Proc. International Conference on Intelligent Computing and Applications, 2018, pp. 333–341, doi: https://doi.org/10.1007/978-981-10-5520-1_31.
B. Wei, J. D. Gibson, “A new discrete spectral modeling method and an application to CELP coding,” IEEE Signal Process. Lett., vol. 10, no. 4, pp. 101–103, 2003, doi: https://doi.org/10.1109/LSP.2003.808550.
A. Ben Aicha, “Machine learning based approach to assess denoised speech,” Procedia Comput. Sci., vol. 159, pp. 698–706, 2019, doi: https://doi.org/10.1016/j.procs.2019.09.225.
M. E. Hossain, M. S. A. Zilany, E. Davies-Venn, “On the feasibility of using a bispectral measure as a nonintrusive predictor of speech intelligibility,” Comput. Speech Lang., vol. 57, pp. 59–80, 2019, doi: https://doi.org/10.1016/j.csl.2019.02.003.
V. V. Savchenko, A. V. Savchenko, “Method for measuring distortions of a speech signal during its transmission over a communication channel to a biometric identification system,” Izmer. Tekhnika, no. 11, pp. 65–72, 2020, doi: https://doi.org/10.32446/0368-1025it.2020-11-65-72.
В. В. Савченко, “Критерий минимума информационного расхождения сигналов с настройкой на голос диктора в задаче автоматического распознавания речи,” Известия вузов. Радиоэлектроника, vol. 63, no. 1, pp. 55–68, 2020, doi: https://doi.org/10.20535/S0021347020010045.
В. В. Савченко, “Метод фонетического декодирования слов с подавлением фонового шума,” Радиотехника и электроника, vol. 62, no. 7, pp. 681–686, 2017, doi: https://doi.org/10.7868/S0033849417070099.
В. В. Савченко, А. В. Савченко, “Критерий регулируемого уровня значимости для выбора порядка спектральной оценки максимума энтропии,” Известия вузов. Радиоэлектроника, vol. 62, no. 5, pp. 276–286, 2019, doi: https://doi.org/10.20535/S0021347019050042.
J. Benesty, J. Chen, Y. Huang, “Linear prediction,” in Springer Handbook of Speech Processing, Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp. 121–134.
F. Itakura, “Minimum prediction residual principle applied to speech recognition,” IEEE Trans. Acoust. Speech, Signal Process., vol. 23, no. 1, pp. 67–72, 1975, doi: https://doi.org/10.1109/TASSP.1975.1162641.
E. Estrada, H. Nazeran, F. Ebrahimi, M. Mikaeili, “Symmetric Itakura distance as an EEG signal feature for sleep depth determination,” in ASME 2009 Summer Bioengineering Conference, Parts A and B, 2009, pp. 723–724, doi: https://doi.org/10.1115/SBC2009-206233.
O. Diana, A. Mihaela, “Feature extraction and classification methods for a motor task brain computer interface: A comparative evaluation for two databases,” Int. J. Adv. Comput. Sci. Appl., vol. 8, no. 8, p. 0, 2017, doi: https://doi.org/10.14569/IJACSA.2017.080834.