Метод редукции авторегрессионной модели речевого сигнала для систем передачи речи по низкоскоростным каналам связи

Автор(и)

  • Владимир Васильевич Савченко Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, Russian Federation https://orcid.org/0000-0003-3045-3337

DOI:

https://doi.org/10.20535/S0021347021110030

Ключові слова:

цифровая обработка сигналов, речевой сигнал, низкоскоростные каналы связи, цифровой спектральный анализ, спектральная плотность мощности, алгоритмы CELP

Анотація

Рассмотрена задача редукции, или сокращения порядка p >> 1 авторегрессионной модели (АР-модель) речевого сигнала по критерию минимума потерь полезной информации. Задача сформулирована как оптимизационная в терминах дискретного спектрального моделирования. Указано, что наиболее острой проблемой при ее решении является необходимость масштабирования параметров АР-модели под моделируемый сигнал на каждом шаге итеративных вычислений. Для преодоления указанной проблемы предложено использовать в качестве целевого функционала оптимизационной задачи меру информационного рассогласования сигналов в частотной области со свойством масштабной инвариантности. На ее основе разработан новый метод редукции АР-модели, в котором операция масштабирования вынесена за рамки итеративной процедуры оптимизации. Эффективность предложенного метода обоснована теоретически и исследована экспериментально. Показано, что основным эффектом его применения по сравнению с методом Берга, является выигрыш по точности редуцированной АР-модели в информационной метрике Кульбака–Лейблера. Полученные результаты адресованы исследователям и разработчикам систем и технологий цифровой передачи речи по низкоскоростным каналам связи.

Біографія автора

Владимир Васильевич Савченко, Нижегородский государственный лингвистический университет им. Н.А. Добролюбова

кафедра математики и информатики, профессор

Посилання

G. Kitagawa, Introduction to Time Series Modeling: with Applications in R (2nd ed.). Boca Raton: Chapman and Hall / CRC Press, 2020. 340 p., doi: 10.1201/9780429197963.

L. Tan, J. Jiang, Digital Signal Processing: Fundamentals and Applications. 3-d ed. Academic Press, 2019. 889 p., doi: 10.1016/B978-0-12-815071-9.00001-4.

L. R. Rabiner, R. W. Schafer, "Introduction to Digital Speech Processing", Foundations and Trends® in Signal Processing, vol. 1: No. 1–2, pp. 1-194, doi: 10.1561/2000000001.

M. W. Spratling, "A review of predictive coding algorithms," Brain and Cognition, vol. 112, pp. 92-97, 2017, doi: 10.1016/j.bandc.2015.11.003.

G. Sharma, K. Umapathy, S. Krishnan, "Trends in Audio Signal Feature Extraction Methods," Applied Acoustics, vol. 158, article 107020, 2020, doi: 10.1016/j.apacoust.2019.107020.

H. Chaouch, M. Merazka, "Multiple Description Coding Technique to Improve the Robustness of ACELP based Coders AMR-WB," Speech Communication, vol. 108, pp. 33-40, 2019, doi: 10.1016/j.specom.2019.02.002.

V. V. Savchenko, A. V. Savchenko, "Method for Measuring Distortions in Speech Signals during Transmission over a Communication Channel to a Biometric Identification System," Measurement Techniques, vol. 63, no. 5, pp. 917-925, 2020, doi: 10.1007/s11018-021-01864-x.

Yu. Gu, H. L. Wei, "A Robust Model Structure Selection Method for Small Sample Size and Multiple Datasets Problems," Information Sciences, vol. 451–452, pp. 195-209, 2018, doi: 10.1016/j.ins.2018.04.007.

S. Cui, E. Li, X. Kang, "Autoregressive Model Based Smoothing Forensics Of Very Short Speech Clips," IEEE International Conference on Multimedia and Expo (ICME). London. United Kingdom, pp. 1-6, 2020, doi: 10.1109/ICME46284.2020.9102765.

S. L. Marple, Digital Spectral Analysis with Applications. 2-nd ed. Mineola, New York, Dover Publications. 2019. 432 p. URI: https://www.goodreads.com/book/show/19484239.

J. Benesty, J. Chen, Y. Huang, Linear Prediction: In Springer handbook of speech processing. Part B. N.Y.: Springer, 2008, pp. 111-124, doi: 10.1007/978-3-540-49127-9_7.

J. Gibson, "Mutual Information, the Linear Prediction Model and CELP Voice Codecs," Information, vol. 10, no. 5, article 179, 2019, doi: 10.3390/info10050179.

С. Candan, "Making Linear Prediction Perform Like Maximum Likelihood in Gaussian Autoregressive Model Parameter Estimation," Signal Processing, vol. 166, article 107256, 2020, doi: 10.1016/j.sigpro.2019.107256.

D. Xiao et al., “An Extended Levinson-Durbin Algorithm and its Application in Mixed Excitation Linear Prediction.” Heliyon, vol. 4, no. 11, article e00948, 2018, doi: 10.1016/j.heliyon.2018.e00948.

M. Morise, "A spectral envelope estimator for high-quality speech synthesis," Speech Communication, vol. 67, pp. 1-7, 2015, doi: 10.1016/j.specom.2014.09.003.

V. Yu. Semenov, "Methods for Calculating and Coding the Parameters of Autoregressive Speech Model when Developing the Vocoder Based on Fixed Point Signal Process," Journal of Automation and Information Sciences, vol. 51, no. 2, pp. 30-40, 2019, doi: 10.1615/JAutomatInfScien.v51.i2.40.

V. V. Savchenko, A. V. Savchenko, "Guaranteed Significance Level Criterion in Automatic Speech Signal Segmentation," Journal of Communications Technology and Electronics, vol. 65, no. 11, pp. 1311-1317, 2020, doi: 10.1134/S1064226920110157.

А. V. Savchenko, V. V. Savchenko, "A Method for Measuring the Pitch Frequency of Speech Signals for the Systems of Acoustic Speech Analysis," Measurement Techniques, vol. 62, no. 3, pp. 282-288, 2019, doi: 10.1007/s11018-019-01617-x.

L. Chang, J. Ming, "Robust Adaptive Filter with Lncosh Cost," Signal Processing, vol. 168, article 107348, 2020. [Supports open access], doi: 10.1016/j.sigpro.2019.107348.

S. Kullback, Information Theory and Statistics. N.Y.: Dover Publications, 1997. 432 p. URI: https://www.amazon.com//dp/0486696847.

V. V. Savchenko, A. V. Savchenko, "Criterion of Significance Level for Selection of Order of Spectral Estimation of Entropy Maximum," Radioelectron. Commun. Syst., vol. 62, no. 5, pp. 223-231, 2019, doi: 10.3103/S0735272719050042.

B. Wei, J. Gibson, "A New Discrete Spectral Modeling Method and an Application to CELP Coding," IEEE Signal Processing Letters, vol. 10, no. 4, pp. 101-103, 2003, doi: 10.1109/LSP.2003.808550.

F. Mustiere, M. Bouchard, M. Bolic, "All-Pole Modeling of Discrete Spectral Powers: A Unified Approach," IEEE Transactions on Audio Speech and Language Processing, vol. 20, no. 2, pp. 705-708, 2012, doi: 10.1109/TASL.2011.2163511.

A. R. Sampson, Stochastic Approximation. In Wiley StatsRef: Statistics Reference Online (eds N. Balakrishnan et al.). 2014, doi: 10.1002/9781118445112.stat01848.

V. V. Savchenko, "Minimum of Information Divergence Criterion for Signals with Tuning to Speaker Voice in Automatic Speech Recognition," Radioelectron. Commun. Syst, vol. 63, no. 1, pp. 42-54, 2020, doi: 10.3103/S0735272720010045.

A. V. Savchenko, V. V. Savchenko, "Scale-Invariant Modification of COSH Distance for Measuring Speech Signal Distortions in Real-Time Mode," Radioelectron. Commun. Syst, vol. 64, no. 6, pp. 300-309, 2021, doi: 10.3103/S0735272721060030.

V. V. Savchenko, "Itakura–Saito Divergence as an Element of the Information Theory of Speech Perception," Journal of Communications Technology and Electronics, vol. 64, no. 6, pp. 590–596, 2019, doi: 10.1134/S1064226919060093.

R. M. Gray et al., " Distortion Measures for Speech Processing," IEEE Transactions on Signal Processing, vol. 28, no. 4, pp. 367-377, 1980, doi: 10.1109/TASSP.1980.1163421.

E. Estrada et al., "Symmetric Itakura Distance as an EEG Signal Feature for Sleep Depth Determination," ASME 2009. Summer Bioengineering Conference. Lake Tahoe, California, USA. Published Online: July 19, 2013, doi: 10.1115/SBC2009-206233.

D. Wang et al., Model-based Health Monitoring of Hybrid Systems. New York. Springer, 2013. 297 p, doi: 10.1007/978-1-4614-7369-5.

O. D. Eva, A. M. Lazar, "Feature Extraction and Classification Methods for a Motor Task Brain Computer Interface: A Comparative Evaluation for Two Databases," International Journal of Advanced Computer Science and Applications, vol. 8, no. 8, pp. 263-269, 2017, doi: 10.14569/IJACSA.2017.080834.

H. B. Kashani, A. Sayadiyan, "Sequential Use of Spectral Models to Reduce Deletion and Insertion Errors in Vowel Detection," Computer Speech & Language, vol. 50, pp. 105-125, 2018, doi: 10.1016/j.csl.2017.12.008.

J. Gibson, "Speech Compression," Information, vol. 7, no. 2, article 32, 2016, doi: 10.3390/info7020032.

G. Tamulevičius, J. Kaukenas, "High-order autoregressive modeling of individual speaker's qualities," 5th IEEE Workshop on Advances in Information, Electronic and Electrical Engineering (AIEEE). Riga, pp. 1-6, 2017, doi: 10.1109/AIEEE.2017.8270551.

СПМ редуцированной АР-модели для различных значений L

Опубліковано

2021-12-30 — Оновлено 2022-01-22

Як цитувати

Савченко, В. В. (2022). Метод редукции авторегрессионной модели речевого сигнала для систем передачи речи по низкоскоростным каналам связи. Вісті вищих учбових закладів. Радіоелектроніка, 64(11), 682–695. https://doi.org/10.20535/S0021347021110030

Номер

Розділ

Оригінальні статті