Оцінювання потенційної ефективності кодування мовлення різними параметрами лінійного прогнозування

Автор(и)

  • Олег Игоревич Павлов Національний технічний університет України "Київський політехнічний інститут ім. Ігоря Сікорського", Ukraine https://orcid.org/0000-0003-1091-3009
  • Федор Федорович Дубровка Национальный технический университет Украины "Киевский политехнический институт им. Игоря Сикорского", Ukraine https://orcid.org/0000-0002-3485-6822

DOI:

https://doi.org/10.20535/S0021347020090010

Ключові слова:

линейное прогнозирование речи, спектральная огибающая речи, эффективное кодирование

Анотація

В статті представлено результати оцінювання потенційної ефективності кодування форми спектральної обвідної (ФСО) мовленнєвих сигналів (МС) методом лінійного прогнозування (ЛП) з використанням різних наборів альтернативних еквівалентних параметрів (АЕП), серед яких лінійні спектральні пари/проекції LSP (Line Spectral Pairs/Projections) і лінійні спектральні частоти LSF (Line Spectral Frequencies), та альтернативні до них лінійні спектральні параметри найвищого розщеплення LSP-HS і LSF-HS (LSP of Highest Splitting, LSF of Highest Splitting). Результати отримано на запропонованому підході, що базується на  застосуванні методу ЛП до кодування ФСО МС з максимальним перекриттям кадрів під час його аналізу, розгляді такої схеми кодування як наближення до відповідного аналогового векторного джерела у кожному з просторів АЕП, покроковому проектуванні в кожному з них відповідної векторної кодової книги з поступовим збільшенням її розміру та використанні на кожній стадії її проектування ідеальної схеми векторного квантування з повним пошуком. За результатами аналізу у кожному з просторів АЕП  обчислено залежності «спотворення–швидкість» та запропоновано узагальнену функцію їх апроксимації. Описано методику, яка дозволяє для кожного простору АЕП оцінити нижню межу Шеннона, дисперсію еквівалентного джерела Гауса, диференційну ентропію, надлишковість, значення вагової константи в узагальненій формулі ентропії та інші ентропійні характеристики кодування еквівалентних джерел (параметри ФСО МС) у цих просторах. Запропоновано та обчислено показники ефективності реального та потенційного кодування відповідних АЕП. Показано, що за сукупністю запропонованих показників ефективності найкращі результати демонструють простори лінійних спектральних параметрів найвищого розщеплення LSP-HS та LSF-HS.

Посилання

W. C. Chu, Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. New Jersey: Wiley, 2003, uri: https://www.wiley.com/en-us/Speech+Coding+Algorithms%3A+Foundation+and+Evolution+of+Standardized+Coders-p-9780471668879.

О. И. Шелухин, Н. Ф. Лукьянцев, Цифровая Обработка и Передача Речи. Москва: Радио и связь, 2000, uri: https://www.elibrary.ru/item.asp?id=24482027.

Д. Д. Маркел, А. Х. Грей, Линейное Предсказание Речи. Москва: Связь, 1980, uri: https://www.twirpx.com/file/154357/.

Л. Р. Рабинер, Р. В. Шафер, Цифровая Обработка Речевых Сигналов. Москва: Радио и связь, 1981.

C. E. Shannon, “A mathematical theory of communication,” Bell Syst. Tech. J., vol. 27, no. 3, pp. 379–423, 1948, doi: https://doi.org/10.1002/j.1538-7305.1948.tb01338.x.

C. E. Shannon, “Communication in the presence of noise,” Proc. IRE, vol. 37, no. 1, pp. 10–21, 1949, doi: https://doi.org/10.1109/JRPROC.1949.232969.

Ф. Ф. Дубровка, В. А. Третьяков, “Анализ спектральной эффективности цифровых сигналов для сверхширокополосных радиосистем диапазона частот 3,1–10,6 ГГц,” Известия вузов. Радиоэлектроника, vol. 54, no. 9, pp. 3–11, 2011, doi: https://doi.org/10.20535/S0021347011090019.

Ф. Ф. Дубровка, В. А. Третьяков, “Предельные соотношения между символьной скоростью и минимальной частотой несущей в сверхширокополосных цифровых системах передачи информации,” Известия вузов. Радиоэлектроника, vol. 52, no. 1, pp. 3–14, 2009, doi: https://doi.org/10.20535/S0021347009010014.

К. Шеннон, Работы По Теории Информации и Кибернетике. Москва: Иностранная литература, 1963.

J. Makhoul, S. Roucos, H. Gish, “Vector quantization in speech coding,” Proc. IEEE, vol. 73, no. 11, pp. 1551–1588, 1985, doi: https://doi.org/10.1109/PROC.1985.13340.

А. Н. Колмогоров, “Три подхода к определению понятия ‘количество информации,’” Проблемы передачи информации, vol. 1, no. 1, pp. 3–11, 1965, uri: http://mi.mathnet.ru/ppi68.

А. Н. Колмогоров, Теория Информации и Теория Алгоритмов. Москва: Наука, 1987.

3GPP, “European digital cellular telecommunications system; half rate speech. part 2: half rate speech transcoding (gsm 06.20),” in GSM. Global System for Mobile Communications. ETS 300 581-2 (GSM 06.20 version 4.2.1), 3GPP, 1995.

J. V. Macres, “Theory and implementation of the digital cellular standard voice coder: vselp on the tms320c5x,” 1994. uri: https://www.ti.com/lit/an/spra136/spra136.pdf?ts=1601298356148.

U. S. D. of Defense, “Analog to digital conversion of voice by 2400 bit/second linear predictive coding,” 1984. uri: https://nvlpubs.nist.gov/nistpubs/Legacy/FIPS/fipspub137.pdf.

3GPP, “Enhanced full rate (efr) speech transcoding (gsm 06.60) / draft prets 300 726 (gsm 06.60 version 5.0.0),” in GSM. Global System for Mobile Communications. Digital cellular telecommunications system, 3GPP, 1996.

3GPP, “Adaptive multi-rate (amr) speech transcoding (gsm 06.90 version 7.2.1 release 1998) / etsi en 301 704 v7.2.1,” in GSM. Global System for Mobile Communications: Digital cellular telecommunications system (Phase 2+), 3GPP, 2000.

3GPP, “European standard (telecommunications series). terrestrial trunked radio (tetra),” in Speech codec for full-rate traffic channel; Part 2: TETRA codec / ETSI EN 300 395-2 v1.3.1, 3GPP, 2005.

S. A. NATO, “The 600 bit/s, 1200 bit/s and 2400 bit/s nato interoperable narrow band voice coder,” in STANAG 4591 С3 (Edition 1), 2008.

U. S. D. T. Defense, “Analog to digital conversion of radio voice by 4,800 bit/second code excited linear prediction (celp),” in FED-STD-1016-CELP, 1991.

T. S. S. ITU, “General aspects of digital transmission systems,” in ITU-T Recommendation G.729, Geneva: ITU, 1996.

T. S. S. ITU, “G.729 : reduced complexity 8 kbit/s cs-acelp speech codec,” in ITU-T Recommendation G.729, Geneva: ITU, 1996.

3GPP, “Full rate speech; transcoding (gsm 06.10 version 5.1.1) / ets 300 961 (gsm 06.10 version 5.1.1),” in GSM. Global System for Mobile Communications: Digital cellular telecommunications system (Phase 2+), 3GPP, 1998.

K. Koishida, K. Tokuda, T. Kobayashi, S. Imai, “CELP coding system based on mel-generalized cepstral analysis,” in Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP ’96, 1996, vol. 1, pp. 318–321, doi: https://doi.org/10.1109/ICSLP.1996.607117.

K. Koishida, G. Hirabayashi, K. Tokuda, T. Kobayashi, “A wideband celp speech coder at 16 kbit/s based on mel-generalized cepstral analysis,” in Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP ’98 (Cat. No.98CH36181), 1998, vol. 1, pp. 161–164, doi: https://doi.org/10.1109/ICASSP.1998.674392.

R. Vích, Z. Smékal, “LPC and ccf vocal tract models in speech synthesis,” in Proc. of 9th European Signal Processing Conference (EUSIPCO 1998), 1998, uri: https://ieeexplore.ieee.org/document/7089808.

J. Přibil, A. Madlová, “Two speech synthesis methods based on cepstral parameterization,” Radioengineering, vol. 11, no. 2, pp. 35–39, 2002.

G. Strecha, M. Eichner, “Low resource tts synthesis based on cepstral filter with phase randomized excitation,” in Proc. of SPECOM 2006, 2006, uri: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.518.4400&rep=rep1&type=pdf.

R. Vích, M. Vondra, “Complex cepstrum in speech synthesis,” in Proc. of BIOSIGNAL 2010. Analysis of Biomedical Signals and Images, 2010, pp. 37–42.

J. Al-Kheir, Z. Smekal, “Cepstral vocal tract modelling for text-to-speech synthesis,” Damascus Univ. J., vol. 29, no. 1, p. 1, 2013.

F. Itakura, “Line spectrum representation of linear predictor coefficients of speech signals,” J. Acoust. Soc. Am., vol. 57, no. S1, pp. S35–S35, 1975, doi: https://doi.org/10.1121/1.1995189.

F. Itakura, N. Sugamura, “Sound synthesizer,” 4393272, G10L 1/00, 1980.

F. Soong, B. Juang, “Line spectrum pair (lsp) and speech data compression,” in ICASSP ’84. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 9, pp. 37–40, doi: https://doi.org/10.1109/ICASSP.1984.1172448.

3GPP, “Enhanced variable rate codec, speech service. option 3 for wideband spread spectrum digital systems,” in 3rd Generation Partnership Project 2 “3GPP2”. 3GPP2 C.S0014-A v1.0, 3GPP, 2004.

О. И. Павлов, “Прямое п-преобразование в линейном предсказании речи,” Известия вузов. Радиоэлектроника, vol. 43, no. 12, pp. 53–66, 2000.

R. Viswanathan, J. Makhoul, “Quantization properties of transmission parameters in linear predictive systems,” IEEE Trans. Acoust. Speech, Signal Process., vol. 23, no. 3, pp. 309–321, 1975, doi: https://doi.org/10.1109/TASSP.1975.1162675.

N. Sugamura, Speech Signal Coding Using Line Spectrum Parameters. Osaka University Knowledge Archive, 1984, uri: https://ir.library.osaka-u.ac.jp/repo/ouka/all/623/06964_論文.pdf.

Y. Bistritz, H. Lev-Ari, T. Kailath, “Immittance-domain levinson algorithms,” IEEE Trans. Inf. Theory, vol. 35, no. 3, pp. 675–682, 1989, doi: https://doi.org/10.1109/18.30994.

Y. Bistritz, S. Peller, “Immittance spectral pairs (isp) for speech encoding,” in IEEE International Conference on Acoustics Speech and Signal Processing, 1993, vol. 2, pp. 9–12 vol.2, doi: https://doi.org/10.1109/ICASSP.1993.319215.

V. Semenov, “Computation of immittance and line spectral frequencies based on inter-frame ordering property,” J. Comput., vol. 2, no. 7, pp. 75–80, 2007, doi: https://doi.org/10.4304/jcp.2.7.75-80.

F. Itakura, S. Saito, “On the optimum quantization of feature parameters in the parcor speech synthesizer,” in Proc. Conf. Speech Commun. Process., 1972, pp. 434–437.

K. K. Paliwal, B. S. Atal, “Efficient vector quantization of lpc parameters at 24 bits/frame,” IEEE Trans. Speech Audio Process., vol. 1, no. 1, pp. 3–14, 1993, doi: https://doi.org/10.1109/89.221363.

K. K. Paliwal, W. B. Kleijn, “Quantization of lpc parameters,” in Speech coding and synthesis, W. B. Kleijn and K. K. Paliwal, Eds. Amsterdam ; New York: Elsevier, 1995, pp. 433–466.

О. І. Павлов, П. А. Стасевич, Г. М. Тертичний, “Оцінка ефективності кодування спектральної обвідної мовленнєвих сигналів в просторах лінійних спектральних параметрів найвищої регресії методом кластерного аналізу,” in Праці 9-ої Всеукраїнської міжнародної конференції “Оброблення сигналів і зображень та розпізнавання образів,” 2008, pp. 189–192.

М. І. Мазурков, Основи Теорії Передавання Інформації: Навч. Посіб. Для Вищ. Навч. Закладів. Одеса: Наука і техніка, 2005.

J. Gibson, “Rate distortion functions and rate distortion function lower bounds for real-world sources,” Entropy, vol. 19, no. 11, p. 604, 2017, doi: https://doi.org/10.3390/e19110604.

C. A. Franco-Galvan, J. A. Herrera-Camacho, B. Escalante-Ramirez, “Application of different statistical tests for validation of synthesized speech parameterized by cepstral coefficients and lsp,” Comput. y Sist., vol. 23, no. 2, pp. 461–467, 2019, doi: https://doi.org/10.13053/cys-23-2-2977.

H. S. Sung, E. M. Oh, “Determining weighting functions for line spectral frequency coefficients,” 10580425B2, G10L 19/02, 2017.

Y. Xue et al., “Fast computation of lsp frequencies using the bairstow method,” Electronics, vol. 9, no. 3, p. 387, 2020, doi: https://doi.org/10.3390/electronics9030387.

Y. Linde, A. Buzo, R. Gray, “An algorithm for vector quantizer design,” IEEE Trans. Commun., vol. 28, no. 1, pp. 84–95, 1980, doi: https://doi.org/10.1109/TCOM.1980.1094577.

Опубліковано

2020-09-21

Як цитувати

Павлов, О. И., & Дубровка, Ф. Ф. (2020). Оцінювання потенційної ефективності кодування мовлення різними параметрами лінійного прогнозування. Вісті вищих учбових закладів. Радіоелектроніка, 63(9), 531–548. https://doi.org/10.20535/S0021347020090010

Номер

Розділ

Статті