Оцінювання потенційної ефективності кодування мовлення різними параметрами лінійного прогнозування
DOI:
https://doi.org/10.20535/S0021347020090010Ключові слова:
линейное прогнозирование речи, спектральная огибающая речи, эффективное кодированиеАнотація
В статті представлено результати оцінювання потенційної ефективності кодування форми спектральної обвідної (ФСО) мовленнєвих сигналів (МС) методом лінійного прогнозування (ЛП) з використанням різних наборів альтернативних еквівалентних параметрів (АЕП), серед яких лінійні спектральні пари/проекції LSP (Line Spectral Pairs/Projections) і лінійні спектральні частоти LSF (Line Spectral Frequencies), та альтернативні до них лінійні спектральні параметри найвищого розщеплення LSP-HS і LSF-HS (LSP of Highest Splitting, LSF of Highest Splitting). Результати отримано на запропонованому підході, що базується на застосуванні методу ЛП до кодування ФСО МС з максимальним перекриттям кадрів під час його аналізу, розгляді такої схеми кодування як наближення до відповідного аналогового векторного джерела у кожному з просторів АЕП, покроковому проектуванні в кожному з них відповідної векторної кодової книги з поступовим збільшенням її розміру та використанні на кожній стадії її проектування ідеальної схеми векторного квантування з повним пошуком. За результатами аналізу у кожному з просторів АЕП обчислено залежності «спотворення–швидкість» та запропоновано узагальнену функцію їх апроксимації. Описано методику, яка дозволяє для кожного простору АЕП оцінити нижню межу Шеннона, дисперсію еквівалентного джерела Гауса, диференційну ентропію, надлишковість, значення вагової константи в узагальненій формулі ентропії та інші ентропійні характеристики кодування еквівалентних джерел (параметри ФСО МС) у цих просторах. Запропоновано та обчислено показники ефективності реального та потенційного кодування відповідних АЕП. Показано, що за сукупністю запропонованих показників ефективності найкращі результати демонструють простори лінійних спектральних параметрів найвищого розщеплення LSP-HS та LSF-HS.Посилання
W. C. Chu, Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. New Jersey: Wiley, 2003, uri: https://www.wiley.com/en-us/Speech+Coding+Algorithms%3A+Foundation+and+Evolution+of+Standardized+Coders-p-9780471668879.
О. И. Шелухин, Н. Ф. Лукьянцев, Цифровая Обработка и Передача Речи. Москва: Радио и связь, 2000, uri: https://www.elibrary.ru/item.asp?id=24482027.
Д. Д. Маркел, А. Х. Грей, Линейное Предсказание Речи. Москва: Связь, 1980, uri: https://www.twirpx.com/file/154357/.
Л. Р. Рабинер, Р. В. Шафер, Цифровая Обработка Речевых Сигналов. Москва: Радио и связь, 1981.
C. E. Shannon, “A mathematical theory of communication,” Bell Syst. Tech. J., vol. 27, no. 3, pp. 379–423, 1948, doi: https://doi.org/10.1002/j.1538-7305.1948.tb01338.x.
C. E. Shannon, “Communication in the presence of noise,” Proc. IRE, vol. 37, no. 1, pp. 10–21, 1949, doi: https://doi.org/10.1109/JRPROC.1949.232969.
Ф. Ф. Дубровка, В. А. Третьяков, “Анализ спектральной эффективности цифровых сигналов для сверхширокополосных радиосистем диапазона частот 3,1–10,6 ГГц,” Известия вузов. Радиоэлектроника, vol. 54, no. 9, pp. 3–11, 2011, doi: https://doi.org/10.20535/S0021347011090019.
Ф. Ф. Дубровка, В. А. Третьяков, “Предельные соотношения между символьной скоростью и минимальной частотой несущей в сверхширокополосных цифровых системах передачи информации,” Известия вузов. Радиоэлектроника, vol. 52, no. 1, pp. 3–14, 2009, doi: https://doi.org/10.20535/S0021347009010014.
К. Шеннон, Работы По Теории Информации и Кибернетике. Москва: Иностранная литература, 1963.
J. Makhoul, S. Roucos, H. Gish, “Vector quantization in speech coding,” Proc. IEEE, vol. 73, no. 11, pp. 1551–1588, 1985, doi: https://doi.org/10.1109/PROC.1985.13340.
А. Н. Колмогоров, “Три подхода к определению понятия ‘количество информации,’” Проблемы передачи информации, vol. 1, no. 1, pp. 3–11, 1965, uri: http://mi.mathnet.ru/ppi68.
А. Н. Колмогоров, Теория Информации и Теория Алгоритмов. Москва: Наука, 1987.
3GPP, “European digital cellular telecommunications system; half rate speech. part 2: half rate speech transcoding (gsm 06.20),” in GSM. Global System for Mobile Communications. ETS 300 581-2 (GSM 06.20 version 4.2.1), 3GPP, 1995.
J. V. Macres, “Theory and implementation of the digital cellular standard voice coder: vselp on the tms320c5x,” 1994. uri: https://www.ti.com/lit/an/spra136/spra136.pdf?ts=1601298356148.
U. S. D. of Defense, “Analog to digital conversion of voice by 2400 bit/second linear predictive coding,” 1984. uri: https://nvlpubs.nist.gov/nistpubs/Legacy/FIPS/fipspub137.pdf.
3GPP, “Enhanced full rate (efr) speech transcoding (gsm 06.60) / draft prets 300 726 (gsm 06.60 version 5.0.0),” in GSM. Global System for Mobile Communications. Digital cellular telecommunications system, 3GPP, 1996.
3GPP, “Adaptive multi-rate (amr) speech transcoding (gsm 06.90 version 7.2.1 release 1998) / etsi en 301 704 v7.2.1,” in GSM. Global System for Mobile Communications: Digital cellular telecommunications system (Phase 2+), 3GPP, 2000.
3GPP, “European standard (telecommunications series). terrestrial trunked radio (tetra),” in Speech codec for full-rate traffic channel; Part 2: TETRA codec / ETSI EN 300 395-2 v1.3.1, 3GPP, 2005.
S. A. NATO, “The 600 bit/s, 1200 bit/s and 2400 bit/s nato interoperable narrow band voice coder,” in STANAG 4591 С3 (Edition 1), 2008.
U. S. D. T. Defense, “Analog to digital conversion of radio voice by 4,800 bit/second code excited linear prediction (celp),” in FED-STD-1016-CELP, 1991.
T. S. S. ITU, “General aspects of digital transmission systems,” in ITU-T Recommendation G.729, Geneva: ITU, 1996.
T. S. S. ITU, “G.729 : reduced complexity 8 kbit/s cs-acelp speech codec,” in ITU-T Recommendation G.729, Geneva: ITU, 1996.
3GPP, “Full rate speech; transcoding (gsm 06.10 version 5.1.1) / ets 300 961 (gsm 06.10 version 5.1.1),” in GSM. Global System for Mobile Communications: Digital cellular telecommunications system (Phase 2+), 3GPP, 1998.
K. Koishida, K. Tokuda, T. Kobayashi, S. Imai, “CELP coding system based on mel-generalized cepstral analysis,” in Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP ’96, 1996, vol. 1, pp. 318–321, doi: https://doi.org/10.1109/ICSLP.1996.607117.
K. Koishida, G. Hirabayashi, K. Tokuda, T. Kobayashi, “A wideband celp speech coder at 16 kbit/s based on mel-generalized cepstral analysis,” in Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP ’98 (Cat. No.98CH36181), 1998, vol. 1, pp. 161–164, doi: https://doi.org/10.1109/ICASSP.1998.674392.
R. Vích, Z. Smékal, “LPC and ccf vocal tract models in speech synthesis,” in Proc. of 9th European Signal Processing Conference (EUSIPCO 1998), 1998, uri: https://ieeexplore.ieee.org/document/7089808.
J. Přibil, A. Madlová, “Two speech synthesis methods based on cepstral parameterization,” Radioengineering, vol. 11, no. 2, pp. 35–39, 2002.
G. Strecha, M. Eichner, “Low resource tts synthesis based on cepstral filter with phase randomized excitation,” in Proc. of SPECOM 2006, 2006, uri: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.518.4400&rep=rep1&type=pdf.
R. Vích, M. Vondra, “Complex cepstrum in speech synthesis,” in Proc. of BIOSIGNAL 2010. Analysis of Biomedical Signals and Images, 2010, pp. 37–42.
J. Al-Kheir, Z. Smekal, “Cepstral vocal tract modelling for text-to-speech synthesis,” Damascus Univ. J., vol. 29, no. 1, p. 1, 2013.
F. Itakura, “Line spectrum representation of linear predictor coefficients of speech signals,” J. Acoust. Soc. Am., vol. 57, no. S1, pp. S35–S35, 1975, doi: https://doi.org/10.1121/1.1995189.
F. Itakura, N. Sugamura, “Sound synthesizer,” 4393272, G10L 1/00, 1980.
F. Soong, B. Juang, “Line spectrum pair (lsp) and speech data compression,” in ICASSP ’84. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 9, pp. 37–40, doi: https://doi.org/10.1109/ICASSP.1984.1172448.
3GPP, “Enhanced variable rate codec, speech service. option 3 for wideband spread spectrum digital systems,” in 3rd Generation Partnership Project 2 “3GPP2”. 3GPP2 C.S0014-A v1.0, 3GPP, 2004.
О. И. Павлов, “Прямое п-преобразование в линейном предсказании речи,” Известия вузов. Радиоэлектроника, vol. 43, no. 12, pp. 53–66, 2000.
R. Viswanathan, J. Makhoul, “Quantization properties of transmission parameters in linear predictive systems,” IEEE Trans. Acoust. Speech, Signal Process., vol. 23, no. 3, pp. 309–321, 1975, doi: https://doi.org/10.1109/TASSP.1975.1162675.
N. Sugamura, Speech Signal Coding Using Line Spectrum Parameters. Osaka University Knowledge Archive, 1984, uri: https://ir.library.osaka-u.ac.jp/repo/ouka/all/623/06964_論文.pdf.
Y. Bistritz, H. Lev-Ari, T. Kailath, “Immittance-domain levinson algorithms,” IEEE Trans. Inf. Theory, vol. 35, no. 3, pp. 675–682, 1989, doi: https://doi.org/10.1109/18.30994.
Y. Bistritz, S. Peller, “Immittance spectral pairs (isp) for speech encoding,” in IEEE International Conference on Acoustics Speech and Signal Processing, 1993, vol. 2, pp. 9–12 vol.2, doi: https://doi.org/10.1109/ICASSP.1993.319215.
V. Semenov, “Computation of immittance and line spectral frequencies based on inter-frame ordering property,” J. Comput., vol. 2, no. 7, pp. 75–80, 2007, doi: https://doi.org/10.4304/jcp.2.7.75-80.
F. Itakura, S. Saito, “On the optimum quantization of feature parameters in the parcor speech synthesizer,” in Proc. Conf. Speech Commun. Process., 1972, pp. 434–437.
K. K. Paliwal, B. S. Atal, “Efficient vector quantization of lpc parameters at 24 bits/frame,” IEEE Trans. Speech Audio Process., vol. 1, no. 1, pp. 3–14, 1993, doi: https://doi.org/10.1109/89.221363.
K. K. Paliwal, W. B. Kleijn, “Quantization of lpc parameters,” in Speech coding and synthesis, W. B. Kleijn and K. K. Paliwal, Eds. Amsterdam ; New York: Elsevier, 1995, pp. 433–466.
О. І. Павлов, П. А. Стасевич, Г. М. Тертичний, “Оцінка ефективності кодування спектральної обвідної мовленнєвих сигналів в просторах лінійних спектральних параметрів найвищої регресії методом кластерного аналізу,” in Праці 9-ої Всеукраїнської міжнародної конференції “Оброблення сигналів і зображень та розпізнавання образів,” 2008, pp. 189–192.
М. І. Мазурков, Основи Теорії Передавання Інформації: Навч. Посіб. Для Вищ. Навч. Закладів. Одеса: Наука і техніка, 2005.
J. Gibson, “Rate distortion functions and rate distortion function lower bounds for real-world sources,” Entropy, vol. 19, no. 11, p. 604, 2017, doi: https://doi.org/10.3390/e19110604.
C. A. Franco-Galvan, J. A. Herrera-Camacho, B. Escalante-Ramirez, “Application of different statistical tests for validation of synthesized speech parameterized by cepstral coefficients and lsp,” Comput. y Sist., vol. 23, no. 2, pp. 461–467, 2019, doi: https://doi.org/10.13053/cys-23-2-2977.
H. S. Sung, E. M. Oh, “Determining weighting functions for line spectral frequency coefficients,” 10580425B2, G10L 19/02, 2017.
Y. Xue et al., “Fast computation of lsp frequencies using the bairstow method,” Electronics, vol. 9, no. 3, p. 387, 2020, doi: https://doi.org/10.3390/electronics9030387.
Y. Linde, A. Buzo, R. Gray, “An algorithm for vector quantizer design,” IEEE Trans. Commun., vol. 28, no. 1, pp. 84–95, 1980, doi: https://doi.org/10.1109/TCOM.1980.1094577.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Известия высших учебных заведений. РадиоэлектроникаИздатель журнала Известия высших учебных заведений. Радиоэлектроника (сокр. "Известия вузов. Радиоэлектроника"), Национальный технический университет Украины "Киевский политехнический институт", учитывает, что доступ автора к его статье является важным как для самого автора, так и для спонсоров его исследований. Мы представлены в базе издателей SHERPA/RoMEO как зеленый издатель (green publisher), что позволяет автору выполнять самоархивирование своей статьи. Однако важно, чтобы каждая из сторон четко понимала свои права. Просьба более детально ознакомиться с Политикой самоархивирования нашего журнала.
Политика оплаченного открытого доступа POA (paid open access), принятая в журнале, позволяет автору выполнить все необходимые требования по открытому доступу к своей статье, которые выдвигаются институтом, правительством или фондом при выделении финансирования. Просьба более детально ознакомиться с политикой оплаченного открытого доступа нашего журнала (см. отдельно).
Варианты доступа к статье:
1. Статья в открытом доступе POA (paid open access)
В этом случае права автора определяются лицензией CC BY (Creative Commons Attribution).
2. Статья с последующим доступом по подписке
В этом случае права автора определяются авторским договором, приведенным далее.
- Автор (каждый соавтор) уступает Издателю журнала «Известия высших учебных заведений. Радиоэлектроника» НТУУ «КПИ» на срок действия авторского права эксклюзивные права на материалы статьи, в том числе право на публикацию данной статьи издательством Аллертон Пресс, США (Allerton Press) на английском языке в журнале «Radioelectronics and Communications Systems». Передача авторского права охватывает исключительное право на воспроизведение и распространение статьи, включая оттиски, переводы, фото воспроизведения, микроформы, электронные формы (он- и оффлайн), или любые иные подобные формы воспроизведения, а также право издателя на сублицензирование третьим лицам по своему усмотрению без дополнительных консультаций с автором. При этом журнал придерживается Политики конфиденциальности.
- Передача прав включает право на обработку формы представления материалов с помощью компьютерных программам и систем (баз данных) для их использования и воспроизводства, публикации и распространения в электронном формате и внедрения в системы поиска (базы данных).
- Воспроизведение, размещение, передача или иное распространение или использование материалов, содержащихся в статье должно сопровождаться ссылкой на Журнал и упоминанием Издателя, а именно: название статьи, имя автора (соавторов), название журнала, номер тома, номер выпуска, копирайт авторов и издателя "© Национальный технический университет Украины "Киевский политехнический институт"; © автор(ы)".
- Автор (каждый соавтор) материалов сохраняет все права собственника материалов, включая патентные права на любые процессы, способы или методы и др., а также права на товарные знаки.
- Издатель разрешает автору (каждому соавтору) материалов следующее:
- Право пользоваться печатными или электронными вариантами материалов статьи в форме и содержании, принятыми Издателем для публикации в Журнале. Подробнее см. политики Оплаченного открытого доступа, подписки и самоархивирования.
- Право бесплатно копировать или передавать коллегам копию напечатанной статьи целиком или частично для их личного или профессионального использования, для продвижения академических или научных исследований или для учебного процесса или других информационных целей, не связанных с коммерческими целями.
- Право использовать материалы из опубликованной статьи в написанной автором (соавторами) книге, монографии, учебнике, учебном пособии и других научных и научно-популярных изданиях.
- Право использовать отдельные рисунки или таблицы и отрывки текста из материалов в собственных целях обучения или для включения их в другую работу, которая печатается (в печатном или электронном формате) третьей стороной, или для представления в электронном формате во внутренние компьютерные сети или на внешние сайты автора (соавторов).
- Автор (соавторы) соглашаются, что каждая копия материалов или любая ее часть, распространенная или размещенная ими в печатном или электронном формате, будет содержать указание на авторское право, предусмотренное в Журнале и полную ссылку на Журнал Издателя.
- Автор (соавторы) гарантирует, что материалы являются оригинальной работой и представлены впервые на рассмотрение только в этом Журнале и ранее не публиковались. Если материалы написаны совместно с соавторами, автор гарантирует, что проинформировал их относительно условий публикации материалов и получил их подписи или письменное разрешение подписываться от их имени.
- Если в материалы включаются отрывки из работ или имеются указания на работы, которые охраняются авторским правом и принадлежат третьей стороне, то автору необходимо получить разрешение владельца авторских прав на использование таких материалов в первом случае и сделать ссылку на первоисточник во втором.
- Автор гарантирует, что материалы не содержат клеветнических высказываний и не посягают на права (включая без ограничений авторское право, права на патент или торговую марку) других лиц и не содержат материалы или инструкции, которые могут причинить вред или ущерб третьим лицам. Автор (каждый соавтор) гарантирует, что их публикация не приведет к разглашению секретных или конфиденциальных сведений (включая государственную тайну). Подтверждением этого является Экспертное заключение (см. перечень документов в Правила для авторов).
- Издатель обязуется опубликовать материалы в случае получения статьей положительного решения редколлегии о публикации на основании внешнего рецензирования (см. Политика рецензирования).
- В случае публикации статьи на английском языке в журнале «Radioelectronics and Communications Systems» (Издатель: Аллертон Пресс, США, распространитель Springer) автору (соавторам) выплачивается гонорар после выхода последнего номера журнала года, в котором опубликована данная статья.
- Документ Согласие на публикацию, который подают русскоязычные авторы при подаче статьи в редакцию, является краткой формой данного договора, в котором изложены все ключевые моменты настоящего договора и наличие которого подтверждает согласие автора (соавторов) с ним. Аналогичным документом для англоязычных авторов является Copyright Transfer Agreement (CTA), предоставляемый издательством Allerton Press.
- Настоящий Договор вступает в силу в момент принятия статьи к публикации. Если материалы не принимаются к публикации или до публикации в журнале автор (авторы) отозвал работу, настоящий Договор не приобретает (теряет) силу.