Визначення голосової активності у мовному сигналі методами спектрально-кореляційного та вейвлет-пакетного перетворення
DOI:
https://doi.org/10.20535/S0021347018050011Ключові слова:
визначення голосової активності, спектрально-кореляційний аналіз, вейвлет-пакетний аналіз, критична смуга, піддіапазонні вейвлет-кепстральні коефіцієнтиАнотація
Розроблено алгоритм визначення голосової активності у мовному сигналі, що грунтується на попередньому визначенні типу шумового оточення. Для опису сегментів голосних, приголосних звуків та тиші використано спектрально-кореляційний та вейвлет-пакетний методи виділення ознак мовного сигналу. Розглянуто три типи вейвлет-пакетних дерев декомпозиції, що апроксимують мел-частотну, барк-частотну шкалу та шкалу еквівалентних прямокутних смуг ERB (equivalent rectangular bandwidth) для представлення сегментів звукового сигналу. Показано, що використання двох головних компонент вейвлет-пакетних ознак дозволило з високою точністю розпізнати тип шуму оточення. Використання комбінації запропонованих ознак та структури вейвлет-пакетного дерева декомпозиції, адаптованого до критичних смуг ERB психоакустичної моделі, дозволило підвищити ймовірність правильного визначення сегментів голосу та тиші на 4% порівняно з іншими сучасними класифікаційними алгоритмами визначення голосової активності для різних типів шуму оточення.Посилання
Kim, Juntae; Kim, Jaeseok; Lee, Seunghyung; Park, Jinuk; Hahn, Minsoo. “Vowel based voice activity detection with LSTM recurrent neural network,” Proc. of 8th Int. Conf. on Signal Processing Systems, 21-24 Nov. 2016, Auckland, New Zealand. NY: ACM, 2016. DOI: https://doi.org/10.1145/3015166.3015207.
Benyassine, A.; Shlomot, E.; Su, H.-Y.; Massaloux, D.; Lamblin, C.; Petit, J.-P. “ITU-T Recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications,” IEEE Commun. Mag., Vol. 35, No. 9, P. 64-73, 1997. DOI: https://doi.org/10.1109/35.620527.
Karray, L.; Martin, A. “Towards improving speech detection robustness for speech recognition in adverse conditions,” Speech Commun., Vol. 40, No. 3, P. 261-276, 2003. DOI: https://doi.org/10.1016/S0167-6393(02)00066-3.
Alam, J.; Kenny, P.; Ouellet, P.; Stafylakis, T.; Dumouchel, P. “Supervised/unsupervised voice activity detectors for text-dependent speaker recognition on the RSR2015 corpus,” Proc. of Odyssey 2014: The Speaker and Language Recognition Workshop, 16-19 June 2014, Joensuu, Finland. Joensuu, 2014, pp. 123-130.
Graf, S.; Herbig, T.; Buck, M.; Schmidt, G. “Features for voice activity detection: a comparative analysis,” EURASIP J. Advances Signal Processing, Vol. 2015, P. 91, 2015. DOI: https://doi.org/10.1186/s13634-015-0277-z.
Atal, B.; Rabiner, L. “A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition,” IEEE Trans. Acoustics, Speech, Signal Process., Vol. 24, No. 3, P. 201-212, 1976. DOI: https://doi.org/10.1109/TASSP.1976.1162800.
Kinnunen, T.; Li, H. “An overview of text-independent speaker recognition: from features to supervectors,” Speech Commun., Vol. 52, No. 1, P. 12-40, 2010. DOI: https://doi.org/10.1016/j.specom.2009.08.009.
Chen, S.-H.; Wu, H.-T.; Chang, Y.; Truong, T. K. “Robust voice activity detection using perceptual wavelet-packet transform and Teager energy operator,” Pattern Recognition Lett., Vol. 28, No. 11, P. 1327-1332, 2007. DOI: https://doi.org/10.1016/j.patrec.2006.11.023.
Chuangsuwanich, E.; Glass, J. “Robust voice activity detector for real world applications using harmonicity and modulation frequency,” Proc. of INTERSPEECH 2011, 28-31 Aug. 2011, Florence, Italy. ISCA, 2011, P. 2645-2648.
Вольфовский, Б. Н. “Многократная автокорреляционная обработка и ее возможности по обнаружению гармонического сигнала в смеси сигнала с шумом,” Информационное противодействие угрозам терроризма, № 1, P. 91-99, 2002. URI: https://elibrary.ru/item.asp?id=9571976.
Madhu, S.; Bhavani, H. B.; Sumathi, S. “Performance analysis of thresholding techniques for denoising of simulated partial discharge signals corrupted by Gaussian white noise,” Proc. of Int. Conf. on Power and Advanced Control Engineering, ICPACE, 12-14 Aug. 2015, Bangalore, India. IEEE, 2015. DOI: https://doi.org/10.1109/ICPACE.2015.7274980.
Ziolko, B.; Manandhar, S.; Wilson, R. C.; Ziolko, M. “Wavelet method of speech segmentation,” Proc. of 14th European Signal Processing Conf., EUSIPCO, 4-8 Sept. 2006, Florence, Italy. IEEE, 2006. URI: http://ieeexplore.ieee.org/document/7071218/.
Elton, R. J.; Vasuki, P.; Mohanalin, J. “Voice activity detection using fuzzy entropy and support vector machine,” Entropy, Vol. 18, No. 8, P. 298, 2016. DOI: http://dx.doi.org/10.3390/e18080298.
Lee, G.; Na, S. D.; Cho, J.-H.; Kim, M. N. “Voice activity detection algorithm using perceptual wavelet entropy neighbor slope,” Bio-Medical Materials and Engineering, Vol. 24, No. 6, P. 3295-3301, 2014. DOI: https://doi.org/10.3233/BME-141152.
Rabiner, L.; Juang, B.-H. Fundamentals of Speech Recognition. Upper Saddle River: Prentice-Hall, 1993.
Fletcher, H. “Auditory patterns,” Rev. Modern Phys., Vol. 12, No. 1, P. 47-65, 1940. DOI: https://doi.org/10.1103/RevModPhys.12.47.
Mohammadi, M.; Zamani, B.; Nasersharif, B.; Rahmani, M.; Akbari, A. “A wavelet based speech enhancement method using noise classification and shaping,” Proc. of INTERSPEECH, 22-26 Sept. 2008, Brisbane, Australia. ISCA, 2008, P. 561-564.
Sarikaya, R.; Pellom, L. Bryan; Hansen, J. H. L. “Wavelet packet transform features with application to speaker identification,” Proc. of IEEE Nordic Signal Processing Symp., 8-11 Jun. 1998, Vigs, Denmark. IEEE, 1998, P. 81-84. URI: https://www.isca-speech.org/archive/norsig_98/nos8_081.html.
Deshpande, M. S.; Holambe, R. S. “Speaker identification using admissible wavelet packet based decomposition,” Int. J. Signal Process., Vol. 10, No. 6, P. 83-86, 2010.
Добрушкін, Г. О.; Данилов, В. Я. «Порівняння якості Мел- та Барк-частотних кепстральних коефіцієнтів для параметризації мовних сигналів,» Наукові праці Чорноморського державного університету імені Петра Могили. Сер.: Комп’ютерні технології, Т. 160, № 148, С. 167-171, 2011. URI: http://kt.chdu.edu.ua/article/view/68900.
Sahu, P. K.; Biswas, Astik; Bhowmick, Anirban; Chandra, Mahesh. “Auditory ERB like admissible wavelet packet features for TIMIT phoneme recognition,” Eng. Sci. Technol. Int. J., Vol. 17, No. 3, P. 145-151, 2014. DOI: https://doi.org/10.1016/j.jestch.2014.04.004.
Welch, P. “The use of fast Fourier transform for the estimation of power spectra: A method based on time averaging over short, modified periodograms,” IEEE Trans. Audio Electroacoust., Vol. 15, No. 2, P. 70-73, 1967. DOI: https://doi.org/10.1109/TAU.1967.1161901.
Ramirez, J.; Segura, J. C.; Benitez, C.; de la Torre, A.; Rubio, A. “An effective subband OSF-based VAD with noise reduction for robust speech recognition,” IEEE Trans. Speech Audio Process., Vol. 13, No. 6, P. 1119-1129, 2005. DOI: https://doi.org/10.1109/TSA.2005.853212.
Thatphithakkul, N.; Kruatrachue, B.; Wutiwiwatchai, C.; Marukatat, Sanparith; Boonpiam, Vataya. “Robust speech recognition using PCA-based noise classification,” Proc. of SPECCOM, 2004, P. 45-53.
Zou, Y. X.; Zheng, W. Q.; Shi, Wei; Liu, Hong. “Improved voice activity detection based on support vector machine with high separable speech feature vectors,” Proc. of 19th Int. Conf. on Digital Signal Processing, 20-23 Aug. 2014, Hong Kong, China. IEEE, 2014. DOI: https://doi.org/10.1109/ICDSP.2014.6900767.
Garofolo, J. S.; Lamel, L. F.; Fisher, W. M.; Fiscus, J. G.; Pallett, D. S.; Dahlgren, N. L. “DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,” NIST, 1986. URI: https://catalog.ldc.upenn.edu/ldc93s1.
VoxForge, Free Speech Recognition. URI: http://voxforge.org.
Panayotov, V.; Chen, G.; Povey, D.; Khudanpur, S. “LibriSpeech: An ASR corpus based on public domain audio books,” Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, ICASSP, 19-24 Apr. 2015, Brisbane, QLD, Australia. IEEE, 2015, P. 5206-5210. DOI: https://doi.org/10.1109/ICASSP.2015.7178964.
Varga, A.; Steeneken, H. J. M. “Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Commun., Vol. 12, No. 3, P. 247-253, 1993. DOI: https://doi.org/10.1016/0167-6393(93)90095-3.
Корнієнко, О. О. “Вейвлет-пакетні ознаки мовного сигналу у завданні розпізнавання мовця,” Вимірювальна та обчислювальна техніка в технологічних процесах, №2, C. 111-117, 2017.
Корнієнко, О. О.; Кущ, С. М. “Адаптивний алгоритм визначення голосової активності,” Матеріали конференції «Радіотехнічні поля, сигнали, апарати та системи». URI: http://conf.rtf.kpi.ua/attachments/article/490/RTPSAS_2015_s8_t04.pdf.
Friedman, J. H. “Another Approach to Polychotomous Classification,” Technical Report. Department of Statistics, Stanford University, 1996, P. 1-14. URI: http://www-stat.stanford.edu/~jhf/ftp/poly.ps.Z.
Chang, C.-C.; Lin, C.-J. “LIBSVM: A library for support vector machines,” ACM Trans. Intelligent Syst. Technol., Vol. 2, No. 3, Article No. 27, 2011. DOI: https://doi.org/10.1145/1961189.1961199.
Ramyrez, J.; Yélamos, P.; Górriz, J. M.; Segura, J. C.; García, L. “Speech/non-speech discrimination combining advanced feature extraction and SVM learning,” Proc. of 9th Int. Conf. on Spoken Language Processing, 17-21 Sept. 2006, Pittsburgh, Pennsylvania. 2006, P. 1662-1665.
Zhang, Y.; Tang, Z.-M.; Li, Y.-P.; Luo, Y. “A hierarchical framework approach for voice activity detection and speech enhancement,” The Scientific World Journal, Vol. 2014, Article ID 723643, 2014. DOI: http://dx.doi.org/10.1155/2014/723643.
Sohn, J.; Kim, N. S.; Sung, W. “A statistical model-based voice activity detection,” IEEE Signal Process. Lett., Vol. 6, No. 1, P. 1-3, 1999. DOI: https://doi.org/10.1109/97.736233.
Eyben, F.; Weninger, F.; Squartini, S.; Schuller, B. “Real-life voice activity detection with LSTM recurrent neural networks and an application to Hollywood movies,” Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, ICASSP, 26-31 May 2013, Vancouver, BC, Canada. IEEE, 2013, P. 483-487. DOI: http://dx.doi.org/10.1109/ICASSP.2013.6637694.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Известия высших учебных заведений. РадиоэлектроникаИздатель журнала Известия высших учебных заведений. Радиоэлектроника (сокр. "Известия вузов. Радиоэлектроника"), Национальный технический университет Украины "Киевский политехнический институт", учитывает, что доступ автора к его статье является важным как для самого автора, так и для спонсоров его исследований. Мы представлены в базе издателей SHERPA/RoMEO как зеленый издатель (green publisher), что позволяет автору выполнять самоархивирование своей статьи. Однако важно, чтобы каждая из сторон четко понимала свои права. Просьба более детально ознакомиться с Политикой самоархивирования нашего журнала.
Политика оплаченного открытого доступа POA (paid open access), принятая в журнале, позволяет автору выполнить все необходимые требования по открытому доступу к своей статье, которые выдвигаются институтом, правительством или фондом при выделении финансирования. Просьба более детально ознакомиться с политикой оплаченного открытого доступа нашего журнала (см. отдельно).
Варианты доступа к статье:
1. Статья в открытом доступе POA (paid open access)
В этом случае права автора определяются лицензией CC BY (Creative Commons Attribution).
2. Статья с последующим доступом по подписке
В этом случае права автора определяются авторским договором, приведенным далее.
- Автор (каждый соавтор) уступает Издателю журнала «Известия высших учебных заведений. Радиоэлектроника» НТУУ «КПИ» на срок действия авторского права эксклюзивные права на материалы статьи, в том числе право на публикацию данной статьи издательством Аллертон Пресс, США (Allerton Press) на английском языке в журнале «Radioelectronics and Communications Systems». Передача авторского права охватывает исключительное право на воспроизведение и распространение статьи, включая оттиски, переводы, фото воспроизведения, микроформы, электронные формы (он- и оффлайн), или любые иные подобные формы воспроизведения, а также право издателя на сублицензирование третьим лицам по своему усмотрению без дополнительных консультаций с автором. При этом журнал придерживается Политики конфиденциальности.
- Передача прав включает право на обработку формы представления материалов с помощью компьютерных программам и систем (баз данных) для их использования и воспроизводства, публикации и распространения в электронном формате и внедрения в системы поиска (базы данных).
- Воспроизведение, размещение, передача или иное распространение или использование материалов, содержащихся в статье должно сопровождаться ссылкой на Журнал и упоминанием Издателя, а именно: название статьи, имя автора (соавторов), название журнала, номер тома, номер выпуска, копирайт авторов и издателя "© Национальный технический университет Украины "Киевский политехнический институт"; © автор(ы)".
- Автор (каждый соавтор) материалов сохраняет все права собственника материалов, включая патентные права на любые процессы, способы или методы и др., а также права на товарные знаки.
- Издатель разрешает автору (каждому соавтору) материалов следующее:
- Право пользоваться печатными или электронными вариантами материалов статьи в форме и содержании, принятыми Издателем для публикации в Журнале. Подробнее см. политики Оплаченного открытого доступа, подписки и самоархивирования.
- Право бесплатно копировать или передавать коллегам копию напечатанной статьи целиком или частично для их личного или профессионального использования, для продвижения академических или научных исследований или для учебного процесса или других информационных целей, не связанных с коммерческими целями.
- Право использовать материалы из опубликованной статьи в написанной автором (соавторами) книге, монографии, учебнике, учебном пособии и других научных и научно-популярных изданиях.
- Право использовать отдельные рисунки или таблицы и отрывки текста из материалов в собственных целях обучения или для включения их в другую работу, которая печатается (в печатном или электронном формате) третьей стороной, или для представления в электронном формате во внутренние компьютерные сети или на внешние сайты автора (соавторов).
- Автор (соавторы) соглашаются, что каждая копия материалов или любая ее часть, распространенная или размещенная ими в печатном или электронном формате, будет содержать указание на авторское право, предусмотренное в Журнале и полную ссылку на Журнал Издателя.
- Автор (соавторы) гарантирует, что материалы являются оригинальной работой и представлены впервые на рассмотрение только в этом Журнале и ранее не публиковались. Если материалы написаны совместно с соавторами, автор гарантирует, что проинформировал их относительно условий публикации материалов и получил их подписи или письменное разрешение подписываться от их имени.
- Если в материалы включаются отрывки из работ или имеются указания на работы, которые охраняются авторским правом и принадлежат третьей стороне, то автору необходимо получить разрешение владельца авторских прав на использование таких материалов в первом случае и сделать ссылку на первоисточник во втором.
- Автор гарантирует, что материалы не содержат клеветнических высказываний и не посягают на права (включая без ограничений авторское право, права на патент или торговую марку) других лиц и не содержат материалы или инструкции, которые могут причинить вред или ущерб третьим лицам. Автор (каждый соавтор) гарантирует, что их публикация не приведет к разглашению секретных или конфиденциальных сведений (включая государственную тайну). Подтверждением этого является Экспертное заключение (см. перечень документов в Правила для авторов).
- Издатель обязуется опубликовать материалы в случае получения статьей положительного решения редколлегии о публикации на основании внешнего рецензирования (см. Политика рецензирования).
- В случае публикации статьи на английском языке в журнале «Radioelectronics and Communications Systems» (Издатель: Аллертон Пресс, США, распространитель Springer) автору (соавторам) выплачивается гонорар после выхода последнего номера журнала года, в котором опубликована данная статья.
- Документ Согласие на публикацию, который подают русскоязычные авторы при подаче статьи в редакцию, является краткой формой данного договора, в котором изложены все ключевые моменты настоящего договора и наличие которого подтверждает согласие автора (соавторов) с ним. Аналогичным документом для англоязычных авторов является Copyright Transfer Agreement (CTA), предоставляемый издательством Allerton Press.
- Настоящий Договор вступает в силу в момент принятия статьи к публикации. Если материалы не принимаются к публикации или до публикации в журнале автор (авторы) отозвал работу, настоящий Договор не приобретает (теряет) силу.