Architecture and training algorithm for neural network to recognize voice signals

Molchanova, V. S.; Mironenko, D. S.; Молчанова, В. С.; Міроненко, Д. С.

Architecture and training algorithm for neural network to recognize voice signals

Files

S_99 Molchanova.pdf (742.92 KB)

Date

2020

Authors

Publisher

Національний університет "Запорізька політехніка"

Abstract

EN: Context. Typically, interaction between user and mobile devices is realized by touchings. However, many situations, when to implement such interaction is too awkward or impossible, exist. For example, with some diseases of musculoskeletal system, motility of movements may be impaired. It leads to inability to use device efficiently. In that case, a task of looking for alternative ways of person-device interaction becomes relevant. Voice interface development can be one of the most prospective tasks in that way. Objective. The goal of the study is to develop a project of neural network architecture and internal components for voice-controlled systems. Resulting interface have to be adapted for processing and recognition Ukrainian speech. Method. An approach, based on audio signal analyzing by sound wave shape and spectrogram, is used for making got via microphone data, appropriable for processing. Using neural network makes possible sounds classification by generated audio signal and information of its transcription. The neural network structure is completely adapted to peculiarities of Ukrainian phonetics. It takes into account the nature of the sound wave, generated during sound pronunciation, as well the number of sounds in Ukrainian phonetics. Results. Experiments were carried out aimed to choosing optimal neural network architecture and training sample dimension. The root-mean-square deviation of neural network error was used as the main criterion in assessing its effectiveness. A comparative analysis of effectiveness of the proposed neural network and existed on the market speech recognition tools showed improvement in the relative measures of recognition by 9.26%. Conclusions. Obtained in the research results can be used for full-featured voice interface implementation. Despite the fact that the work is focused on recognition Ukrainian speech, the proposed ideas can be used during developing transcribing services for other languages. UK: Актуальність. Зазвичай взаємодія користувача з мобільним пристроєм, наприклад, телефоном або планшетом реалізується за допомогою торкань. Однак можливий цілий ряд ситуацій, коли здійснення такого способу людино-машинної взаємодії виявляється скрутним або навіть неможливим. Наприклад, при деяких захворюваннях опорно-рухового апарату можливе порушення моторики рухів, що в свою чергу призводить до неможливості повноцінно використовувати пристрій, помилок, втрати часу. У такій ситуації актуальним стає пошук альтернативних шляхів взаємодії користувача з системою. Розробка голосових інтерфейсів є одним з найбільш перспективних напрямків даної роботи. Мета дослідження полягає в розробці методу оптимізації даних звукових хвиль і їх застосуванні при навчанні нейронної мережі для розпізнавання голосових сигналів, утворених вимовою звуків українською мовою. Метод. Для реалізації проекту запропонованої у роботі системи, використовується підхід, заснований на аналізі аудіосигналу за формою утвореною їм звукової хвилі і спектрограми, а також застосуванні штучних нейронних мереж у процесі подальшої класифікації та виділення окремих, характерних для української мови, звуків. Нейронна мережа являє собою тришаровий персептрон, структура якого повністю адаптована під особливості української фонетики. Враховується характер звукової хвилі, яка утворюється під час вимови того чи іншого звуку, а також кількість різноманітних звуків в українській фонетиці. Результати. Проведено ряд експериментів, спрямованих на вибір оптимальної архітектури нейронної мережі і розмірність навчальної вибірки. В якості основного критерію при оцінці ефективності нейронної мережі використовувалося середньоквадратичне відхилення її помилки. В процесі тестування було визначено кілька варіантів комбінацій параметрів нейронної мережі, при яких досягалися найкращі результати. Порівняльний аналіз ефективності запропонованої в роботі нейронної мережі й існуючих на ринку інструментів розпізнавання голосу показав поліпшення відносних показників розпізнавання на 9,26%. Висновки. Отримані в роботі результати досліджень і архітектура нейронної мережі можуть бути використані під час реалізації повноцінного голосового інтерфейсу для мобільних пристроїв під управлінням операційної системи Android. Незважаючи на те, що робота орієнтована на розпізнавання мовлення українською мовою, ідеї які використовуються для її реалізації можуть бути використані при транскрібаціі голосу на інших мовах..

Description

Molchanova V. S. Architecture and training algorithm for neural network to recognize voice signals / V. S. Molchanova, D. S. Mironenko // Радіоелектроніка, інформатика, управління. – 2020. – № 3 (54). – C. 99-107.