Оптимізація класифікатора автоматизованої системи розпізнавання мовця критичного застосування

Бісікало, О. В.; Грищук, Т. В.; Ковтун, В. В.; Bisikalo, O. V.; Grischuk, T. V.; Kovtun, V. V.

Оптимізація класифікатора автоматизованої системи розпізнавання мовця критичного застосування

Files

S_30 Bisikalo.pdf (2.02 MB)

Date

2018

Authors

Publisher

Національний університет "Запорізька політехніка"

Abstract

UK: Актуальність. Розглянуто питання адаптації згортального нейромережевого класифікатора для використання у автоматизовані системі розпізнавання мовців критичного застосування (АСРМКЗ). Об’єктом дослідження є індивідуальні особливості мовного процесу людини. Мета роботи. Розроблення заходів по виділенню з мовного сигналу індивідуальних для мовця ознак, підвищення їх інформативності в результаті виконання факторного аналізу, їх візуальне представлення для використання згортального нейромережевого класифікатора та оптимізація його архітектури для потреб АСРМКЗ. Метод. Запропоновано заходи по оптимізації процедури класифікації мовців АСРМКЗ, для чого теоретично обґрунтовано оптимальний спосіб представлення інформативних ознак і метод підвищення їх інформативності, обґрунтовано вид топологію і заходи для підвищення ефективності процесу розпізнавання мовців. Зокрема, обґрунтовано доцільність використання нормалізованих за потужністю кепстральних коефіцієнтів PNCC для опису фонограм, записаних в умовах шумного оточення, запропоновано використовувати фільтри Габора для представлення інформації, що аналізуватиметься згортальною нейромережею, вибрано оптимальний метод факторного аналізу, а саме, розріджений метод аналізу головних компонент, для зменшення розмірності вектору ознак із збереженням його інформативності, запропоновано удосконалену топологію згортальної нейромережі для АСРМКЗ, у якій фільтри Габора інтегровано у згортальний шар, що дозволяє оптимізувати їх параметри при навчанні нейромережі, і на повнозв’язному шарі використано глибоку нейромережу із bottleneck-шаром, ваги якого після навчання використано як вхідні дані для контрольного GMM/HMM-класифікатора. Результати. Методи представлення та оптимізації інформативних для розпізнавання мовця ознак, методи їх візуального представлення та удосконалення топології згортальної нейромережі для прийняття рішень на їх основі. Висновки. Отримані теоретичні результати знайшли емпіричного підтвердження. Зокрема, доведено стійкість удосконаленої згортальної нейромережі до присутності шумів оточення у вхідних фонограмах, яка виявилася вищою за показники звичайної згортальної нейромережі та глибокої нейромережі. При зростанні ВСШ>10 дБ контрольний GMM/HMM-класифікатор виявився ефективнішим за нейромережеві щодо імовірності прального розпізнавання мовців, що можна пояснити ефективністю використаної UBM-моделі, але він є і суттєво ресурсоємнішим. Також емпірично виявлено вікна банку фільтрів Габора, які надавали найбільш варіативну щодо індивідуальних особливостей мовлення, інформацію. EN: The questions of adapting the convolution neural network classifier use in automatic speaker recognition system of critical use (ASRSCU) are considered. The research object is the individual features of the human speech process. Objective. Development of means for separating individual features from the speaker’s speech signal, increasing their informativeness as a result of the factor analysis, their visual representation for the use of the convolution neural network classifier, and optimizing its architecture for the needs of ASRSCU. Method. Measures are proposed to optimize the speaker recognition procedure of the ASRSCU, for which the optimal way of informative features representation and the method of increasing their informativeness are theoretically justified, the topology and measures for increasing of the speaker recognition process efficiency are justified. In particular, it is justified the use of power normalized cepstral coefficients (PNCC) for the description of phonograms recorded in noisy environment conditions. We propose to use Gabor filters to represent information that will be analyzed by a convolution neural network, an optimal method of factor analysis (a sparse main components analyzing method) to reduce of the features vector length while preserving its informativeness, an improved topology of the convolution neural network in which the Gabor filters are integrated in to the convolution layer, which allows them to optimize their parameters during the neural network training process, and in a fully connected layer a deep neural network with a bottleneck layer is used, whose weights after training are uses as inputs for the GMM/HMM control classifier. Results. Methods of representation and optimization of the speaker’s individual features, methods for their visual presentation and improvement of the topology of a convolution neural network for making speaker recognition on their basis. Conclusions. The obtained theoretical results have found empirical confirmation. In particular, the stability of an improved convolution neural network to the noisy input phonograms proved to be higher than the results of an ordinary convolution neural network and a deep neural network. With an SNR increase up to 10 dB, the GMM/HMM classifier is more efficient than the neural network, which can be explained by the efficiency of the used UBM models, but it is much more resource-intensive. Also, the parameters of the Gabor filter bank frames that provide the most variable individual features from the speech signal for speaker recognition are determined empirically.

Description

Бісікало О. В. Оптимізація класифікатора автоматизованої системи розпізнавання мовця критичного застосування / О. В. Бісікало, Т. В. Грищук, В. В. Ковтун // Радіоелектроніка, інформатика, управління. – 2018. – № 2 (45). – C. 30-43.