Analysis of the automated speaker recognition system of critical use operation results
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Запорізька політехніка"
Abstract
EN: The article summarizes the statistical learning theory to evaluate the long-term operation results of the automated speaker recognition system of critical use (ASRSCU) taking into account the features of the system’s operation object and the structural specificity of such a class of recognition systems.
Objective. The goal of the represented work is the development of a complex set of methods for the ASRSCU’s quality parameters stabilization during its long-term operation.
Method. The article formulated set of methods for the ASRSCU’s operational risks estimation of its long-term operation. In particular, the dependence of the risk of an incorrect speaker recognition on the features space dimension is described. Based on the formulated measure of informativity, obtained a set of methods to analyze the training sample to identify examples that lead to increased risk. The influence of the phenomenon of the drift of the speech signal parameters on the quality indicators of the ASRSCU is described analytically. An estimation of the operation duration of the ASRSCU, during which it is impractical to re-train its the classifier, is carried out. Recommendations for choosing an optimal ASRSCU’s classifier are formulated from the position of its complexity minimization, taking into account the risks of the ASRSCU’s long-term operation and the possibility of re-training.
Results. Represented in the article theoretical results are verified by the DET-curves experiments data, which summarize the information from long-term experiments with the ASRSCU, in which, during the features space configuration were taken into account the features based on the power normalized cepstral coefficients based and the features based on the spectral-temporal receptive fields theory. Within the framework of the created theoretical concept, an estimation of the influence of the features space configuration and the type and complexity of the classifier on the stability of the ASRSCU’s quality parameters during its long-term operation has been carried out.
Conclusions. For the first time the theoretically analyzed the problem of average risk minimization by empirical operation results of a ASRSCU, where, unlike existing approaches, non-stationary input data with the drift of individual speech signals features and the characteristic parameters of the recognition system classifier were taken into account, which allowed to estimate the risk’s confidence interval for conditions for re-training sessions.
UK: Актуальність. У статті узагальнюється теорія статистичного навчання для оцінювання результатів довготривалої експлуатації автоматизованої системи розпізнавання мовця критичного застосування (АСРМКЗ) із урахуванням особливостей об’єкту, із яким працює система, та структурної специфіки такого класу систем розпізнавання.
Мета роботи. Розроблення цілісного комплексу заходів для стабілізації якісних параметрів АСРМКЗ при її довготривалій експлуатації. Метод. У роботі сформульовано комплекс заходів для оцінювання експлуатаційних ризиків тривалого використання АСРМКЗ. Зокрема, описано залежність ризику неправильної класифікації від розмірності факторного простору. Базуючись на сформульованій мірі інформативності, проаналізовано заходи щодо аналізу навчальної вибірки для виявлення прикладів, які призводять до зростання ризику. Аналітично описано вплив явища дрейфу параметрів мовних сигналів на якісні показники ефективності АСРМКЗ. Здійснено оцінювання тривалості експлуатації АСРМКЗ, на протязі якої здійснювати повторне навчання класифікатора недоцільно. Сформульовано рекомендації щодо вибору оптимального класифікатора АСРМКЗ з позиції мінімізації його складності u1110 із урахуванням ризиків тривалої експлуатації АСРМКЗ та можливістю процедури повторного навчання.
Результати. Підтверджено адекватність отриманих у роботі теоретичних результатів представленими у вигляді DET-кривих даними, які узагальнюють інформацію від довготривалих експериментів із АСРМКЗ, у якій при формуванні конфігурації простору ознак враховувалися нормовані за потужністю кепстральні коефіцієнти та похідні від них характеристики і ознаки, отримані на основі теорії спектрально-темпоральних рецептивних полів. В рамках створеної теоретичної концепції проведено оцінювання впливу конфігурації простору ознак та виду і складності класифікатора на стабільність якісних параметрів АСРМКЗ при її довготривалій експлуатації.
Висновки. Вперше теоретично проаналізовано проблему мінімізації середнього ризику по емпіричним результатам експлуатації системи розпізнавання мовця критичного застосування, де, на відміну від існуючих підходів, враховано нестаціонарність вхідних даних із дрейфом індивідуальних параметрів мовних сигналів та характеристичні параметри класифікатора системи розпізнавання, що дозволило оцінити межі довірчих інтервалів ризику за умови здійснення сеансів повторного навчання.
Description
Bisikalo O. V. Analysis of the automated speaker recognition system of critical use operation results / O. V. Bisikalo, V. V. Kovtun, M. S. Yukhimchuk, I. F. Voytyuk // Радіоелектроніка, інформатика, управління. – 2018. – № 4 (47). – C. 71-83.