Image classifier resilient to adversarial attacks, fault injections and concept drift – model architecture and training algorithm
| dc.contributor.author | Moskalenko, V. V. | |
| dc.contributor.author | Moskalenko, A. S. | |
| dc.contributor.author | Korobov, A. G. | |
| dc.contributor.author | Zaretsky, M. O. | |
| dc.contributor.author | Москаленко, В. В. | |
| dc.contributor.author | Москаленко, А. С. | |
| dc.contributor.author | Коробов, А. Г. | |
| dc.contributor.author | Зарецький, М. О. | |
| dc.date.accessioned | 2026-02-05T09:46:23Z | |
| dc.date.available | 2026-02-05T09:46:23Z | |
| dc.date.issued | 2022 | |
| dc.description | Moskalenko V. V. Image classifier resilient to adversarial attacks, fault injections and concept drift – model architecture and training algorithm / V. V. Moskalenko, A. S. Moskalenko, A. G. Korobov, M. O. Zaretsky // Радіоелектроніка, інформатика, управління. – 2022. – № 3 (62). – C. 86-101. | |
| dc.description.abstract | EN: Context. The problem of image classification algorithms vulnerability to destructive perturbations has not yet been definitively resolved and is quite relevant for safety-critical applications. Therefore, object of research is the process of training and inference for image classifier that functioning under influences of destructive perturbations. The subjects of the research are model architecture and training algorithm of image classifier that provide resilience to adversarial attacks, fault injection attacks and concept drift. Objective. Stated research goal is to develop effective model architecture and training algorithm that provide resilience to adversarial attacks, fault injections and concept drift. Method. New training algorithm which combines self-knowledge distillation, information measure maximization, class distribution compactness and interclass gap maximization, data compression based on discretization of feature representation and semi-supervised learning based on consistency regularization is proposed. Results. The model architecture and training algorithm of image classifier were developed. The obtained classifier was tested on the Cifar10 dataset to evaluate its resilience over an interval of 200 mini-batches with a training and test size of mini-batch equals to 128 examples for such perturbations: adversarial black-box L∞-attacks with perturbation levels equal to 1, 3, 5 and 10; inversion of one randomly selected bit in a tensor for 10%, 30%, 50% and 60% randomly selected tensors; addition of one new class; real concept drift between a pair of classes. The effect of the feature space dimensionality on the value of the information criterion of the model performance without perturbations and the value of the integral metric of resilience during the exposure to perturbations is considered. Conclusions. The proposed model architecture and learning algorithm provide absorption of part of the disturbing influence, graceful degradation due to hierarchical classes and adaptive computation, and fast adaptation on a limited amount of labeled data. It is shown that adaptive computation saves up to 40% of resources due to early decision-making in the lower sections of the model, but perturbing influence leads to slowing down, which can be considered as graceful degradation. A multi-section structure trained using knowledge self-distillation principles has been shown to provide more than 5% improvement in the value of the integral mectric of resilience compared to an architecture where the decision is made on the last layer of the model. It is observed that the dimensionality of the feature space noticeably affects the resilience to adversarial attacks and can be chosen as a tradeoff between resilience to perturbations and efficiency without perturbations. UK: деструктивних збурень досі не була повністю вирішена і є досить актуальною для критичних до безпеки застосувань. Тому об’єктом дослідження є процес навчання та формування рішень для класифікатора зображень, що функціонує під впливом деструктивних збурень. Предметом дослідження є архітектура моделі та алгоритм навчання класифікатора зображень, що забезпечують стійкість до протиборчих атак, інжекції несправностей і дрейфу концепцій. Мета дослідження – є розроблення ефективних архітектури моделі та алгоритму навчання, які забезпечують стійкість до протиборчих атак, інжекції несправностей та дрейфу концепцій. Методи дослідження. Архітектура моделі та алгоритм навчання реалізовані шляхом поєднання ідей і принципів самодистиляції знань, максимізації інформаційної міри та компактності розподілу класів, максимізації міжкласового зазору, стиснення даних на основі дискретизації ознакового подання, а також навчання з частковим залученням учителя на основі регулярізації узгодженості. Результати. Розроблено архітектуру моделі і алгоритм навчання класифікатора зображень. Отриманий класифікатор було випробувано на наборі даних Cifar10 для оцінювання його резільєнтності на інтервалі в 200 міні-пакетів із розміром навчального і тестового міні-пакету в 128 зразків для таких збурень : протиборчі L∞-атаки чорної шухляди з рівнями 1, 3, 5 та 10; інверсія одного випадково обраного біту в тензорі для 10%, 30%, 50% та 60% випадково обраних тензорів; додавання одного нового класу; реальний дрейф концепцій між парою класів. Розглянуто вплив розмірності простору ознак на значення інформаційного критерію ефективності моделі без збурень та на значення інтегрального показника резільєнтності під час впливу збурень. Висновки. Запропоновані архітектура моделі і алгоритм навчання забезпечують поглинання частини збурюючого впливу, витончену деградацію за рахунок ієрархічності класів та адаптивних обчислень, а також швидку адаптацію на обмеженій кількості розмічених даних. Показано, що адаптивні обчислення дозволяють економити до 40% ресурсів за рахунок раннього прийняття рішень на нижніх секціях моделі, однак збурюючий вплив призводить до уповільнення, що можна розглядати як витончену деградацію. Доведено, що багатосекційна структура, що навчається з використанням принципів дистиляції само-знань, забезпечує більш ніж на 5% покращення значення інтегрального показника резільєнтності порівняно з архітектурою, де рішення приймається на останньому шарі моделі. Помічено, що розмірність простору ознак помітно впливає на стійкість до протиборчих атак і може обиратися як компроміс між резільєнтністю до збурень та ефективність без впливу збурень. | |
| dc.identifier.uri | https://eir.zp.edu.ua/handle/123456789/26621 | |
| dc.language.iso | en | |
| dc.publisher | Національний університет "Запорізька політехніка" | |
| dc.subject | image classification | |
| dc.subject | robustness | |
| dc.subject | resilience | |
| dc.subject | graceful degradation | |
| dc.subject | adversarial attacks | |
| dc.subject | faults injection | |
| dc.subject | concept drift | |
| dc.subject | класифікація зображень | |
| dc.subject | робастність | |
| dc.subject | резільєнтність | |
| dc.subject | витончена деградація | |
| dc.subject | протиборчі атаки | |
| dc.subject | інжекція несправностей | |
| dc.subject | дрейф концепцій | |
| dc.title | Image classifier resilient to adversarial attacks, fault injections and concept drift – model architecture and training algorithm | |
| dc.title.alternative | Класифікатор зображень із резільєнтністю до протиборчих атак, інжекції несправностей та дрейфу концепцій – архітектура моделі та алгоритм навчання | |
| dc.type | Article |