Credibilistic robust online fuzzy clustering in data stream mining tasks
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Запорізька політехніка"
Abstract
EN: Context. The task of clustering-classification without a teacher of data arrays occupies an important place in the general problem of Data Mining, and for its solution there exists currently many approaches, methods and algorithms. There are quite a lot of situations where the real data to be clustered are corrupted with anomalous outliers or disturbances with non-Gaussian distributions. It is clear that “classical” methods of artificial intelligence (both batch and online) are ineffective in this situation. The goal of the paper is to develop a credibilistic robust online fuzzy clustering method that combines the advantages of credibilistic and robust approaches in fuzzy clustering tasks.
Objective. The goal of the work is online credibilistic fuzzy clustering of distorted data, using of credibility theory in data stream mining.
Method. The procedure of fuzzy clustering of data using credibilistic approach based on the use of both robust goal functions of a special type, insensitive to outliers and designed to work both in batch and its recurrent online version designed to solve Data Stream Mining problems when data are fed to processing sequentially in real time.
Results. Analyzing the obtained results overall accuracy of clustering methods and algorithm, proposed method similar with result of credibilistic fuzzy clustering method, but has time superiority regardless of the number observations that fed on clustering process.
Conclusions. The problem of fuzzy clustering of data streams contaminated by anomalous non-Gaussian distributions is considered. A recurrent credibilistic online algorithm based on the objective function of a special form is introduced, which suppresses these outliers by using the hyperbolic tangent function, which, in addition to neural networks, is used in robust estimation tasks. The proposed algorithm is quite simple in numerical implementation and is a generalization of some well-known online fuzzy clustering procedures intended for solving Data Stream Mining problems.
UK: Актуальність. Задача кластеризації-класифікації без вчителя масивів даних займає важливе місце у загальній проблемі Data Mining, а для її вирішення існує на цей час безліч підходів, методів та алгоритмів. Існує достатньо багато ситуацій, коли реальні дані, що підлягають кластеризації, забруднені аномальними викидами або збуреннями з не Гаусівськими розподілами. Це веде до того, що традиційні методи, що використовують квадратичні метрики не забезпечують бажані результати. Метою статті є розробка достовірного робастного методу нечіткої кластеризації онлайн, який поєднує в собі переваги теорії довіри та робастних підходів у задачах нечіткої кластеризації.
Метод. Процедура нечіткої кластеризації даних з використанням достовірного підходу, заснованого на використанні як робастних цільових функцій спеціального типу, нечутливих до викидів, так і призначених для роботи як у пакетному режимі, так і в його повторюваній онлайн-версії, призначеній для вирішення проблем Data Stream Mining, коли дані надходять на обробку послідовно в режимі реального часу.
Результати. Аналізуючи загальну точність отриманих результатів методів і алгоритму кластеризації, запропонований метод подібний до результату достовірного методу нечіткої кластеризації, але має перевагу в часі незалежно від кількості спостережень, які були використані в процесі кластеризації.
Висновки. Розглянута задача нечіткої кластеризації потоків даних, забруднених аномальними викидами. Введено у розгляд рекурентний достовірний онлайн алгоритм, заснований на цільовій функції спеціального вигляду, що придушує ці викиди за допомогою використання функції гіперболічного тангенса, що крім нейронних мереж використовується у задачах робастного оцінювання. Запропонований алгоритм є достатньо простим у чисельній реалізації і є узагальненням деяких відомих онлайн процедур нечіткої кластеризації призначених для вирішення задач Data Stream Mining.
Description
Shafronenko A. Yu. Credibilistic robust online fuzzy clustering in data stream mining tasks / A. Yu. Shafronenko, N. V. Kasatkina, Ye. V. Bodyanskiy, Ye. O. Shafronenko // Радіоелектроніка, інформатика, управління. – 2023. – № 3 (66). – C. 97-103.