Нечітка довірча кластеризація даних на основі аналізу щільності розподілу даних та їх піків

UK: Актуальність. Задача кластеризації – класифікації без вчителя масивів даних займає важливе місце в інтелектуальному аналізі даних. Для вирішення цієї задачі на цей час запропоновано безліч підходів, що відрізняються між собою як апріорними припущеннями що до характеру даних у масивах, що досліджуються та аналізуються, так і математичним апаратом, що полягає в основі тих або інших методів, однак вирішення задач кластеризації ускладнюють велика розмірність векторів спостережень, що аналізуються, їх збуреність та забрудненість різного типу завадами та пропусками, можливою складною формою кластерів, тощо. Мета. Мета роботи полягає у запровадженні процедури нечіткої кластеризації, що об’єднує в собі переваги методів, заснованих на аналізі щільностей розподілу даних та їх піків, характеризуються високою швидкодією та може ефективно працювати за умов перетинних класів. Метод. Введено метод нечіткої кластеризації масивів даних, що базується на ідеях аналізу щільностей розподілу цих даних, їх піків та довірчого нечіткого підходу. Перевагою запропонованого підходу є скорочення часу вирішення оптимізаційних задач, пов’язаних з відшуканням атракторів функцій щільностей, оскільки кількість звернень до блоку оптимізації визначається не обсягом аналізованого масиву, а кількістю піків щільностей цього ж масиву. Результати. Метод є досить простим у чисельній реалізації і не критичним до вибору оптимізаційної процедури. Результати експериментів підтверджують ефективність пропонованого підходу в задачах кластеризації за умов перетинних кластерів та дозволяють рекомендувати запропонований метод для використання на практиці для вирішення проблем автоматичної кластеризації великих даних. Висновки. Введено метод нечіткої кластеризації масивів даних, що базується на ідеях аналізу щільностей розподілу цих даних, їх піків та довірчого нечіткого підходу. Перевагою запропонованого підходу є скорочення часу вирішення оптимізаційних задач, пов’язаних з відшуканням атракторів функцій щільностей, оскільки кількість звернень до блоку оптимізації визначається не обсягом аналізованого масива, а кількістю піків щільностей цього ж масиву. Метод є досить простим у чисельній реалізації і не критичним до вибору оптимізаційної процедури. Результати експериментів підтверджують ефективність запропонованого підходу в задачах кластеризації за умов перетинних кластерів. EN: Context. The task of clustering – classification without a teacher of data arrays occupies a rather important place in Data Mining. To solve this problem, many approaches have been proposed at the moment, differing from each other in a priori assumptions in the studied and analyzed arrays, in the mathematical apparatus that is the basis of certain methods. The solution of clustering problems is complicated by the large dimension of the vectors of the analyzed observations, their distortion of various types. Objective. The purpose of the work is to introduce a fuzzy clustering procedure that combines the advantages of methods based on the analysis of data distribution densities and their peaks, which are characterized by high speed and can work effectively in conditions of classes that overlapping. Method. The method of fuzzy clustering of data arrays, based on the ideas of analyzing the distribution densities of these data, their peaks, and a confidence fuzzy approach has been introduced. The advantage of the proposed approach is to reduce the time for solving optimization problems related to finding attractors of density functions, since the number of calls to the optimization block is determined not by the volume of the analyzed array, but by the number of density peaks of the same array. Results. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The experimental results confirm the effectiveness of the proposed approach in clustering problems under the condition of cluster intersection and allow us to recommend the proposed method for practical use in solving problems of automatic clustering of large data volumes. Conclusions. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The advantage of the proposed approach is to reduce the time for solving optimization problems related to finding attractors of density functions, since the number of calls to the optimization block is determined not by the volume of the analyzed array, but by the number of density peaks of the same array. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The experimental results confirm the effectiveness of the proposed approach in clustering problems under conditions of overlapping clusters.

Description

Бодянський Є. В. Нечітка довірча кластеризація даних на основі аналізу щільності розподілу даних та їх піків / Є. В. Бодянський, І. П. Плісс, А. Ю. Шафроненко, О. В. Калиниченко // Радіоелектроніка, інформатика, управління. – 2022. – № 3 (62). – C. 58-65.