A comparative study of cluster validity indices

Kondruk, N. E.Кондрук, Н. Е.2026-03-272026-03-272019https://eir.zp.edu.ua/handle/123456789/27794Kondruk N. E. A comparative study of cluster validity indices / N. E. Kondruk // Радіоелектроніка, інформатика, управління. – 2019. – № 4 (51). – C. 59-67.EN: Context. Cluster analysis is a method of classification without a teacher, that is, under conditions where preliminary information on the number of clusters is previously unknown. Therefore, defining the optimal number of clusters and test results of partitioning data sets is a complex task and requires further research. Objective. The aim of paper is to study the efficiency of finding the natural data structure by crisp and fuzzy clustering validity indices, when the partition is realized by the clustering method based on fuzzy binary relations and conducting their comparative analysis. Method. For partition of data sets the method based on fuzzy binary relation was used that provides an opportunity to simultaneously conduct crisp and fuzzy grouping of objects by different types of similarity measures. The distance similarity measure, which divides data into ellipsoid clusters, is used in the research. Two synthetic 2-dimensional data sets of a special type are generated, natural clustering of which is possible in two ways. Both sets are Gaussian. The most effective and frequently used groups of crisp and fuzzy cluster validity indices, which allow to find the optimal data set structure are described. Results. The study of estimating the quality of clustering was conducted by means of method of fuzzy binary relations with six indices in two data sets. A comparative analysis of the effectiveness of determining the cluster and sub-cluster data structures by validity indices is made. Conclusions. In practice, for some cluster validity indexes it is important to find not only the global extreme, but also local ones. They can fix the optimal sub-cluster data structure with less separation. To ensure the effectiveness of estimating the quality of clustering and to obtain objective results it is appropriate to take into account not only one index, but several of them. In perspective studies, creating a combined criterion that would join the most effective cluster validity indices by means of method based on fuzzy binary relations by a distance similarity measure is anticipated as well as implementing generalized cluster validity index for any similarity measures of fuzzy binary relations method; developing a software system that would ensure the automatic grouping of objects into clusters by concentric spheres, cones, ellipses without the preliminary determination of the clustering threshold. UK: Актуальність. Кластерний аналіз є методом класифікації без учителя, тобто в умовах коли попередня інформація про кількість кластерів заздалегідь невідома. Тому, знаходження оптимальної кількості кластерів і перевірка результатів розбиття наборів даних є складною задачею і потребує додаткових досліджень. Метою дослідження є вивчення ефективності знаходження природної структури даних чіткими та нечіткими індексами якості кластеризації реалізованої методом кластеризації основаним на нечітких бінарних відношеннях та проведення їх порівняльного аналізу. Методи. Для розбиття наборів даних використано метод заснований на нечітких бінарних відношеннях, який дозволяє одночасно проводити чітку та нечітку кластеризацію об’єктів за різними видами мір подібності. В роботі використана міра подібності «відстань», яка розбиває дані на еліпсоїдні кластери. Згенеровано два синтетичні набори двовимірних даних спеціального виду, природна кластеризація яких можлива двома способами. Обидва набори є гаусівськими. Описано найбільш ефективні та використовувані групи чітких та нечітких індексів якості кластеризації, що дозволяють виявити оптимальну структуру даних. Результати. Проведено дослідження оцінки якості кластеризації методом заснованим на нечітких бінарних відношеннях шістьма індексами на двох наборах даних. Зроблено порівняльний аналіз ефективності визначання індексами якості кластерної та підкластерної структури даних. Висновки. На практиці для деяких індексів достовірності розбиття важливим є знаходження не тільки глобального екстремуму, а й локальних. Вони можуть фіксувати оптимальну підкластерну структуру даних із меншим показником розділення. Для забезпечення ефективності оцінки якості кластеризації та отримання об’єктивного результату доцільним є врахування не одного індексу, а декількох. В перспективних дослідженнях передбачається побудова комбінованого критерію, що поєднував би найефективніші індекси оцінки кластеризації методом заснованим на нечітких бінарних відношеннях за відстаневою мірою подібності; створення узагальненого індексу якості кластеризації за будь-якою мірою подібності методу нечітких бінарних відношень; розробка програмної системи, що забезпечить автоматичне групування об’єктів на кластери концентричними сферами, конусами, еліпсами без попереднього визначення порогу кластеризації.encluster validity indicesclusterclusteringіндекси оцінки якості кластеризаціїкластеркластеризаціяA comparative study of cluster validity indicesПорівняльне дослідження показників оцінки якості кластеризаціїArticle