Implementation of DBSCAN clustering algorithm within the framework of the objective clustering inductive technology based on R and KNIME tools
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Запорізька політехніка"
Abstract
EN: Context. The problem of the data clustering within the framework of the objective clustering inductive technology is considered. Practical implementation of the obtained hybrid model based on the complex use of R and KNIME tools is performed. The object of the study is the hybrid model of the data clustering based on the complex use of both DBSCAN clustering algorithm and the objective clustering inductive technology.
Objective. The aim of the work is the creation of the hybrid model of the objective clustering based on DBSCAN clustering algorithm and its practical implementation on the basis of the complex use of both R and KNIME tools.
Method. The inductive methods of complex systems modelling have been used as the basis to determine the optimal parameters of DBSCAN clustering algorithm within the framework of the objective clustering inductive technology. The practical implementation of this technology involves: the use of two equal power subsets, which contain the same quantity of pairwise similar objects; calculation of the internal and the external clustering quality criteria; calculation of the complex balance criterion, maximum value of which corresponds to the best clustering in terms of the used criteria. Implementation of this process involves two main stages. Firstly, the optimal values of the EPS parameter were determined at each step within the range of the minPts value changes. The charts of the complex balance criterion versus the EPS value were obtained for each minPts value as the results of this stage implementation. Then, the analysis of the obtained intermediate results was performed in order to determine the optimal solution, which corresponds to both the maximum value of the complex balance criterion on the one side and the aims of the current clustering on the other side.
Results. The developed hybrid model has been implemented based on software KNIME with the use of plugins, which have been written in software R. The efficiency of the model was tasted with the use of the different data: low dimensional data of the computing school of East Finland University; Fisher’s iris; gene expression profiles of the patients, which were investigated on lung cancer.
Conclusions. The results of the simulation have shown high efficiency of the proposed method. The studied objects were distributed into clusters correctly in all cases. The proposed method allows us to decrease the reproducibility error, since the solution concerning determination of the clustering algorithm optimal parameters was taken based on both the clustering results obtained on equal power subsets separately and the difference of the clustering results obtained on the two equal power subsets.
UK: Актуальність. Досліджено проблему кластеризації складних даних у рамках індуктивної технології об’єктивної кластеризації. Зроблено практичну реалізацію запропонованої гібридної моделі кластеризації даних на основі комплексного застосування програмних засобів R і KNIME. Об’єктом дослідження є гібридна модель кластеризації даних на основі комплексного застосування алгоритму кластеризації DBSCAN і індуктивної технології об’єктивної кластеризації. Мета роботи полягає у створенні гібридної моделі об’єктивної кластеризації на основі алгоритму кластеризації DBSCAN та практична реалізація моделі на основі комплексного застосування програмних засобів R і KNIME.
Метод. Індуктивні методи моделювання складних систем були використані як основа для визначення оптимальних параметрів алгоритму кластеризації DBSCAN в рамках індуктивної технології об’єктивної кластеризації. Практична реалізація даної технології передбачає: застосування рівнопотужніх підмножин даних, які містять однакову кількість попарно близьких об’єктів; розрахунок внутрішнього та зовнішнього критеріїв якості кластеризації; розрахунок комплексного критерія балансу, максимальне значення якого відповідає найкращій кластеризації з точки зору критеріїв, що використовуються. Реалізація процесу визначення оптимальних параметрів алгоритму DBSCAN передбачає два етапи. Першим етапом є визначення оптимального значення параметра EPS в межах діапазону зміни значень параметру minPts. Результатом реалізації даного етапу є отримання діаграм залежності комплексного критерію балансу від відповідних значень EPS для кожного значення minPts. Потім проводився аналіз отриманих проміжних результатів для визначення оптимального рішення, що відповідає максимальному значенню комплексного критерію балансу в залежності від мети поставленої задачі.
Результати. Розроблена гібридна модель індуктивної технології об’єктивної кластеризації на основі алгоритму DBSCAN, яка практично реалізована на основі програмних засобів KNIME R. Виконано оцінку ефективність моделі з використанням різних типів даних: низько-розмірних даних школи обчислень університету східної Фінляндії; ірисів Фішера; профілів експресії генів пацієнтів, які досліджувалися на рак легенів.
Висновки. Результати моделювання показали високу ефективність запропонованої технології. Досліджені об’єкти були розподілені у кластери коректно в усіх випадках. Запропонований метод дозволяє зменшити значення похибки відтворюваності, оскільки остаточне рішення щодо визначення оптимальних параметрів алгоритму кластеризації приймається на основі паралельного аналізу результатів кластеризації, отриманих на рівнопотужніх підмножинах даних, так і на основі аналізу різниці результатів кластеризації, отриманих на даних підмножинах.
Description
Babichev S. Implementation of DBSCAN clustering algorithm within the framework of the objective clustering inductive technology based on R and KNIME tools / S. Babichev, S. Vyshemyrska, V. Lytvynenko // Радіоелектроніка, інформатика, управління. – 2019. – № 1 (48). – C. 77-88.