Бабичев, С. А.Бабічев, С. А.Babichev, S. A.2026-06-042026-06-042014https://eir.zp.edu.ua/handle/123456789/29225Бабичев С. А. Оптимизация процесса предобработки информации в системах кластеризации высокоразмерных данных / С. А. Бабичев // Радіоелектроніка, інформатика, управління. – 2014. – № 2 (31). – C. 135-142.RU: Представлена методика выбора оптимального метода нормализации при построении кластерной структуры объектов, отличительной особенностью которых является высокая размерность признакового пространства. В качестве основного критерия оценки качества предобработки данных использовался критерий энтропия Шеннона и относительное изменение энтропии в процессе трансформации данных. Понижение размерности признакового пространства исследуемых объектов производилось при помощи компонентного анализа. Построена модель системы кластеризации с использованием алгоритма нечеткой кластеризации fuzzy C-means, при помощи которой произведена оценка качества кластеризации при использовании различных методов предобработки данных. Показано, что для исследуемых данных наилучшим методом нормализации является метод десятичного масштабирования, при котором энтропия обработанного сигнала принимает наименьшее значение, при этом в процессе трансформации данных компонентным анализом относительное изменение энтропии не превышает допустимых норм. UK: Представлено методику вибору оптимального методу нормалізації при побудові кластерної структури об’єктів, відмінною особливістю яких є висока розмірність простору ознак. Як основний критерій оцінки якості передобробки даних використовувався критерій ентропія Шеннона і відносна зміна ентропії у процесі трансформації даних. Зниження розмірності простору ознак досліджуваних об’єктів здійснювалося за допомогою компонентного аналізу. Побудовано модель системи кластеризації з використанням алгоритму нечіткої кластеризації fuzzy C-means, за допомогою якої зроблено оцінку якості кластеризації при використанні різних методів передобробки даних. Показано, що для досліджуваних даних найкращим методом нормалізації є метод десяткового масштабування, при якому ентропія обробленого сигналу приймає найменше значення, при цьому в процесі трансформації даних компонентним аналізом відносна зміна ентропії не перевищує допустимих норм. EN: The methodic of choice of optimal normalization method for object cluster structure of creation, with high dimension of feature space, is shown. The Shannon entropy criterion and entropy relative change were used as main criterions of estimating the data preprocessing quality during the data transformation. Decreasing of feature space dimension of tested objects was realized by component analysis. Model of system clustering with the use of fuzzy C-means algorithm was constructed, which the help of whith the estimate of clustering quality was established by the use of different data preprocessing methods. It’s shown that the best normalization method for tested data is decimal-scaling method, by which the entropy of processed signal gets minimal significance, and relative change of entropy doesn’t exceed permissible norms during the process of data transformation by component analysis.ruкластеризацияразмерность признакового пространстванормализацияэнтропиякластеризаціярозмірність простору ознакнормалізаціяентропіясlusteringthe feature space dimensionnormalizationentropyОптимизация процесса предобработки информации в системах кластеризации высокоразмерных данныхОптимізація процесу передобробки інформації у системах кластеризації високорозмірних данихOptimization of information preprocessing in clustering systems of high dimension dataArticle