A study on the use of normalized L2-metric in classification tasks
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Запорізька політехніка»
Abstract
EN: Context. In machine learning, similarity measures, and distance metrics are pivotal in tasks like classification, clustering, and dimensionality reduction. The effectiveness of traditional metrics, such as Euclidean distance, can be limited when applied to complex datasets. The object of the study is the processes of data classification and dimensionality reduction in machine learning tasks, in particular, the use of metric methods to assess the similarity between objects.
Objective. The study aims to evaluate the feasibility and performance of a normalized L2-metric (Normalized Euclidean Distance, NED) for improving the accuracy of machine learning algorithms, specifically in classification and dimensionality reduction.
Method. We prove mathematically that the normalized L2-metric satisfies the properties of boundedness, scale invariance, and monotonicity. It is shown that NED can be interpreted as a measure of dissimilarity of feature vectors. Its integration into k-nearest neighbors and t-SNE algorithms is investigated using a high-dimensional Alzheimer’s disease dataset. The study implemented four models combining different approaches to classification and dimensionality reduction. Model M1 utilized the k-nearest neighbors method with Euclidean distance without dimensionality reduction, serving as a baseline; Model M2 employed the normalized L2-metric in kNN; Model M3 integrated t-SNE for dimensionality reduction followed by kNN based on Euclidean distance; and Model M4 combined t-SNE and the normalized L2-metric for both reduction and classification stages. A hyperparameter optimization prоcedure was implemented for all models, including the number of neighbors, voting type, and the perplexity parameter for t-SNE. Cross-validation was conducted on five folds to evaluate classification quality objectively. Additionally, the impact of data normalization on model accuracy was examined.
Results. Models using NED consistently outperformed models based on Euclidean distance, with the highest classification accuracy of 91.4% achieved when it was used in t-SNE and the nearest neighbor method (Model M4). This emphasizes the adaptability of NED to complex data structures and its advantage in preserving key features in high and low-dimensional spaces.
Conclusions. The normalized L2-metric shows potential as an effective measure of dissimilarity for machine learning tasks. It improves the performance of algorithms while maintaining scalability and robustness, which indicates its suitability for various applications in high-dimensional data contexts.
UK: Актуальність. У машинному навчанні міри подібності та метрики відстані відіграють ключову роль у задачах класифікація, кластеризація та зменшення розмірності. Ефективність традиційних метрик, зокрема евклідової відстані, може бути обмеженою при застосуванні до складних наборів даних. Об’єктом дослідження є процеси класифікації та зменшення розмірності у задачах машинного навчання, зокрема використання метричних методів для визначення подібності між об’єктами.
Мета роботи – оцінка доцільності та ефективності нормалізованої L2-метрики (нормалізованої евклідової метрики, NED) для підвищення точності алгоритмів машинного навчання, зокрема в задачах класифікації та зменшення розмірності.
Метод. Математично доведено, що нормалізована L2-метрика задовольняє властивості обмеженості, масштабної інваріантності та монотонності. Показано, що NED можна інтерпретувати як міру несхожості векторів ознак. Її інтеграція в алгоритми k-найближчих сусідів і t-SNE досліджується на основі даних про хворобу Альцгеймера високої розмірності. У дослідженні реалізовано чотири моделі, що поєднують різні підходи до класифікації та зменшення розмірності. Модель M1 використовувала метод k-найближчих сусідів з евклідовою відстанню без зменшення розмірності, як базова; модель M2 використовувала нормалізовану L2-метрику в kNN; модель M3 інтегрувала t-SNE для зменшення розмірності, а потім kNN на основі евклідової відстані; модель M4 поєднувала t-SNE і нормалізовану L2-метрику як для зменшення розмірності, так і класифікації. Для всіх моделей було застосовано процедуру оптимізації гіперпараметрів, включаючи кількість сусідів, тип голосування та параметр перплексії в t-SNE. Для об’єктивної оцінки якості класифікації було проведено перехресну перевірку на п’яти фолдах. Крім того, було досліджено вплив нормалізації даних на точність моделі.
Результати. Моделі, що використовували NED, стабільно перевершували моделі на основі евклідової відстані, причому найвища точність класифікації (91,4%) була досягнута при інтегруванні NED у t-SNE та методі найближчих сусідів (модель M4). Це підкреслює адаптивність NED до складних структур даних та її перевагу у збереженні ключових ознак як у високорозмірному, так і в низькорозмірному просторах.
Висновки. Нормалізована метрика L2 демонструє потенціал як ефективна міра несхожості для задач машинного навчання. Вона покращує продуктивність алгоритмів, зберігаючи при цьому масштабованість і надійність, що вказує на її придатність для різних застосувань у контексті даних високої розмірності.
Description
Kondruk N. E. A study on the use of normalized L2-metric in classification tasks / N. E. Kondruk // Радіоелектроніка, інформатика, управління. – 2025. – № 2 (73). – C. 110-115.