Способи визначення подібності категоріальних впорядкованих даних

Кондрук, Н. Е.; Kondruk, N. E.

Способи визначення подібності категоріальних впорядкованих даних

Files

S_31 Kondruk.pdf (799.79 KB)

Date

2023

Authors

Кондрук, Н. Е.

Kondruk, N. E.

Publisher

Національний університет "Запорізька політехніка"

Abstract

UK: Актуальність. Розробка ефективних метрик відстані та мір подібності для категоріальних ознак є важливою задачею в аналізі даних, машинному навчанні, теорії прийняття рішень оскільки значна частина властивостей об’єктів описується саме не числовими значеннями. Зазвичай залежність між категоріальними ознаками може бути складнішою, ніж просто їх порівняння за рівністю чи нерівністю. Такі атрибути можуть бути відносно схожими, і для побудови ефективної моделі задачі необхідно врахувати цю подібність під час розрахунку відстані чи міри подібності. Метою дослідження є підвищення ефективності розв’язання прикладних задач аналізу даних шляхом розробки математичних засобів для визначення подібності об’єктів за категоріальними впорядкованими ознаками. Методи. Запропоновано відстань на базі зваженої манхетенської відстані та міру подібності для визначення схожості об’єктів за категоріальними впорядкованими ознаками ( тобто на множині значень атрибутів можна задати лінійний порядок із шкалами переваг враховуючи предметну область задачі). Доведено, що формула відстані задовольняє аксіомам невід’ємності, симетричності, нерівності трикутника та обмеження з верху, а отже є метрикою відстані в просторі ранжованих категоріальних ознак. Доведено, що міра подібності представлена в досліджені задовольняє аксіомам обмеженості, симетричності, максимальної та мінімальної подібності та описується спадною функцією. Результати. Розроблений підхід реалізовано на прикладній задачі визначення ступеню схожості об’єктів, які описані впорядкованими категоріальними ознаками. Висновки. В даному дослідженні розроблено математичні інструменти для визначення подібності структурованих даних, що описуються категоріальними атрибутами, які можна впорядкувати за певним пріоритетом у вигляді рангу із системою переваг. Проаналізовано їх властивості. Проведені експериментальні дослідження показали зручність, «інтуїтивну зрозумілість» логіки проведення обробки даних при розв’язанні прикладних задач. Представлений підхід може забезпечити можливість проводити нові змістовні дослідження аналізу даних. Перспективи подальших досліджень полягають у експериментальному використанні запропонованих інструментів в практичних задачах та вивченні їх ефективності. EN: Context. The development of effective distance metrics and similarity measures for categorical features is an important task in data analysis, machine learning, and decision theory since a significant portion of object properties is described by non-numerical values. Typically, the dependence between categorical features may be more complex than simply comparing them for equality or inequality. Such attributes can be relatively similar, and to construct an effective model, it is necessary to consider this similarity when calculating distance or similarity measures. Objective. The aim of the study is to improve the efficiency of solving practical data analysis problems by developing mathematical tools for determining the similarity of objects based on categorical ordered features. Method. A distance based on weighted Manhattan distance and a similarity measure for determining the similarity of objects based on categorical ordinal features (i.e. a linear order with scales of preference considering the problem domain can be specified on the attribute value set) are proposed. It is proven that the distance formula satisfies the axioms of non-negativity, symmetry, triangle inequality, and upper bound, and therefore is a distance metric in the space of ranked categorical features. It is also proven that the similarity measure presented in the study satisfies the axioms of boundedness, symmetry, maximum and minimum similarity, and is described by a decreasing function. Results. The developed approach has been implemented in an applied problem of determining the degree of similarity between objects described by ordered categorical features. Conclusions. In this study, mathematical tools were developed to determine similarity between structured data described by categorical attributes that can be ordered based on a specific priority in the form of a ranking system with preferences. Their properties were analyzed. Experimental studies have shown the convenience and “intuitive understanding” of the logic of data processing in solving practical problems. The proposed approach can provide the opportunity to conduct new meaningful research in data analysis. Prospects for further research lie in the experimental use of the proposed tools in practical tasks and in studying their effectiveness.

Description

Кондрук Н. Е. Способи визначення подібності категоріальних впорядкованих даних / Н. Е. Кондрук // Радіоелектроніка, інформатика, управління. – 2023. – № 2 (65). – C. 31-36.